Я пытаюсь разобрать веб-страницу, используя красивый парсер Python для супа, и столкнулся с проблемой.
Заголовок HTML, который мы получаем от них, объявляет набор символов utf-8, поэтому Beautiful Soup кодирует весь документ в utf-8, и теги HTML действительно кодируются в UTF-8, поэтому мы получаем хорошо структурированную HTML-страницу.
Проблема в том, что этот глупый веб-сайт вставляет основной текст в кодировке gb2312 на страницу, которая обрабатывается как utf-8 красивым супом. Есть ли способ преобразовать текст из этого состояния «gb2312, притворяющегося utf-8», в «правильное выражение набора символов в utf-8?»