Я хотел бы очистить веб-сайт с помощью Python, который полон ужасных проблем, одной из которых является неправильная кодировка вверху:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
Это неправильно, потому что страница полна вхождений, подобных следующему:
Nell’ambito
вместо
Nell'ambito (обратите внимание, что ’ заменяет ')
Если я правильно понимаю, это происходит потому, что байты utf-8 (вероятно, кодировка базы данных) интерпретируются как байты iso-8859-1 (вынужденные кодировкой в метатеге). Я нашел некоторые начальные объяснения по этой ссылке http://www.i18nqa.com/debug/utf8-debug.html
Я использую BeautifulSoup для навигации по странице, urfetch Google App Engine для выполнения запросов, однако все, что мне нужно, это понять, как правильно хранить в моей базе данных строку, которая исправляет ’, кодируя строку в '.