Я получил некоторый XML из вышестоящего источника данных.
Я не уверен, что эти странные символы допустимы в UTF8, или исходный код все испортил. то есть неверные данные на входе => неверные данные на выходе.
Я предполагаю, что было передано следующее:
Value in XML file | Unicode Value | UTF-8 Value | English Description
-------------------------------------------------------------------------------------------
’ | U+2019 | \xe2\x80\x99 | RIGHT SINGLE QUOTATION MARK
• | U+2022 | \xe2\x80\xa3 | BULLET
& | -not unicode- | -- | Ampsersand, HTML Encoded.
я чувствую, что \ в начале значения UFT-8 вроде как... закодировано, но .. сделано неправильно?
Может кто-нибудь объяснить, на что я смотрю, чтобы я знал, как правильно это расшифровать. Что также расстраивает, так это то, что я чувствую, что это может быть смесь кодировок, которая сделает все ужасно :(
Ссылка: http://utf8-chartable.de/unicode-utf8-table.pl?start=8192&number=128&utf8=string-literal
