Я использую Beautiful Soup для замены вхождений шаблона ссылкой href внутри HTML-файла.
Я столкнулся с проблемой, как описано ниже
modified_contents = re.sub("([^http://*/s]APP[a-z]{2}[0-9]{2})", "<a href=\"http://stack.com=\\1\">\\1</a>", str(soup))
Пример ввода 1:
Input File contains APPdd34
Output File contains <a href="http://stack.com=APPdd34"> APPdd34</a>
Пример ввода 2:
Input File contains <a href="http://stack.com=APPdd34"> APPdd34</a>
Output File contains <a href="http://stack.com=<a href="http://stack.com=APPdd34"> APPdd34</a>"> <a href="http://stack.com=APPdd34"> APPdd34</a></a>
Желаемый выходной файл 2 такой же, как и образец входного файла 2.
Как я могу исправить эту проблему?
[^...]
, а отрицательное утверждение просмотра назад (и в конце отрицательное утверждение просмотра назад). Прочтите об этом в руководстве по Python. - person Chris Morgan   schedule 13.07.2011