Как лучше всего разделить HTML-документ/строку на основе наличия тега
? Я дал решение, которое у меня есть в настоящее время, ниже, но оно кажется довольно громоздким и, я думаю, его не так легко прочитать. Я также экспериментировал с регулярными выражениями, но мне сказали, что я не должен использовать регулярные выражения для анализа HTML.
for i, br in enumerate(soup.findAll('b')):
line_value = ''
line_values = []
next = br.next
while (next):
if next and isinstance(next, Tag) and next.name == 'br':
line_values.append(line_value)
line_value = ''
else:
stripped_text = ''.join(BeautifulSoup(str(next).strip()).findAll(text=True))
if stripped_text:
line_value += stripped_text
next = next.nextSibling
print line_values
Вот пример HTML, который я разбираю:
<p><font size="1" color="#800000"><b>09:00
<font> - </font>
11:00
<br>
CE4817
<font> - </font>LAB <font>- </font>
2A
<br>
B2043 B2042
<br>
Wks:1-13
</b></font>
</p>
И текущие результаты моего кода:
[u'09:00 - 11:00', u'CE4817 - LAB- 2A', u'B2043 B2042']
[u'11:00 - 12:00', u'CE4607 - TUT- 3A', u'A1054']