Beautiful Soup — это библиотека Python, используемая для парсинга веб-страниц, т. е. для извлечения данных из файлов HTML и XML. Эта библиотека позволяет легко и быстро читать содержимое любой веб-страницы. Это позволяет нам читать html-контент, делать отступы с помощью метода prettify() и перемещаться по дереву документа. Prettify() преобразует проанализированное дерево обратно в допустимую разметку.

Установить красивый суп

pip install BeautifulSoup4

Чтение html-файла с помощью html.parser

with open(html_file) as files:
    soup = BeautifulSoup(files, "html.parser")

Атрибуты и распространенные способы красивого супа

«find()» и «find_all()», чтобы найти конкретный тег, упомянутый в функции. Например: find("a") — выдаст список первого тега привязки. find_all("a") — выдаст нам список всех тегов привязки в html файле.

«get_text», чтобы получить текстовое значение в теге

sup_object.outer_tag.inner_tag.string также даст значение этого тега.

Изменить содержимое

Красивый суп можно использовать для изменения содержимого html-файла. Пример изменения содержимого показан на странице GitHub, прикрепленной к файлу.

Доступ к родительскому тегу:

Атрибут .parent даст нам доступ к родительскому тегу.

Доступ к дочернему тегу:

.children позволяет нам проверить, есть ли у тега дочерний тег или нет.

.Предыдущий_элемент:

Эта функция позволяет нам получить предыдущий тег/элемент данного элемента.



Примеры часто используемых атрибутов и функций красивого супа показаны в репозитории GitHub, прикрепленном выше.

Ссылка:

  1. https://beautiful-soup-4.readthedocs.io/en/latest/#
  2. https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser