Beautiful Soup — это библиотека Python, используемая для парсинга веб-страниц, т. е. для извлечения данных из файлов HTML и XML. Эта библиотека позволяет легко и быстро читать содержимое любой веб-страницы. Это позволяет нам читать html-контент, делать отступы с помощью метода prettify() и перемещаться по дереву документа. Prettify() преобразует проанализированное дерево обратно в допустимую разметку.
Установить красивый суп
pip install BeautifulSoup4
Чтение html-файла с помощью html.parser
with open(html_file) as files:
soup = BeautifulSoup(files, "html.parser")
Атрибуты и распространенные способы красивого супа
«find()» и «find_all()», чтобы найти конкретный тег, упомянутый в функции. Например: find("a") — выдаст список первого тега привязки. find_all("a") — выдаст нам список всех тегов привязки в html файле.
«get_text», чтобы получить текстовое значение в теге
sup_object.outer_tag.inner_tag.string также даст значение этого тега.
Изменить содержимое
Красивый суп можно использовать для изменения содержимого html-файла. Пример изменения содержимого показан на странице GitHub, прикрепленной к файлу.
Доступ к родительскому тегу:
Атрибут .parent даст нам доступ к родительскому тегу.
Доступ к дочернему тегу:
.children позволяет нам проверить, есть ли у тега дочерний тег или нет.
.Предыдущий_элемент:
Эта функция позволяет нам получить предыдущий тег/элемент данного элемента.
Примеры часто используемых атрибутов и функций красивого супа показаны в репозитории GitHub, прикрепленном выше.
Ссылка: