Публикации по теме 'beautifulsoup'


Как очистить веб-сайт с помощью BeautifulSoup (пример из практики: Springeropen.com)
Учебник о том, как собирать данные с веб-сайта с помощью Python и Google Colaboratory. В этой статье я буду использовать веб-сайт Springeropen.com в качестве примера. Здесь я не буду устанавливать какое-либо приложение, потому что в этом руководстве будет использоваться облачный сервис Google Colaboratory, к которому мы можем получить доступ по адресу http://colab.research.google.com/ . Что такое SpringerOpen? Прежде чем идти дальше, давайте сначала узнаем, что такое..

Веб-скрейпинг: введение, важность и методы
Наука о данных Веб-скрейпинг: введение, важность и методы Парсинг в Интернете с помощью библиотек Python «Тем, у кого нет навыков, программирование может показаться чем-то вроде волшебства. Если программирование — это волшебство, то просмотр веб-страниц — это волшебство; то есть применение магии для особо впечатляющих и полезных» — Райан Митчелл Index Of Contents · Introduction · Applications of Webscraping · Points to remember before Web scraping · Steps involved in..

InstaPup — бот в Instagram, который загружает фото собаки каждые 5 минут!
Этот проект использует веб-скраппинг и библиотеку Instabot для загрузки изображений собак в Instagram! Как родилась идея Год после изоляции был моим последним годом в университете, а также последними месяцами моей долговременной работы с частичной занятостью в качестве продавца-консультанта. Я не знал, чего ожидать от…

Введение в Beautiful Soup на Python
Ресурс для тех, кто хочет извлекать данные с веб-страницы В сегодняшнем технологическом климате данные очень важны. Данные собираются для изучения тенденций и анализа информации, сбор которой в противном случае занял бы гораздо больше времени. Однако сбор этих данных - непростая задача. Часто данные не передаются вам, и вам нужно выйти и собрать эти данные. К счастью, у нас есть Beautiful Soup , библиотека на языке программирования Python, которая позволяет нам очищать..

Сбор данных из Интернета с помощью запросов и Beautiful Soup
В предыдущем учебнике я показал вам, как вы можете использовать запросы и библиотеки BeautifulSoup для сбора данных с веб-страницы. В этой статье мы пойдем еще дальше и попытаемся получить информацию, стоящую за логином. Кроме того, веб-приложение, которое мы собираемся использовать, требует токена CRSF, что немного усложняет нашу работу. CSRF для краткости или подделка межсайтовых запросов — это уязвимость веб-безопасности, которая позволяет злоумышленнику побуждать пользователей..

Вопросы по теме 'beautifulsoup'

разобрать html красивый суп
У меня есть html-страница <a email="[email protected]" href="http://www.max.ru/agent?message&[email protected]" title="Click herе" class="mf_spIco spr-mrim-9"></a><a class="mf_t11" type="booster"...
3172 просмотров
schedule 13.09.2022

замена тегов html на BeautifulSoup
В настоящее время я переформатирую некоторые HTML-страницы с помощью BeautifulSoup, и у меня возникла небольшая проблема. Моя проблема в том, что в исходном HTML есть такие вещи: <li><p>stff</p></li> и...
20268 просмотров
schedule 29.06.2022

Найдите конкретный тег с BeautifulSoup
Я могу легко перемещаться по общим тегам с помощью BS, но я не знаю, как найти конкретные теги. Например, как мне найти все случаи появления <div style="width=300px;"> ? Возможно ли это с BS?
53809 просмотров
schedule 10.05.2024

Python Find & Replace Beautiful Soup
Я использую Beautiful Soup для замены вхождений шаблона ссылкой href внутри HTML-файла. Я столкнулся с проблемой, как описано ниже modified_contents = re.sub("([^http://*/s]APP[a-z]{2}[0-9]{2})", "<a...
949 просмотров
schedule 23.10.2023

Экономьте место при удалении HTML с помощью Beautiful Soup
from BeautifulSoup import BeautifulSoup html = "<html><p>Para 1. Words</p><p>Merge. Para 2<blockquote>Quote 1<blockquote>Quote 2</p></html>" print html soup = BeautifulSoup(html) print...
3138 просмотров
schedule 15.09.2022

Парсинг веб-сайта с кодировкой iso-8859-1 вместо utf-8: как мне сохранить правильный юникод в моей базе данных?
Я хотел бы очистить веб-сайт с помощью Python, который полон ужасных проблем, одной из которых является неправильная кодировка вверху: <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> Это неправильно, потому что...
2873 просмотров
schedule 31.12.2023

BeautifulSoup: анализировать только часть страницы
Я хочу проанализировать часть html-страницы, скажем my_string = """ <p>Some text. Some text. Some text. Some text. Some text. Some text. <a href="#">Link1</a> <a href="#">Link2</a> </p> <img...
2165 просмотров
schedule 26.12.2023

BeautifulSoup: извлечение атрибутов HTML-тегов
Есть ли способ получить атрибуты HTML-тегов только при text=True без указания тегов. Пример: html=<p class="c4">SOMETEXT</p> Я мог бы сделать: [tag.attrs for tag in soup.findAll('p')] >>> [[(u'class', u'c1')]]...
1142 просмотров
schedule 11.07.2022

Разбор веб-страницы в кодировке utf-8 с некоторым текстом тела gb2312 с помощью Python
Я пытаюсь разобрать веб-страницу, используя красивый парсер Python для супа, и столкнулся с проблемой. Заголовок HTML, который мы получаем от них, объявляет набор символов utf-8, поэтому Beautiful Soup кодирует весь документ в utf-8, и теги HTML...
512 просмотров

BeautifulSoup, словарь из таблицы HTML
Я пытаюсь очистить данные таблицы с веб-сайта. Вот простая примерная таблица: t = '<html><table>' +\ '<tr><td class="label"> a </td> <td> 1 </td></tr>' +\ '<tr><td...
26965 просмотров
schedule 15.12.2023

Сохранение XML-документа нарушает мою декларацию XSI
У меня есть вопрос: Я анализирую XML с пространством имен с помощью парсера Python xml ( beautifulsoup ), и когда Я сохраняю этот xml, который синтаксический анализатор заменяет: «xsi:» в пространстве имен на...
121 просмотров
schedule 19.12.2023

Разделить HTML-документ по тегу — Python
Как лучше всего разделить HTML-документ/строку на основе наличия тега ? Я дал решение, которое у меня есть в настоящее время, ниже, но оно кажется довольно громоздким и, я думаю, его не так легко прочитать. Я также экспериментировал с регулярными...
2922 просмотров
schedule 18.09.2022

простой поисковый робот
Я написал ниже программу на python для очень простого веб-краулера, но когда я запускаю ее, она возвращает мне объект «NoneType», который нельзя вызывать, не могли бы вы мне помочь? import BeautifulSoup import urllib2 def union(p,q): for e in...
10685 просмотров
schedule 20.10.2023

Python Скрапинг комментариев fb с веб-сайта
Я пытался очистить комментарии facebook, используя Beautiful Soup, на страницах ниже. import BeautifulSoup import urllib2 import re url = 'http://techcrunch.com/2012/05/15/facebook-lightbox/' fd = urllib2.urlopen(url) soup =...
3506 просмотров
schedule 12.04.2024

Извлечение HTML из Beautiful Soup
Я изо всех сил пытаюсь получить данные, которые мне нужны, и я уверен, что это очень просто, если вы знаете, как использовать BS. Я пытался сделать это правильно в течение нескольких часов безрезультатно после прочтения документов. В настоящее...
182 просмотров
schedule 07.02.2024

Как извлечь с помощью BeautifulSoup Python
Меня интересует только использование BeautifulSoup для извлечения всей ценности 3-часовых показаний PSI с 12:00 до 23:59. Например, последний жирный текст 82 в 17:00. Пример веб-сайта:...
335 просмотров
schedule 09.11.2022

Извлечение данных из Facebook с помощью Python
Я уже несколько дней пытаюсь (безуспешно) собрать города примерно с 500 URL-адресов Facebook. Однако Facebook очень странно обрабатывает свои данные, и я не могу понять, что происходит под капотом, чтобы понять, что мне нужно делать. По сути,...
47956 просмотров

Селектор CSS Beautiful Soup 4 работает не так, как показано в руководстве
Я запускаю пример кода CSS-селектора с [учебной страницы Beautiful Soup 4][1], но результаты разные, некоторые дают правильный результат, некоторые нет. На веб-сайте говорится, что это должно работать одинаково в Python 2.7 и 3. У меня есть Python...
3168 просмотров
schedule 25.11.2023

Beautiful Soup Извлечение данных после href (не URL)
Я новичок в использовании BeautifulSoup и пытаюсь использовать его для получения некоторых тестовых данных с NHL.com. Вот мой код до сих пор, но я довольно потерян... Вот фрагмент кода HTML, из которого я хочу извлечь данные: <tr>...
1501 просмотров

приведение к Unicode: нужна строка или буфер, тег найден
Я пытался сделать веб-скрейпинг и использовал следующий код: import mechanize from bs4 import BeautifulSoup url = "http://www.indianexpress.com/news/indian-actions-discriminating-against-us-exp/1131015/" br = mechanize.Browser() htmltext =...
3084 просмотров