Вопросы по теме 'html-parsing'
Парсинг веб-страниц
У меня есть вопрос о синтаксическом анализе HTML-страниц, в частности форумов, я хочу проанализировать форум или ветку, содержащую определенные критерии сообщения, я еще не определил алгоритм, так как раньше я анализировал только текстовые форматы...
5611 просмотров
schedule
01.09.2022
Нокогири против Хприкота?
Какой из них вы бы выбрали? Мои важные атрибуты (не по порядку):
Поддержка и будущие улучшения.
Сообщество и общая база знаний (в Интернете).
Всеобъемлющий (т.е., доказано, что он анализирует широкий диапазон страниц *.*ml).
Представление....
7351 просмотров
schedule
09.04.2024
Получить текст ‹td› при использовании WWW::Mechanize для получения ‹a› внутри этого тега ‹td›
Я новичок в Perl-HTML. Я пытаюсь получить как тексты, так и ссылки из таблицы HTML.
Вот структура HTML:
<td>Td-Text
<br>
<a href="Link-I-Want" title="title-I-Want">A-Text</a>
</td>
Я выяснил, что...
1941 просмотров
schedule
21.10.2023
Механизм Python SelectControl пуст, когда он должен иметь значения
Я пытаюсь автоматизировать загрузку некоторых данных из веб-формы. Я использую модуль Python mechanize .
URL находится здесь: http://www.hiv.lanl.gov/components/sequence/HIV/search/search.html Мне нужно указать длину последовательности, подтип...
777 просмотров
schedule
11.03.2024
Как найти соответствующий закрывающий тег в строке html?
Представьте себе следующий HTML:
<div>
<b></b>
<div>
<table>...</table>
</div>
</div> <!-- this one -->
...
Как я могу найти соответствующий закрывающий тег для первого...
3454 просмотров
schedule
28.03.2024
Выбор узлов HTML Agility Pack
Я пытаюсь использовать пакет HTML Agility для очистки некоторых данных с сайта. Я действительно изо всех сил пытаюсь понять, как использовать selectnodes внутри foreach, а затем экспортировать данные в список или массив.
Вот код, с которым я...
47103 просмотров
schedule
09.10.2023
Как удалить весь div с помощью preg_replace
Хорошо, поскольку это проблема WordPress, и, к сожалению, она идет немного глубже, мне нужно удалить каждое представление родительского div и его внутри:
<div class="sometestclass">
<img ....>
<div>.....</div>
any...
9119 просмотров
schedule
20.04.2024
BeautifulSoup: анализировать только часть страницы
Я хочу проанализировать часть html-страницы, скажем
my_string = """
<p>Some text. Some text. Some text. Some text. Some text. Some text.
<a href="#">Link1</a>
<a href="#">Link2</a>
</p>
<img...
2165 просмотров
schedule
26.12.2023
Как удалить всю таблицу стилей с помощью парсера ganon DOM
Я использую ganon (http://code.google.com/p/ganon/) Парсер DOM для управления html-содержимым.
Мне нужно манипулировать данной html-страницей. Для этого сначала мне нужно удалить все таблицы стилей (теги ссылок) из dom. Но я не нашел никакой...
1015 просмотров
schedule
28.03.2024
простой html dom и таблица синтаксического анализа
Мне нужно разобрать 2 вида таблицы, один из них
http://leghe.fantagazzetta.com/f12-13/ ("Общая классификация")
а две другие таблицы находятся здесь http://leghe.fantagazzetta.com/f12-13/formazioni?id=30339&g=4
как я могу извлечь эти...
6003 просмотров
schedule
17.02.2024
Найдите элемент HTML, который содержит наибольшее количество упоминаний данного слова
У меня есть документ HTML, и я хотел бы найти элемент HTML, который является ближайшей оболочкой для самого большого кластера упоминаний данного слова.
Со следующим HTML:
<body>
<p>
Hello <b>foo</b>, I like...
373 просмотров
schedule
09.01.2024
Разделение html-текста на символы и html-теги (с PHP и MySQL)
Я хочу сохранить html-текст в базе данных, разделенный на отдельные символы. Поскольку текст длинный, а процесс частый, особое значение имеет производительность. Таким образом, мне нужно найти эффективный способ выполнить это в PHP без перегрузки...
246 просмотров
schedule
24.01.2024
Visual Basic 2010 — получение чисел из html-раздела
В настоящее время я работаю над программой, которая будет усреднять цены для искомого товара на Amazon .
У меня есть кнопка в программе, которая при нажатии выводит исходный код HTML в richtextbox , а затем находит конкретный div в исходном...
303 просмотров
schedule
17.04.2024
Захват контента, сгенерированного JavaScript
Веб-страница использует JavaScript для размещения контента на странице, поэтому я получил простой HTML, на странице нет данных. Мне нужно что-то, что будет не только читать HTML, но также выполнять и применять JavaScript к DOM, и только потом...
143 просмотров
schedule
03.01.2024
Beautiful Soup Извлечение данных после href (не URL)
Я новичок в использовании BeautifulSoup и пытаюсь использовать его для получения некоторых тестовых данных с NHL.com. Вот мой код до сих пор, но я довольно потерян...
Вот фрагмент кода HTML, из которого я хочу извлечь данные:
<tr>...
1501 просмотров
schedule
15.10.2023
Разбор списка jsoup
Я создал список, в котором я анализирую веб-страницу. Я могу отображать заголовки и первое изображение первой статьи, но я хочу отображать изображение для каждой статьи. Это код:
ИЗМЕНЕННЫЙ КОД
public class MainActivity extends Activity{...
368 просмотров
schedule
02.09.2022
Анализ HTML-кода страницы, содержащейся в паре ключ-значение JSON, с помощью TFHpple в iOS
Я делаю собственное приложение iOS для проекта моей команды, используя его API. API имеет три основных метода: получение информации о профиле пользователя, его дневнике и таблице сертификатов. Последний метод возвращает мне данные JSON с HTML-кодом...
354 просмотров
schedule
28.01.2024
Поиск всех ссылок, соответствующих определенному шаблону URL-адреса, на HTML-странице
Допустим, у меня есть следующий базовый URL-адрес http://example.com/Stuff/preview/v/{id}/fl/1/t/ . На анализируемой странице есть несколько URL-адресов с разными {id}. Я хочу найти все ссылки, соответствующие этому шаблону, на HTML-странице.
Я...
1890 просмотров
schedule
08.11.2022
Использование BeautifulSoup для извлечения нескольких сообщений с одной страницы архива блога без скриптов
Я пытаюсь извлечь авторов, название, дату и содержание публикации из серии страниц архива блогов WordPress и Blogger. Я сохранил страницы, чтобы не пинговать сервер повторно. У меня работают другие части, но я не могу одновременно получить все...
1081 просмотров
schedule
06.03.2024
Разбор HTML в Delphi с помощью HtmlP
Я пытаюсь разобрать html-файл, чтобы извлечь данные из таблицы. Итак, я немного погуглил и оказался здесь, где был задан аналогичный вопрос.
В этом вопросе они предложили использовать HTMLP для разбора html. поэтому я скачал модули и попробовал....
2148 просмотров
schedule
11.11.2023