Вопросы по теме 'html-parsing'

Парсинг веб-страниц
У меня есть вопрос о синтаксическом анализе HTML-страниц, в частности форумов, я хочу проанализировать форум или ветку, содержащую определенные критерии сообщения, я еще не определил алгоритм, так как раньше я анализировал только текстовые форматы...
5611 просмотров
schedule 01.09.2022

Нокогири против Хприкота?
Какой из них вы бы выбрали? Мои важные атрибуты (не по порядку): Поддержка и будущие улучшения. Сообщество и общая база знаний (в Интернете). Всеобъемлющий (т.е., доказано, что он анализирует широкий диапазон страниц *.*ml). Представление....
7351 просмотров
schedule 09.04.2024

Получить текст ‹td› при использовании WWW::Mechanize для получения ‹a› внутри этого тега ‹td›
Я новичок в Perl-HTML. Я пытаюсь получить как тексты, так и ссылки из таблицы HTML. Вот структура HTML: <td>Td-Text <br> <a href="Link-I-Want" title="title-I-Want">A-Text</a> </td> Я выяснил, что...
1941 просмотров
schedule 21.10.2023

Механизм Python SelectControl пуст, когда он должен иметь значения
Я пытаюсь автоматизировать загрузку некоторых данных из веб-формы. Я использую модуль Python mechanize . URL находится здесь: http://www.hiv.lanl.gov/components/sequence/HIV/search/search.html Мне нужно указать длину последовательности, подтип...
777 просмотров
schedule 11.03.2024

Как найти соответствующий закрывающий тег в строке html?
Представьте себе следующий HTML: <div> <b></b> <div> <table>...</table> </div> </div> <!-- this one --> ... Как я могу найти соответствующий закрывающий тег для первого...
3454 просмотров
schedule 28.03.2024

Выбор узлов HTML Agility Pack
Я пытаюсь использовать пакет HTML Agility для очистки некоторых данных с сайта. Я действительно изо всех сил пытаюсь понять, как использовать selectnodes внутри foreach, а затем экспортировать данные в список или массив. Вот код, с которым я...
47103 просмотров
schedule 09.10.2023

Как удалить весь div с помощью preg_replace
Хорошо, поскольку это проблема WordPress, и, к сожалению, она идет немного глубже, мне нужно удалить каждое представление родительского div и его внутри: <div class="sometestclass"> <img ....> <div>.....</div> any...
9119 просмотров
schedule 20.04.2024

BeautifulSoup: анализировать только часть страницы
Я хочу проанализировать часть html-страницы, скажем my_string = """ <p>Some text. Some text. Some text. Some text. Some text. Some text. <a href="#">Link1</a> <a href="#">Link2</a> </p> <img...
2165 просмотров
schedule 26.12.2023

Как удалить всю таблицу стилей с помощью парсера ganon DOM
Я использую ganon (http://code.google.com/p/ganon/) Парсер DOM для управления html-содержимым. Мне нужно манипулировать данной html-страницей. Для этого сначала мне нужно удалить все таблицы стилей (теги ссылок) из dom. Но я не нашел никакой...
1015 просмотров
schedule 28.03.2024

простой html dom и таблица синтаксического анализа
Мне нужно разобрать 2 вида таблицы, один из них http://leghe.fantagazzetta.com/f12-13/ ("Общая классификация") а две другие таблицы находятся здесь http://leghe.fantagazzetta.com/f12-13/formazioni?id=30339&g=4 как я могу извлечь эти...
6003 просмотров
schedule 17.02.2024

Найдите элемент HTML, который содержит наибольшее количество упоминаний данного слова
У меня есть документ HTML, и я хотел бы найти элемент HTML, который является ближайшей оболочкой для самого большого кластера упоминаний данного слова. Со следующим HTML: <body> <p> Hello <b>foo</b>, I like...
373 просмотров

Разделение html-текста на символы и html-теги (с PHP и MySQL)
Я хочу сохранить html-текст в базе данных, разделенный на отдельные символы. Поскольку текст длинный, а процесс частый, особое значение имеет производительность. Таким образом, мне нужно найти эффективный способ выполнить это в PHP без перегрузки...
246 просмотров
schedule 24.01.2024

Visual Basic 2010 — получение чисел из html-раздела
В настоящее время я работаю над программой, которая будет усреднять цены для искомого товара на Amazon . У меня есть кнопка в программе, которая при нажатии выводит исходный код HTML в richtextbox , а затем находит конкретный div в исходном...
303 просмотров

Захват контента, сгенерированного JavaScript
Веб-страница использует JavaScript для размещения контента на странице, поэтому я получил простой HTML, на странице нет данных. Мне нужно что-то, что будет не только читать HTML, но также выполнять и применять JavaScript к DOM, и только потом...
143 просмотров
schedule 03.01.2024

Beautiful Soup Извлечение данных после href (не URL)
Я новичок в использовании BeautifulSoup и пытаюсь использовать его для получения некоторых тестовых данных с NHL.com. Вот мой код до сих пор, но я довольно потерян... Вот фрагмент кода HTML, из которого я хочу извлечь данные: <tr>...
1501 просмотров

Разбор списка jsoup
Я создал список, в котором я анализирую веб-страницу. Я могу отображать заголовки и первое изображение первой статьи, но я хочу отображать изображение для каждой статьи. Это код: ИЗМЕНЕННЫЙ КОД public class MainActivity extends Activity{...
368 просмотров

Анализ HTML-кода страницы, содержащейся в паре ключ-значение JSON, с помощью TFHpple в iOS
Я делаю собственное приложение iOS для проекта моей команды, используя его API. API имеет три основных метода: получение информации о профиле пользователя, его дневнике и таблице сертификатов. Последний метод возвращает мне данные JSON с HTML-кодом...
354 просмотров
schedule 28.01.2024

Поиск всех ссылок, соответствующих определенному шаблону URL-адреса, на HTML-странице
Допустим, у меня есть следующий базовый URL-адрес http://example.com/Stuff/preview/v/{id}/fl/1/t/ . На анализируемой странице есть несколько URL-адресов с разными {id}. Я хочу найти все ссылки, соответствующие этому шаблону, на HTML-странице. Я...
1890 просмотров
schedule 08.11.2022

Использование BeautifulSoup для извлечения нескольких сообщений с одной страницы архива блога без скриптов
Я пытаюсь извлечь авторов, название, дату и содержание публикации из серии страниц архива блогов WordPress и Blogger. Я сохранил страницы, чтобы не пинговать сервер повторно. У меня работают другие части, но я не могу одновременно получить все...
1081 просмотров

Разбор HTML в Delphi с помощью HtmlP
Я пытаюсь разобрать html-файл, чтобы извлечь данные из таблицы. Итак, я немного погуглил и оказался здесь, где был задан аналогичный вопрос. В этом вопросе они предложили использовать HTMLP для разбора html. поэтому я скачал модули и попробовал....
2148 просмотров