Вопросы по теме 'lxml'

Закрыть тег без текста в lxml
Я пытаюсь вывести файл XML, используя Python и lxml. Однако я замечаю одну вещь: если тег не имеет текста, он не закрывается сам по себе. Примером этого может быть: root = etree.Element('document') rootTree = etree.ElementTree(root) firstChild...
4051 просмотров
schedule 12.09.2022

lxml cssselect Парсинг
У меня есть документ со следующими данными: <div class="ds-list"> <b>1. </b> A domesticated carnivorous mammal <i>(Canis familiaris)</i> related to the foxes and wolves and raised in a wide variety...
14107 просмотров
schedule 22.11.2023

Python: избегайте проверки DTD с помощью LXML
Я разбираю патенты USPTO от 2001 года в формате SGML. В верхней части каждого файла размещается внешняя ссылка DTD упоминается. К сожалению, это DTD кажется недействительным. Проверка достоверности подтверждает, что: Line 361 Error: A '('...
899 просмотров
schedule 07.06.2024

lxml анализирует файл xsd без URL-адреса схемы
Я использую lxml для анализа файла xsd и ищу простой способ удалить пространство имен URL, прикрепленное к имени каждого элемента. Вот xsd-файл: <?xml version="1.0" encoding="utf-8"?> <xs:schema attributeFormDefault="unqualified"...
3993 просмотров
schedule 13.12.2023

Неверное имя тега для lxml
Я использую lxml для анализа xml, который я получил от API рекламы продуктов Amazon. Дерево анализируется как: root=etree.XML(self.sendRequest(parameters)) Когда я использую root.tag или root.child.tag, я всегда получаю что-то вроде:...
257 просмотров
schedule 14.12.2023

Самый быстрый/лучший способ просмотра XML с помощью lxml в Python
У меня есть файл XML, который выглядит так: xml = '''<?xml version="1.0"?> <root> <item>text</item> <item2>more text</item2> <targetroot>...
2501 просмотров
schedule 07.01.2024

Удаление лишних пробелов в китайских HTML-файлах с помощью lxml
У меня есть куча неправильно отформатированных китайских html-файлов. Они содержат ненужные пробелы и разрывы строк, которые будут отображаться в браузере как лишние пробелы. Я написал скрипт, используя lxml для изменения файлов html. Он отлично...
441 просмотров
schedule 08.03.2024

Установите lxml на Mac 10.8.3
У меня есть массовая стандартная установка Mac 10.8.3, в которой используется: Python 2.7.2 (по умолчанию, 11 октября 2012 г., 20:14:37) [GCC 4.2.1 Compatible Apple Clang 4.0 (tags/Apple/clang-418.0. 60)] по Дарвину. Как мне установить lxml,...
1622 просмотров
schedule 20.11.2023

Нарушение пространства имен xmlns lxml
Я пытаюсь открыть файл xml и получить значения из определенных тегов. Я много раз это делал, но этот конкретный xml вызывает у меня некоторые проблемы. Вот часть xml-файла: <?xml version='1.0' encoding='UTF-8'?> <package...
8190 просмотров
schedule 25.01.2024

Пространства имен с подстановочными знаками в lxml
Как сделать запрос с помощью xpath, игнорируя пространство имен xml? Я использую библиотеку python lxml. Я попробовал решение из этого вопроса, но, похоже, не работает . In [151]: e.find("./*[local-name()='Buckets']") File "<string>",...
2058 просмотров
schedule 17.04.2024

Разбор html с помощью lxml в python
У меня есть следующий html-код: ... <p class="footer">[[footer]] - <a href="/rss">feed</a> if you want.</p> ... Я пытаюсь извлечь "[[footer]] - ленту , если хотите". из этого кода, включая пробелы (общая задача —...
226 просмотров
schedule 24.09.2022

Python/lxml: вложенные циклы for
У меня есть XML, который я пытаюсь разобрать. Пример: <TVAMain> <ProgramDescription> <ProgramLocationTable> <Schedule value1="1234"> <ScheduleEvent>...
1389 просмотров
schedule 25.08.2022

Поиск всех ссылок, соответствующих определенному шаблону URL-адреса, на HTML-странице
Допустим, у меня есть следующий базовый URL-адрес http://example.com/Stuff/preview/v/{id}/fl/1/t/ . На анализируемой странице есть несколько URL-адресов с разными {id}. Я хочу найти все ссылки, соответствующие этому шаблону, на HTML-странице. Я...
1890 просмотров
schedule 08.11.2022

Python: lxml xpath получает два разных класса
Вот мой пример кода Python import requests import lxml.html page = '<div class="aaaa12"><span class="test">22</span><span class="number">33</span></div><div...
1725 просмотров
schedule 13.05.2024

Очистка элемента с помощью lxml и Xpath
Проблема, с которой я сталкиваюсь, заключается в очистке самого элемента. Я могу очистить первые два (IncidentNbr и DispatchTime ), но я не могу получить адрес... (1300 Dunn Ave). Я хочу иметь возможность очистить этот элемент, но при этом он должен...
483 просмотров
schedule 28.02.2024

Извлечение информации с веб-сайта с помощью Xpath, Python
Попытка извлечь некоторую полезную информацию с веб-сайта. Я пришел немного, теперь я застрял и нуждаюсь в вашей помощи! Мне нужна информация из этой таблицы http://gbgfotboll.se/serier/?scr=scorers&ftid=57700 Я написал этот код и получил...
2331 просмотров
schedule 25.06.2022

BeautifulSoup с XML не может анализировать полные строки Unicode
Отредактировано. Я использую BeautifulSoup с lxml для анализа XML-документов из внешнего источника. Как ни странно, в некоторых документах синтаксический анализатор сдается в середине текста и обрезает документ. Я сократил это до точного...
1153 просмотров
schedule 08.11.2023

Программа Python очищает другой текст, несмотря на то, что веб-страница не меняется
Этот код пытается очистить листинг Amazon, чтобы проверить его доступность через основного поставщика Amazon. from lxml import html from time import sleep import requests import time Amazonurl = raw_input("Item URL: ") page =...
108 просмотров

Сохранение XML с помощью ETree в Python. Он не сохраняет пространства имен, а также добавляет теги ns0, ns1 и удаляет теги xmlns.
Я вижу, что здесь есть похожие вопросы, но ничего, что мне полностью помогло. Я также просмотрел официальную документацию по пространствам имен, но не могу найти ничего, что действительно помогло бы мне, возможно, я слишком новичок в форматировании...
6766 просмотров
schedule 19.05.2024

Извлечение URL-адреса href с помощью запросов Python
Я хотел бы извлечь URL-адрес из xpath, используя пакет запросов в python. Я могу получить текст, но ничего из того, что я пытаюсь, не дает URL. Кто-нибудь может помочь? ipdb> webpage.xpath(xpath_url + '/text()') ['Text of the URL'] ipdb>...
21877 просмотров