Вопросы по теме 'lxml'
Закрыть тег без текста в lxml
Я пытаюсь вывести файл XML, используя Python и lxml.
Однако я замечаю одну вещь: если тег не имеет текста, он не закрывается сам по себе. Примером этого может быть:
root = etree.Element('document')
rootTree = etree.ElementTree(root)
firstChild...
4051 просмотров
schedule
12.09.2022
lxml cssselect Парсинг
У меня есть документ со следующими данными:
<div class="ds-list">
<b>1. </b>
A domesticated carnivorous mammal
<i>(Canis familiaris)</i>
related to the foxes and wolves and raised in a wide variety...
14107 просмотров
schedule
22.11.2023
Python: избегайте проверки DTD с помощью LXML
Я разбираю патенты USPTO от 2001 года в формате SGML. В верхней части каждого файла размещается внешняя ссылка DTD упоминается. К сожалению, это DTD кажется недействительным. Проверка достоверности подтверждает, что:
Line 361
Error: A '('...
899 просмотров
schedule
07.06.2024
lxml анализирует файл xsd без URL-адреса схемы
Я использую lxml для анализа файла xsd и ищу простой способ удалить пространство имен URL, прикрепленное к имени каждого элемента. Вот xsd-файл:
<?xml version="1.0" encoding="utf-8"?>
<xs:schema attributeFormDefault="unqualified"...
3993 просмотров
schedule
13.12.2023
Неверное имя тега для lxml
Я использую lxml для анализа xml, который я получил от API рекламы продуктов Amazon. Дерево анализируется как:
root=etree.XML(self.sendRequest(parameters))
Когда я использую root.tag или root.child.tag, я всегда получаю что-то вроде:...
257 просмотров
schedule
14.12.2023
Самый быстрый/лучший способ просмотра XML с помощью lxml в Python
У меня есть файл XML, который выглядит так:
xml = '''<?xml version="1.0"?>
<root>
<item>text</item>
<item2>more text</item2>
<targetroot>...
2501 просмотров
schedule
07.01.2024
Удаление лишних пробелов в китайских HTML-файлах с помощью lxml
У меня есть куча неправильно отформатированных китайских html-файлов. Они содержат ненужные пробелы и разрывы строк, которые будут отображаться в браузере как лишние пробелы. Я написал скрипт, используя lxml для изменения файлов html. Он отлично...
441 просмотров
schedule
08.03.2024
Установите lxml на Mac 10.8.3
У меня есть массовая стандартная установка Mac 10.8.3, в которой используется: Python 2.7.2 (по умолчанию, 11 октября 2012 г., 20:14:37) [GCC 4.2.1 Compatible Apple Clang 4.0 (tags/Apple/clang-418.0. 60)] по Дарвину.
Как мне установить lxml,...
1622 просмотров
schedule
20.11.2023
Нарушение пространства имен xmlns lxml
Я пытаюсь открыть файл xml и получить значения из определенных тегов. Я много раз это делал, но этот конкретный xml вызывает у меня некоторые проблемы. Вот часть xml-файла:
<?xml version='1.0' encoding='UTF-8'?>
<package...
8190 просмотров
schedule
25.01.2024
Пространства имен с подстановочными знаками в lxml
Как сделать запрос с помощью xpath, игнорируя пространство имен xml? Я использую библиотеку python lxml. Я попробовал решение из этого вопроса, но, похоже, не работает .
In [151]: e.find("./*[local-name()='Buckets']")
File "<string>",...
2058 просмотров
schedule
17.04.2024
Разбор html с помощью lxml в python
У меня есть следующий html-код:
...
<p class="footer">[[footer]] - <a href="/rss">feed</a> if you want.</p>
...
Я пытаюсь извлечь "[[footer]] - ленту , если хотите". из этого кода, включая пробелы (общая задача —...
226 просмотров
schedule
24.09.2022
Python/lxml: вложенные циклы for
У меня есть XML, который я пытаюсь разобрать. Пример:
<TVAMain>
<ProgramDescription>
<ProgramLocationTable>
<Schedule value1="1234">
<ScheduleEvent>...
1389 просмотров
schedule
25.08.2022
Поиск всех ссылок, соответствующих определенному шаблону URL-адреса, на HTML-странице
Допустим, у меня есть следующий базовый URL-адрес http://example.com/Stuff/preview/v/{id}/fl/1/t/ . На анализируемой странице есть несколько URL-адресов с разными {id}. Я хочу найти все ссылки, соответствующие этому шаблону, на HTML-странице.
Я...
1890 просмотров
schedule
08.11.2022
Python: lxml xpath получает два разных класса
Вот мой пример кода Python
import requests
import lxml.html
page = '<div class="aaaa12"><span class="test">22</span><span class="number">33</span></div><div...
1725 просмотров
schedule
13.05.2024
Очистка элемента с помощью lxml и Xpath
Проблема, с которой я сталкиваюсь, заключается в очистке самого элемента. Я могу очистить первые два (IncidentNbr и DispatchTime ), но я не могу получить адрес... (1300 Dunn Ave). Я хочу иметь возможность очистить этот элемент, но при этом он должен...
483 просмотров
schedule
28.02.2024
Извлечение информации с веб-сайта с помощью Xpath, Python
Попытка извлечь некоторую полезную информацию с веб-сайта. Я пришел немного, теперь я застрял и нуждаюсь в вашей помощи!
Мне нужна информация из этой таблицы
http://gbgfotboll.se/serier/?scr=scorers&ftid=57700
Я написал этот код и получил...
2331 просмотров
schedule
25.06.2022
BeautifulSoup с XML не может анализировать полные строки Unicode
Отредактировано. Я использую BeautifulSoup с lxml для анализа XML-документов из внешнего источника. Как ни странно, в некоторых документах синтаксический анализатор сдается в середине текста и обрезает документ.
Я сократил это до точного...
1153 просмотров
schedule
08.11.2023
Программа Python очищает другой текст, несмотря на то, что веб-страница не меняется
Этот код пытается очистить листинг Amazon, чтобы проверить его доступность через основного поставщика Amazon.
from lxml import html
from time import sleep
import requests
import time
Amazonurl = raw_input("Item URL: ")
page =...
108 просмотров
schedule
16.05.2024
Сохранение XML с помощью ETree в Python. Он не сохраняет пространства имен, а также добавляет теги ns0, ns1 и удаляет теги xmlns.
Я вижу, что здесь есть похожие вопросы, но ничего, что мне полностью помогло. Я также просмотрел официальную документацию по пространствам имен, но не могу найти ничего, что действительно помогло бы мне, возможно, я слишком новичок в форматировании...
6766 просмотров
schedule
19.05.2024
Извлечение URL-адреса href с помощью запросов Python
Я хотел бы извлечь URL-адрес из xpath, используя пакет запросов в python. Я могу получить текст, но ничего из того, что я пытаюсь, не дает URL. Кто-нибудь может помочь?
ipdb> webpage.xpath(xpath_url + '/text()')
['Text of the URL']
ipdb>...
21877 просмотров
schedule
03.04.2024