Публикации по теме 'web-crawler'


Python’s Scrapy
Превосходный пакет для веб-сканирования Scrapy — это быстрый и мощный фреймворк для парсинга веб-страниц для Python. Он разработан, чтобы быть простым в использовании и позволять разработчикам быстро и эффективно очищать веб-сайты. Вот несколько примеров общих функций Scrapy: scrapy.Request : эта функция создает запрос к веб-сайту и возвращает объект Response . import scrapy def scrape_website(self): yield scrapy.Request(url='http://www.example.com',..

Вопросы по теме 'web-crawler'

HTTPWebResponse + StreamReader очень медленный
Я пытаюсь реализовать ограниченный веб-сканер на С# (только для нескольких сотен сайтов), используя HttpWebResponse.GetResponse() и Streamreader.ReadToEnd() , также пробовал использовать StreamReader.Read() и цикл для создания моей строки HTML. Я...
23389 просмотров

Как я могу заставить MediaWiki игнорировать просмотры страниц из Google Search Appliance?
Счетчик просмотров страниц на каждой странице MediaWiki кажется отличным способом определить популярные страницы, над которыми стоит приложить больше усилий. поддерживать актуальность и полезность, но я столкнулся с проблемой. Мы используем...
702 просмотров

Настройки стиля кода с использованием Sicstus и Eclipse (Spider)
В настоящее время я использую Sicstus Prolog VC9 4.1.1 в Eclipse Galileo (Spider). У меня очень новый вопрос: как мне автоматически управлять отступами и вообще настройками стиля кода?
162 просмотров

Программное обеспечение для анализа файлов веб-журналов для измерения поисковых роботов
Мне нужно проанализировать, как поисковые системы сканируют мой сайт. Есть ли хороший инструмент для этого? Я пробовал AWStats и Sawmill. Но оба они дают мне очень ограниченное представление о ползании. Мне нужно знать информацию, например,...
591 просмотров

Скриншот экрана или сканирование выпадающих полей со всеми перестановками с другого сайта
Сначала мне нужно спросить, в чем разница между поисковым роботом и очисткой экрана. во-вторых, я хочу просканировать или просмотреть раскрывающиеся поля очистить с различными перестановками, чтобы я мог получить эти данные в своей собственной базе...
365 просмотров
schedule 26.11.2023

Хороший источник IP-адресов Crawler / Spider
Где я могу найти полный список IP-адресов Crawler или Spider. Мне нужны IP-адреса от google yahoo, microsoft и других поисковых систем, которые регулярно сканируют мои сайты. Я не хочу их отключать, поэтому не включайте файл robots.txt в ответы....
7740 просмотров
schedule 14.11.2023

Сканируйте веб-сайт с помощью wget и ограничьте общее количество просканированных ссылок
Я хочу узнать больше о сканерах, поиграв с инструментом wget. Меня интересует сканирование веб-сайта моего отдела и поиск первых 100 ссылок на этом сайте. Пока что команда ниже - это то, что у меня есть. Как сделать так, чтобы поисковый робот...
5476 просмотров
schedule 28.02.2024

Классификация веб-сайтов
Мне нужно просмотреть тысячи веб-сайтов с одинаковой структурой: у всех есть меню, заголовок, какой-то текст и рейтинг, как у блога. К сожалению, они также закодированы очень по-разному, а некоторые — вручную, поэтому я не могу повторно использовать...
1265 просмотров

Сайт MVC не сканируется поисковыми системами основного потока?
Он основан на MVC 3 + Razor, и теперь для сайта не создается DNS, а только общедоступный IP. Из-за непонимания того, обрабатывает ли Google паук для IP-сайтов и каким образом, у нас возникает головная боль, поскольку мы не можем получить какие-либо...
1272 просмотров

SEO: можно ли сканировать динамически генерируемые ссылки?
У меня есть страница, содержащая теги <div> с кодом onclick="", который вызывает запрос ajax для получения данных json, а затем перебирает результаты для формирования ссылок ( <a /> ) для добавления на страницу. Эти ссылки не существуют...
1137 просмотров

Быстрый поисковый робот в Интернете
Я хотел бы выполнять интеллектуальный анализ данных в больших масштабах. Для этого мне нужен быстрый сканер. Все, что мне нужно, это что-то, чтобы загрузить веб-страницу, извлечь ссылки и рекурсивно переходить по ним, но без повторного посещения...
7124 просмотров

Могут ли modernizr и/или yepnope реагировать на ботов и пауков?
У меня есть JS, работающий на странице, которая выводит окно выбора модальной локализации. Я хотел бы предотвратить это для ботов/краулеров. Есть ли способ сделать это с помощью Modernizr и/или yepnope.js?
486 просмотров

Как получить доступ к подузлам с помощью htmlagilitypack в С# [на основе предложения from]
у меня есть html как: <div class="article-listing"> <div class="media-data"> <h4><a...
572 просмотров

Что вы делаете для защиты от спам-ботов?
у нас есть веб-сайт, который иногда зависает из-за спам-ботов, мы пытались заблокировать их IP-адреса, но это не очень хорошая идея, потому что у них может быть динамический IP-адрес, у кого-нибудь есть хороший способ их остановить, мы пытались...
527 просмотров

Какие есть хорошие сканеры, которые могут помочь скачать файлы
Для одного из моих статистических проектов мне нужно СЛУЧАЙНО загрузить несколько файлов со страницы патента Google, и каждый файл представляет собой большой zip-файл. Веб-ссылка следующая:...
296 просмотров
schedule 17.11.2022

Может ли механизм Python извлечь текст, связанный с элементом управления?
Я пишу сканер и постоянно сталкиваюсь с элементами управления формами, для которых механизация не может дать мне никакой информации, кроме типа. Есть ли способ получить удобочитаемый текст, связанный с элементом управления? Я знаю, что это немного...
148 просмотров
schedule 15.10.2022

извлекать URL-адреса из результатов Google java
Возможный дубликат: Как можно поиск в Google программно Java API Мне нужно извлечь URL-адреса в результатах поиска Google с помощью Java. Первый шаг, который я сделал, - это использовать код, который извлекает весь текст...
2059 просмотров
schedule 28.09.2022

Не удается прочитать URL-адрес UNICODE в С#
Следующий код не будет работать: using System; using System.IO; using System.Net; using System.Web; namespace Proyecto_Prueba_04 { class Program { /// <summary> /// /// </summary> /// <param...
1256 просмотров
schedule 10.05.2024

Определение параметров на crawler4j
Я пытаюсь использовать crawler4j, как было показано в этот пример, и независимо от того, как я определяю количество сканеров или меняю корневую папку, я продолжаю получать эту ошибку из кода, указывающего: «Необходимые параметры: rootFolder (он...
1681 просмотров
schedule 06.10.2023

Как создать резервную копию всей веб-страницы с изображением с помощью python?
Возможный дубликат: Как загрузить файл на питоне Я играю с Python, чтобы кое-что сканировать. Я знаю, что есть urllib.urlopen("http://XXXX") , который может помочь мне получить html для целевого веб-сайта. Однако ссылка на исходное...
786 просмотров
schedule 24.08.2022