Публикации по теме 'web-crawler'
Python’s Scrapy
Превосходный пакет для веб-сканирования
Scrapy — это быстрый и мощный фреймворк для парсинга веб-страниц для Python. Он разработан, чтобы быть простым в использовании и позволять разработчикам быстро и эффективно очищать веб-сайты.
Вот несколько примеров общих функций Scrapy:
scrapy.Request : эта функция создает запрос к веб-сайту и возвращает объект Response .
import scrapy
def scrape_website(self):
yield scrapy.Request(url='http://www.example.com',..
Вопросы по теме 'web-crawler'
HTTPWebResponse + StreamReader очень медленный
Я пытаюсь реализовать ограниченный веб-сканер на С# (только для нескольких сотен сайтов), используя HttpWebResponse.GetResponse() и Streamreader.ReadToEnd() , также пробовал использовать StreamReader.Read() и цикл для создания моей строки HTML.
Я...
23389 просмотров
schedule
01.04.2024
Как я могу заставить MediaWiki игнорировать просмотры страниц из Google Search Appliance?
Счетчик просмотров страниц на каждой странице MediaWiki кажется отличным способом определить популярные страницы, над которыми стоит приложить больше усилий. поддерживать актуальность и полезность, но я столкнулся с проблемой.
Мы используем...
702 просмотров
schedule
20.08.2022
Настройки стиля кода с использованием Sicstus и Eclipse (Spider)
В настоящее время я использую Sicstus Prolog VC9 4.1.1 в Eclipse Galileo (Spider). У меня очень новый вопрос: как мне автоматически управлять отступами и вообще настройками стиля кода?
162 просмотров
schedule
10.04.2024
Программное обеспечение для анализа файлов веб-журналов для измерения поисковых роботов
Мне нужно проанализировать, как поисковые системы сканируют мой сайт. Есть ли хороший инструмент для этого? Я пробовал AWStats и Sawmill. Но оба они дают мне очень ограниченное представление о ползании. Мне нужно знать информацию, например,...
591 просмотров
schedule
10.11.2022
Скриншот экрана или сканирование выпадающих полей со всеми перестановками с другого сайта
Сначала мне нужно спросить, в чем разница между поисковым роботом и очисткой экрана. во-вторых, я хочу просканировать или просмотреть раскрывающиеся поля очистить с различными перестановками, чтобы я мог получить эти данные в своей собственной базе...
365 просмотров
schedule
26.11.2023
Хороший источник IP-адресов Crawler / Spider
Где я могу найти полный список IP-адресов Crawler или Spider. Мне нужны IP-адреса от google yahoo, microsoft и других поисковых систем, которые регулярно сканируют мои сайты.
Я не хочу их отключать, поэтому не включайте файл robots.txt в ответы....
7740 просмотров
schedule
14.11.2023
Сканируйте веб-сайт с помощью wget и ограничьте общее количество просканированных ссылок
Я хочу узнать больше о сканерах, поиграв с инструментом wget. Меня интересует сканирование веб-сайта моего отдела и поиск первых 100 ссылок на этом сайте. Пока что команда ниже - это то, что у меня есть. Как сделать так, чтобы поисковый робот...
5476 просмотров
schedule
28.02.2024
Классификация веб-сайтов
Мне нужно просмотреть тысячи веб-сайтов с одинаковой структурой: у всех есть меню, заголовок, какой-то текст и рейтинг, как у блога. К сожалению, они также закодированы очень по-разному, а некоторые — вручную, поэтому я не могу повторно использовать...
1265 просмотров
schedule
03.11.2022
Сайт MVC не сканируется поисковыми системами основного потока?
Он основан на MVC 3 + Razor, и теперь для сайта не создается DNS, а только общедоступный IP. Из-за непонимания того, обрабатывает ли Google паук для IP-сайтов и каким образом, у нас возникает головная боль, поскольку мы не можем получить какие-либо...
1272 просмотров
schedule
04.01.2024
SEO: можно ли сканировать динамически генерируемые ссылки?
У меня есть страница, содержащая теги <div> с кодом onclick="", который вызывает запрос ajax для получения данных json, а затем перебирает результаты для формирования ссылок ( <a /> ) для добавления на страницу. Эти ссылки не существуют...
1137 просмотров
schedule
08.05.2024
Быстрый поисковый робот в Интернете
Я хотел бы выполнять интеллектуальный анализ данных в больших масштабах. Для этого мне нужен быстрый сканер. Все, что мне нужно, это что-то, чтобы загрузить веб-страницу, извлечь ссылки и рекурсивно переходить по ним, но без повторного посещения...
7124 просмотров
schedule
03.11.2022
Могут ли modernizr и/или yepnope реагировать на ботов и пауков?
У меня есть JS, работающий на странице, которая выводит окно выбора модальной локализации. Я хотел бы предотвратить это для ботов/краулеров. Есть ли способ сделать это с помощью Modernizr и/или yepnope.js?
486 просмотров
schedule
04.04.2024
Как получить доступ к подузлам с помощью htmlagilitypack в С# [на основе предложения from]
у меня есть html как:
<div class="article-listing">
<div class="media-data">
<h4><a...
572 просмотров
schedule
27.01.2024
Что вы делаете для защиты от спам-ботов?
у нас есть веб-сайт, который иногда зависает из-за спам-ботов, мы пытались заблокировать их IP-адреса, но это не очень хорошая идея, потому что у них может быть динамический IP-адрес, у кого-нибудь есть хороший способ их остановить, мы пытались...
527 просмотров
schedule
21.02.2024
Какие есть хорошие сканеры, которые могут помочь скачать файлы
Для одного из моих статистических проектов мне нужно СЛУЧАЙНО загрузить несколько файлов со страницы патента Google, и каждый файл представляет собой большой zip-файл. Веб-ссылка следующая:...
296 просмотров
schedule
17.11.2022
Может ли механизм Python извлечь текст, связанный с элементом управления?
Я пишу сканер и постоянно сталкиваюсь с элементами управления формами, для которых механизация не может дать мне никакой информации, кроме типа. Есть ли способ получить удобочитаемый текст, связанный с элементом управления? Я знаю, что это немного...
148 просмотров
schedule
15.10.2022
извлекать URL-адреса из результатов Google java
Возможный дубликат: Как можно поиск в Google программно Java API
Мне нужно извлечь URL-адреса в результатах поиска Google с помощью Java. Первый шаг, который я сделал, - это использовать код, который извлекает весь текст...
2059 просмотров
schedule
28.09.2022
Не удается прочитать URL-адрес UNICODE в С#
Следующий код не будет работать:
using System;
using System.IO;
using System.Net;
using System.Web;
namespace Proyecto_Prueba_04
{
class Program
{
/// <summary>
///
/// </summary>
/// <param...
1256 просмотров
schedule
10.05.2024
Определение параметров на crawler4j
Я пытаюсь использовать crawler4j, как было показано в этот пример, и независимо от того, как я определяю количество сканеров или меняю корневую папку, я продолжаю получать эту ошибку из кода, указывающего:
«Необходимые параметры: rootFolder (он...
1681 просмотров
schedule
06.10.2023
Как создать резервную копию всей веб-страницы с изображением с помощью python?
Возможный дубликат: Как загрузить файл на питоне
Я играю с Python, чтобы кое-что сканировать. Я знаю, что есть urllib.urlopen("http://XXXX") , который может помочь мне получить html для целевого веб-сайта. Однако ссылка на исходное...
786 просмотров
schedule
24.08.2022