Вопросы по теме 'nutch'
Какой дистрибутив Linux лучше всего подходит для Nutch-Hadoop?
мы пытаемся выяснить, какой дистрибутив Linux лучше всего подходит для интеграции Nutch-Hadoop? мы планируем использовать кластеры для обхода большого контента через Nutch. Дайте мне знать, если вам нужно больше разъяснений по этому вопросу?...
1088 просмотров
schedule
19.11.2023
Удаление меню из html во время сканирования или индексации с помощью nutch и solr
Я просматриваю наш большой веб-сайт(ы) с помощью nutch, а затем индексирую с помощью solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса.
Каждое из этих меню четко...
3104 просмотров
schedule
05.12.2023
Как искать две разные вещи в двух разных полях?
Я использую NUTCH 1.4 и SOLR 3.3.0 для сканирования и индексации своего веб-сайта. Во внешнем интерфейсе я использую php API SOLARIUM для запросов к SOLR. У меня есть следующие поля, которые я ищу по умолчанию:
content -> of type Text
title...
436 просмотров
schedule
26.09.2022
Как развернуть Apache Nutch -1.6 на tomcat?
Я использую nutch-1.6 для сканирования, запуская команды с терминала. Я искал в Интернете и обнаружил, что более ранние версии nutch, такие как 0.9, 1.0, поставляются с военным файлом, который можно развернуть на сервере tomcat, но я не смог найти...
435 просмотров
schedule
24.08.2022
Nutch - почему мои исключения URL-адресов не исключают эти URL-адреса?
Сюрприз! У меня есть еще один вопрос по Apache Nutch v1.5. Таким образом, при сканировании и индексации нашего сайта в Solr через Nutch мы должны иметь возможность исключать любой контент, попадающий под определенный путь.
Итак, скажем, у нас...
495 просмотров
schedule
29.11.2023
Нутч не переводит документы в статус DB_GONE
Насколько я понимаю Nutch, когда Nutch выполняет повторное сканирование и пытается получить документ, который больше не существует, он генерирует 404 и устанавливает статус этого документа на DB_GONE. Когда я повторно просматриваю с помощью Nutch, он...
440 просмотров
schedule
18.10.2022
Nutch: просканируйте неработающие ссылки и проиндексируйте их в Solr
Моя цель — определить, сколько URL-адресов на HTML-странице недействительны (404, 500, HostNotFound). Итак, в Nutch есть изменение конфигурации, которое мы можем сделать, с помощью которого веб-краулер просматривает неработающие ссылки и индексирует...
1204 просмотров
schedule
14.04.2024
Установка Apache Nutch-2.2.1
Я устанавливаю nutch2.2.1 на свою виртуальную машину CentOS и получаю сообщение об ошибке при вводе исходных URL-адресов (имя каталога). Я использовал эту команду:
/usr/share/apache-nutch-2.1/src/bin/nutch inject...
1001 просмотров
schedule
28.07.2022
Проблема с зависанием сборки Nutch 2.2.1
У меня проблемы со сборкой Nutch 2.2.1 за брандмауэром моей компании. Моя сборка застревает здесь:
[ivy:resolve] :: loading settings :: file = ~/nutchtest/nutch/ivy/ivysettings.xml
Когда я связался с администратором хостинга, они сказали:...
755 просмотров
schedule
04.03.2024
Источники загрузки JetBrains IDEA для проекта ivy
у меня есть проект с ivy (Apache Nutch), могу ли я автоматически загружать исходный код для его зависимостей с помощью Jetbrains IDEA?
174 просмотров
schedule
31.03.2024
Nutch 2.3 не генерирует/сканирует
Я новичок в Натче. Я установил Nutch 2.3, и он работал до тех пор, пока не были введены исходные URL-адреса ($NUTCH_ROOT/runtime/local/bin/nutch inject file:///path/to/seed/).
Когда я выполняю следующую команду:...
647 просмотров
schedule
27.04.2024
Ошибка интеграции Apache Nutch 1.12 и Solr 5.4.1
Я успешно просканировал несколько веб-сайтов и создал два сегмента с помощью Nutch. Я также установил и запустил службу Solr.
Но когда я пытаюсь проиндексировать эти просканированные данные в Solr, это не работает.
Я попробовал эту команду:...
403 просмотров
schedule
01.07.2022
Поиск компонентов стека с помощью Nutch
Я пытаюсь понять разницу между Nutch 1.x и Nutch 2.x, если я просто пытаюсь использовать Nutch для сканирования пары сотен веб-сайтов, а затем индексировать данные в Elasticsearch v2.3.0.
Насколько я понимаю, основное отличие состоит в том, что...
38 просмотров
schedule
12.04.2024
Индексирование Solr после сканирования Nutch завершается ошибкой, сообщает Indexer: java.io.IOException: задание не выполнено!
Я интегрировал Nutch1.13 с Solr 6.5.1 на ec2-экземпляре. Я скопировал schema.xml в Solr, используя приведенную ниже команду cp. Я указал localhost как elatic.host в nutch-site.xml в папке nutch_home / conf.
cp...
1743 просмотров
schedule
11.11.2022
Nutch / Solr — документ содержит как минимум один огромный термин в поле = содержимое
Во время сканирования мы столкнулись с этой проблемой при разборе огромных PDF-файлов. Выдается ошибка, как показано на скриншоте.
Я пытался изменить тип «контента» на «text_general» или «string», но безрезультатно.
190 просмотров
schedule
01.09.2022
nutch с elasticsearch создает несколько индексов/типов
Мне нужно просканировать два веб-сайта и проиндексировать их в elasticsearch как два разных индекса или типа. Я использую nutch 1.15 с elasticsearch-5.3.3.
Как мы можем просканировать два разных сайта и проиндексировать их отдельно в elasticsearch...
107 просмотров
schedule
28.09.2022
nutch 1.15 index несколько ядер с solr 7.5
Я использую nutch 1.15 и solr 7.5 с необходимостью индексировать несколько ядер . Я создал отдельные базы данных crawldb и linkdb для каждого ядра, а затем обновил index-writers.xml с несколькими авторами (каждый author_id соответствует имени...
144 просмотров
schedule
11.11.2022
Редукторы Apache Nutch 1.16 Fetcher?
В соответствии с реализацией класса Apache Nutch 1.16 Fetcher здесь — https://github.com/apache/nutch/blob/branch-1.16/src/java/org/apache/nutch/fetcher/Fetcher.java , это работа только с картой . Я не вижу набора редукторов в задании. Итак, мой...
42 просмотров
schedule
21.04.2024
Веб-сканирование Nutch 1.17 с оптимизацией хранилища
Я использую Nutch 1.17 для сканирования более миллиона веб-сайтов. Я должен выполнить следующие вещи для этого.
Один раз запустите сканер как глубокий сканер, чтобы он извлек максимальное количество URL-адресов из заданных (1 миллион) доменов. В...
105 просмотров
schedule
20.12.2023