Вопросы по теме 'nutch'

Какой дистрибутив Linux лучше всего подходит для Nutch-Hadoop?
мы пытаемся выяснить, какой дистрибутив Linux лучше всего подходит для интеграции Nutch-Hadoop? мы планируем использовать кластеры для обхода большого контента через Nutch. Дайте мне знать, если вам нужно больше разъяснений по этому вопросу?...
1088 просмотров
schedule 19.11.2023

Удаление меню из html во время сканирования или индексации с помощью nutch и solr
Я просматриваю наш большой веб-сайт(ы) с помощью nutch, а затем индексирую с помощью solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса. Каждое из этих меню четко...
3104 просмотров
schedule 05.12.2023

Как искать две разные вещи в двух разных полях?
Я использую NUTCH 1.4 и SOLR 3.3.0 для сканирования и индексации своего веб-сайта. Во внешнем интерфейсе я использую php API SOLARIUM для запросов к SOLR. У меня есть следующие поля, которые я ищу по умолчанию: content -> of type Text title...
436 просмотров
schedule 26.09.2022

Как развернуть Apache Nutch -1.6 на tomcat?
Я использую nutch-1.6 для сканирования, запуская команды с терминала. Я искал в Интернете и обнаружил, что более ранние версии nutch, такие как 0.9, 1.0, поставляются с военным файлом, который можно развернуть на сервере tomcat, но я не смог найти...
435 просмотров
schedule 24.08.2022

Nutch - почему мои исключения URL-адресов не исключают эти URL-адреса?
Сюрприз! У меня есть еще один вопрос по Apache Nutch v1.5. Таким образом, при сканировании и индексации нашего сайта в Solr через Nutch мы должны иметь возможность исключать любой контент, попадающий под определенный путь. Итак, скажем, у нас...
495 просмотров
schedule 29.11.2023

Нутч не переводит документы в статус DB_GONE
Насколько я понимаю Nutch, когда Nutch выполняет повторное сканирование и пытается получить документ, который больше не существует, он генерирует 404 и устанавливает статус этого документа на DB_GONE. Когда я повторно просматриваю с помощью Nutch, он...
440 просмотров
schedule 18.10.2022

Nutch: просканируйте неработающие ссылки и проиндексируйте их в Solr
Моя цель — определить, сколько URL-адресов на HTML-странице недействительны (404, 500, HostNotFound). Итак, в Nutch есть изменение конфигурации, которое мы можем сделать, с помощью которого веб-краулер просматривает неработающие ссылки и индексирует...
1204 просмотров
schedule 14.04.2024

Установка Apache Nutch-2.2.1
Я устанавливаю nutch2.2.1 на свою виртуальную машину CentOS и получаю сообщение об ошибке при вводе исходных URL-адресов (имя каталога). Я использовал эту команду: /usr/share/apache-nutch-2.1/src/bin/nutch inject...
1001 просмотров
schedule 28.07.2022

Проблема с зависанием сборки Nutch 2.2.1
У меня проблемы со сборкой Nutch 2.2.1 за брандмауэром моей компании. Моя сборка застревает здесь: [ivy:resolve] :: loading settings :: file = ~/nutchtest/nutch/ivy/ivysettings.xml Когда я связался с администратором хостинга, они сказали:...
755 просмотров
schedule 04.03.2024

Источники загрузки JetBrains IDEA для проекта ivy
у меня есть проект с ivy (Apache Nutch), могу ли я автоматически загружать исходный код для его зависимостей с помощью Jetbrains IDEA?
174 просмотров
schedule 31.03.2024

Nutch 2.3 не генерирует/сканирует
Я новичок в Натче. Я установил Nutch 2.3, и он работал до тех пор, пока не были введены исходные URL-адреса ($NUTCH_ROOT/runtime/local/bin/nutch inject file:///path/to/seed/). Когда я выполняю следующую команду:...
647 просмотров
schedule 27.04.2024

Ошибка интеграции Apache Nutch 1.12 и Solr 5.4.1
Я успешно просканировал несколько веб-сайтов и создал два сегмента с помощью Nutch. Я также установил и запустил службу Solr. Но когда я пытаюсь проиндексировать эти просканированные данные в Solr, это не работает. Я попробовал эту команду:...
403 просмотров
schedule 01.07.2022

Поиск компонентов стека с помощью Nutch
Я пытаюсь понять разницу между Nutch 1.x и Nutch 2.x, если я просто пытаюсь использовать Nutch для сканирования пары сотен веб-сайтов, а затем индексировать данные в Elasticsearch v2.3.0. Насколько я понимаю, основное отличие состоит в том, что...
38 просмотров
schedule 12.04.2024

Индексирование Solr после сканирования Nutch завершается ошибкой, сообщает Indexer: java.io.IOException: задание не выполнено!
Я интегрировал Nutch1.13 с Solr 6.5.1 на ec2-экземпляре. Я скопировал schema.xml в Solr, используя приведенную ниже команду cp. Я указал localhost как elatic.host в nutch-site.xml в папке nutch_home / conf. cp...
1743 просмотров
schedule 11.11.2022

Nutch / Solr — документ содержит как минимум один огромный термин в поле = содержимое
Во время сканирования мы столкнулись с этой проблемой при разборе огромных PDF-файлов. Выдается ошибка, как показано на скриншоте. Я пытался изменить тип «контента» на «text_general» или «string», но безрезультатно.
190 просмотров
schedule 01.09.2022

nutch с elasticsearch создает несколько индексов/типов
Мне нужно просканировать два веб-сайта и проиндексировать их в elasticsearch как два разных индекса или типа. Я использую nutch 1.15 с elasticsearch-5.3.3. Как мы можем просканировать два разных сайта и проиндексировать их отдельно в elasticsearch...
107 просмотров
schedule 28.09.2022

nutch 1.15 index несколько ядер с solr 7.5
Я использую nutch 1.15 и solr 7.5 с необходимостью индексировать несколько ядер . Я создал отдельные базы данных crawldb и linkdb для каждого ядра, а затем обновил index-writers.xml с несколькими авторами (каждый author_id соответствует имени...
144 просмотров
schedule 11.11.2022

Редукторы Apache Nutch 1.16 Fetcher?
В соответствии с реализацией класса Apache Nutch 1.16 Fetcher здесь — https://github.com/apache/nutch/blob/branch-1.16/src/java/org/apache/nutch/fetcher/Fetcher.java , это работа только с картой . Я не вижу набора редукторов в задании. Итак, мой...
42 просмотров
schedule 21.04.2024

Веб-сканирование Nutch 1.17 с оптимизацией хранилища
Я использую Nutch 1.17 для сканирования более миллиона веб-сайтов. Я должен выполнить следующие вещи для этого. Один раз запустите сканер как глубокий сканер, чтобы он извлек максимальное количество URL-адресов из заданных (1 миллион) доменов. В...
105 просмотров
schedule 20.12.2023