Nutch 2.3 не генерирует/сканирует

Я новичок в Натче. Я установил Nutch 2.3, и он работал до тех пор, пока не были введены исходные URL-адреса ($NUTCH_ROOT/runtime/local/bin/nutch inject file:///path/to/seed/).

Когда я выполняю следующую команду: $NUTCH_ROOT/runtime/local/bin/nutch generate -topN 10
я получаю эту ошибку:

GeneratorJob: starting at 2016-02-09 23:31:01
GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: true
GeneratorJob: normalizing: true
GeneratorJob: topN: 10
GeneratorJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local1073670973_0001
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:227)
    at org.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:256)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:322)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.crawl.GeneratorJob.main(GeneratorJob.java:330)

Любые предложения о том, куда идти отсюда или что искать?

Любая помощь по этому вопросу будет принята с благодарностью!


person tt2244    schedule 10.02.2016    source источник


Ответы (2)


В ваших логах указано, что вы используете nutch версии 2.3.1, а вы сказали, что у вас версия 2.3.

Версия 2.3.1 добавила много новых возможностей совместимости с другими технологиями (см. примечания к выпуску).

Возможно, вы используете 2 несовместимые версии.

person Jérémie    schedule 10.02.2016

Можете ли вы проверить место на диске для вашей базы данных? Потому что в nutch 2.X вы используете дополнительную базу данных (Hbase, Cassandra...) и, возможно, у вас недостаточно места для данных, временных файлов или прочего...

person Jérémie    schedule 11.02.2016