Я просматриваю наш большой веб-сайт(ы) с помощью nutch, а затем индексирую с помощью solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса.
Каждое из этих меню четко определено в DIV, поэтому <div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
и несколько других.
Мне нужно в какой-то момент удалить содержимое в этих DIVS.
Я предполагаю, что правильное место находится во время индексации solr, но не могу понять, как это сделать.
Шаблон будет выглядеть примерно как (<div id="calendar">).*?(<\/div>)
, но я не могу заставить его работать в <tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
, и я не совсем уверен, куда его поместить в schema.xml.
Когда я помещаю этот шаблон в schema.xml, он не анализируется.