Можно ли очистить ссылки по дате, связанной с ними? Я пытаюсь реализовать ежедневного запускаемого паука, который сохраняет информацию о статьях в базе данных, но я не хочу повторно очищать статьи, которые я уже очищал раньше, то есть вчерашние статьи. Я наткнулся на этот SO-пост с тем же вопросом и Был предложен подключаемый модуль scrapy-deltafetch.
Однако это зависит от проверки новых запросов на соответствие ранее сохраненному запросу. отпечатки пальцев хранятся в базе данных. Я предполагаю, что если бы ежедневная очистка продолжалась какое-то время, потребовались бы значительные накладные расходы на память в базе данных для хранения отпечатков запросов, которые уже были очищены.
Итак, учитывая список статей на таком сайте, как cnn.com, я хочу чтобы очистить все статьи, которые были опубликованы сегодня 14.06.17, но как только парсер обнаружит более поздние статьи с датой, указанной как 13.06.17, я хочу закрыть паук и прекратить очистку. Возможен ли такой подход с scrapy? Для данной страницы статей будет ли CrawlSpider начинаться вверху страницы и очищать статьи по порядку?
Просто новичок в Scrapy, поэтому не знаю, что попробовать. Любая помощь будет принята с благодарностью, спасибо!
scrapy, но, учитывая, что URL-адреса статей должны быть в формате/2017/06/14/politics/two-arrested-brawl-turkish-embassy/index.html, думали ли вы о том, чтобы проанализировать дату из URL-адреса и сравнить ее? - person etemple1   schedule 15.06.2017cnn.com- это просто пример сайта, а не сайт, который я хотел бы очистить. Большинство сайтов, которые я хотел бы очистить, не включают дату в URL-адресе. - person ocean800   schedule 15.06.2017