Хорошие программисты пишут код, сначала отличный поиск по github.
Хотите выделиться из толпы ученых, занимающихся машинным обучением и визуализацией? Затем вы можете начать на один шаг раньше, собрав собственный набор данных вместо использования устаревших файлов CSV из Kaggle.
В этом посте я покажу вам, как унифицированным способом собрать множество новостных данных из множества источников. Поэтому вместо того, чтобы тратить месяцы на написание сценария для каждого новостного сайта, вы будете использовать газету3k для автоматического извлечения структурированной информации.
Установите пакет:
$ pip install newspaper3k
Теперь давайте попросим газету3k очистить статью, извлечь информацию и обобщить ее для нас.
>>> from newspaper import Article
>>> article = Article('https://www.npr.org/2019/07/10/740387601/university-of-texas-austin-promises-free-tuition-for-low-income-students-in-2020')
>>> article.download()
>>> article.parse()
>>> article.nlp()
Это все, ребята. 5 строк кода, включая импорт пакетов.
Если вы выполнили все предыдущие шаги и не получили ошибки, у вас должен быть доступ к следующей информации:
>>> article.authors ['Vanessa Romo', 'Claire Mcinerny'] >>> article.publish_date datetime.datetime(2019, 7, 10, 0, 0) >>> article.keywords ['free', 'program', '2020', 'muñoz', 'offering', 'loans', 'university', 'texas', 'texasaustin', 'promises', 'families', 'lowincome', 'students', 'endowment', 'tuition']
Что касается самого текста, у вас есть возможность получить доступ к полному тексту:
>>> print(article.text) University of Texas-Austin Promises Free Tuition For Low-Income Students In 2020 toggle caption Jon Herskovitz/Reuters Four year colleges and universities have difficulty recruiting...
В дополнение к этому вы получаете встроенную сводку:
>>> print(article.summary) University of Texas-Austin Promises Free Tuition For Low-Income Students In 2020toggle caption Jon Herskovitz/ReutersFour year colleges and universities have difficulty recruiting talented students from the lower end of the economic spectrum who can't afford to attend such institutions without taking on massive debt. To remedy that — at least in part — the University of Texas-Austin announced it is offering full tuition scholarships to in-state undergraduates whose families make $65,000 or less per year. The endowment — which includes money from oil and gas royalties earned on state-owned land in West Texas — more than doubles an existing program offering free tuition to students whose families make less than $30,000. It also expands financial assistance to middle class students whose families earn up to $125,000 a year, compared to the current $100,000. In 2008, Texas A&M began offering free tuition to students whose families' income was under $60,000.
Неплохо для встроенной функции.
Чтобы воспользоваться всеми функциями, включая автоматизацию ленты журнала и доступ к актуальным темам, обратитесь к официальной документации.
Используя газету3k, вы можете собрать свой уникальный набор данных для обучения своих моделей. Что еще более важно, у вас будет реальный поток данных после того, как модель будет готова, так что вы также сможете увидеть реальную производительность.
Сначала определите проблему и только потом ищите данные, а не наоборот. Постарайтесь по-настоящему решать проблемы и подумайте, как ваша модель может решить реальные бизнес-проблемы, потому что это то, за что вам будут платить.
Если вам понравился этот пост, я настоятельно рекомендую вам прочитать тот, который меня вдохновил.