Публикации по теме 'nltk'


Классификация текста с использованием TextCNN
Если вы хотите классифицировать текстовые данные, TextCNN — это популярная и эффективная архитектура, которую можно использовать для классификации текста по разным классам. В этой статье мы рассмотрим основы TextCNN и узнаем, как реализовать его в PyTorch для классификации адресов по категориям, таким как образовательные учреждения, коммерческие учреждения, спортивные комплексы и т. д. Классификация текста является важной задачей обработки естественного языка (NLP), целью которой является..

Распознавание именованных объектов (NER) — Часть II, Реализация с помощью пакетов с открытым исходным кодом
Используйте SpaCy и NLTK для реализации NER в несколько строк кода. Резюме Пожалуйста, обратитесь к моей предыдущей статье о NER, чтобы получить обзор того, что означает NER, почему он полезен, и общий процесс его реализации. В этом посте… В этом посте мы рассмотрим наиболее часто используемые пакеты с открытым исходным кодом для NER — SpaCy и NLTK. Как я упоминал в предыдущей статье , эти…

Практика NLTK, Word2vec , PCA, wordcloud, Jieba на серии о Гарри Поттере и китайском контенте
Недавно я изучаю НЛП и нахожу это довольно сложным. NLP кажется более сложным, чем Computer Vision, потому что шаблоны пикселей универсальны, но язык разнообразен, способ создания языковой модели на китайском языке отличается от английского или немецкого. Возьмем в качестве примера токенизацию: мы можем использовать пробел для токенизации английского предложения «Я мальчик», но как сделать токенизацию китайского предложения «我是一個男孩»? В этой статье я кратко покажу, как применять NLTK..

Подготовка текста к НЛП (Python)
Вот 7 шагов, которые вы можете выполнить, чтобы подготовить свои данные для НЛП. Необязательно, чтобы все 7 выполнялись всегда или имели отношение к вашей общей картине. Очистите данные. Удалите все аномалии и непонятные данные. Вы можете написать что-нибудь вроде, #fileContent = "<li>Who drank my coffee?😡</li><li>I would say whoever ate your avocado toast😜</li>" import re processedText = "" with open(filename, “rb”) as f: rawData..

#AnalysingError: Universal_tagset ресурса не найден.
#AnalysingError: Universal_tagset ресурса не найден. Почему так случилось? У меня есть следующий код в моем файле Notebook / python. Однако, когда я выполнил этот код на новой виртуальной машине с базовой версией Anaconda, я получил следующие ошибки: --------------------------------------------------------------------------- LookupError Traceback (most recent call last) <ipython-input-2-03af1289e1af> in <module> 1 # reading the..

Вебография для 4 манекенов, чтобы добиться успеха в машинном обучении — глава 23, сцена 2
The Ratio Club Британский физиолог Уильям Грей Уолтер (1910–1977) был одним из первых членов междисциплинарного Ratio Club. Это… noosanakainisis.blogspot.com Профессор Гарольд Шиптон Гарольд Шиптон, пионер в области медицинской электроники, был воплощением научной мысли. Его камешек… www.thetimes.co.uk .readlines() — поиск Google readlines() читает до..

Разработка функций с помощью NLTK для NLP и Python
На прошлой неделе я рассмотрел некоторые из основных функций набора средств естественного языка (NLTK) для обработки естественного языка (NLP). Я продолжил свое путешествие в НЛП, применив эти базовые функции к Моби Дику Германа Мелвилла. Текстовый документ предоставлен Project Gutenberg , некоторые книги на этом сайте доступны через пакет Python NLTK. Я подробно описал процесс очистки в предыдущем блоге, где мне приходилось очищать различные стенограммы двух телесериалов. Этот..