Сегодня мы увидим, почему мы изучаем грамматику и / или словарный запас в школах / колледжах. Я работал с какими-то текстами, используя NLTK, и обнаружил, что одним из интересных аспектов этого является тегирование POS, то есть тегирование части речи. Мы рассмотрим это подробнее;

Что такое POS-теги?

Это означает обозначение слов в предложении как существительных, прилагательных, глаголов, наречий и т.д.

Почему теги POS?

  1. POS-теги использовались для множества задач НЛП и чрезвычайно полезны, поскольку они предоставляют лингвистический сигнал о том, как слово используется в рамках фразы, предложения или документа.
  2. Полезно для построения синтаксических деревьев, которые используются при построении NER (большинство именованных сущностей - существительные) и извлечения отношений между словами.
  3. Также важно для построения лемматизаторов, которые используются для сведения слова к его корневой форме.
  4. Полезно для объяснения синтаксической роли слова, и мы часто можем вывести из этого семантическую информацию, поскольку мы знаем, как эта синтаксическая роль обычно используется семантически.

Список тегов

Координирующая конъюнкция CC
Кардинальная цифра CD
Определитель DT
EX существует (например: «есть»… воспринимайте это как «существует»)
FW иностранное слово < br /> MD модальное слово could, will
NN существительное, единственное число 'стол'
NNS существительное множественное число 'столы'
NNP имя собственное, единственное число 'Harrison'
NNPS имя собственное, множественное число
«Американцы»
PDT предопределяют «все дети»
POS притяжательное окончание
родителя PRP личное местоимение I, he, she
PRP $ притяжательное местоимение my, his, hers < br /> Наречие RB очень, тихо,
Наречие RBR, сравнительно лучше
Наречие RBS, превосходное лучшее
Частица RP сдавайся
TO идти 'в' магазин.
UH междометие errrrrrrrm
VB глагол, основная форма взять
VBD глагол, прошедшее время приняло
VBG глагол, герундий / pre отправлено причастие
VBN глагол, причастие прошедшего времени принято
VBP глагол, петь. настоящее, не-3D дубль
VBZ глагол, петь от 3-го лица. настоящее принимает
WDT wh-определитель, который
WP wh-местоимение who, what
WP $ притяжательное wh-местоимение,
WRB wh-abverb where, when

Примеры

Синтаксическая двусмысленность

Давайте посмотрим на один из практических примеров этого;

импортировать nltk
nltk.download ()
из nltk.corpus импортировать стоп-слова
из nltk.tokenize import word_tokenize, sent_tokenize

stop_words = set (stopwords.words (‘english’))

#Dummy Text
txt = «Суканья, Раджиб и Наба - мои хорошие друзья. «\
« В следующем году Суканя женится. «\
« Брак - это большой шаг в жизни ». \
«Это и возбуждает, и пугает. «\
« Но дружба - это священная связь между людьми ». \
«Между нами особая любовь. «\
« Многие из вас, должно быть, пытались найти друга «\
», но так и не нашли нужного ».

tokenize = sent_tokenize (txt)

для i в tokenize:
wordslist = nltk.word_tokenize (i)
# удаление игнорируемых слов из списка слов
wordslist = [w вместо w в списке слов, если не w в стоп-словах]
tagged = nltk.pos_tag (список слов)
печать (с тегами)