Публикации по тегам tm

Вопросы по теме 'tm'

Text Mining - как построить матрицу терминов и документов

Я пытаюсь загрузить файл csv и преобразовать его в матрицу термодокумента. Вот часть моего кода: myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE) TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf))) Но...

12321 просмотров

r tm

02.05.2024

Пакет R tm и кириллица

Я пытаюсь выполнить анализ текста с русским текстом, используя пакет tm, и у меня есть некоторые проблемы. скорость предварительной обработки сильно зависит от кодировки. library(tm)...

2545 просмотров

r encoding text-mining tm

15.11.2022

диаграмма рассеяния частоты слов в R (слова как метки)

В настоящее время я работаю над статьей, в которой сравниваются роли британских депутатов в парламенте и их роли в твиттере. Я собрал данные из твиттера (самое главное, необработанный текст) и выступления в парламенте одного депутата и хочу сделать...

1790 просмотров

r twitter text-mining scatter-plot tm

22.11.2023

Как сохранить R Corpus на диск

У меня есть большой объект R Corpus, использующий пакет tm, состоящий из миллионов небольших документов. Как сохранить это на диск в виде отдельного текстового файла для использования с другими программами (например, word2vec)? Я попытался...

6038 просмотров

r tm

19.03.2024

преобразование слова из основы в корневое слово в R

Привет, у меня есть список слов, которые были получены с помощью пакета «tm» в R. Могу ли я как-то вернуть корневое слово после этого шага. Заранее спасибо. Пример: деятельность --> деятельность

2661 просмотров

r text text-mining tm stemming

09.07.2022

Удаление чрезмерно общих слов (встречаются более чем в 80% документов) в R

Я работаю с пакетом «tm» для создания корпуса. Я выполнил большинство шагов предварительной обработки. Осталось убрать слишком распространенные слова (термины, встречающиеся более чем в 80% документов). Может ли кто-нибудь помочь мне с этим?...

10977 просмотров

r text-mining tm

04.10.2023

Как вы нормализуете строки матрицы терминов документа в R?

У меня есть DocumentTermMatrix с именем train_dtm, и я хочу нормализовать подсчет частот терминов во всех документах. Проблема, с которой я столкнулся, заключается в том, что результирующая матрица также должна иметь тип DocumentTermMatrix, потому...

1607 просмотров

r tm topicmodels

05.11.2023

Сравнение облаков для текста, представленного на графике (пакет wordCloud)

У меня есть набор контента, связанный с запросом (из электронных писем), который повторно обрабатывается с использованием пакета tm . Желая представить это графически, я наткнулся на это твиттер-облако. сравнение текста , и я пытаюсь загрузить и...

2766 просмотров

r tm word-cloud

18.04.2024

Как показать текст корпуса в пакете R TM?

Я совершенно новичок в пакете R и tm, поэтому, пожалуйста, извините за глупый вопрос ;-) Как мне показать текст корпуса обычного текста в пакете R tm? Я загрузил корпус с 323 текстовыми файлами в корпусе: src <-...

34640 просмотров

r corpus tm

21.04.2024

Все еще есть проблемы с пунктуацией после функции removePunctuation

Я использовал removePuncutation из пакета «tm» в R в матрице Term Document Matrix. По какой-то причине у меня все еще остаются странные символы в моем графике букв по сравнению с их пропорциями в анализируемом корпусе. Ниже приведен код, который я...

264 просмотров

r text nlp plot tm

06.11.2023

Подмножить корпус по метаданным?

Я чувствую, что это должно быть проще, но я не могу понять это. Как отфильтровать документы из корпуса на основе метаданных. Чтобы быть более конкретным, у меня есть корпус из 576 документов, каждый из которых имеет тег «Раздел». Раздел имеет ряд...

555 просмотров

r text-mining tm

05.11.2022

Присвоение весов различным функциям в R

Можно ли присвоить веса различным функциям перед формулировкой DFM в R? Рассмотрим этот пример в R str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) DFM mydfm выглядит так: docs...

586 просмотров

r text-mining quanteda tm

10.08.2022

R: removeCommonTerms с пакетом Quanteda?

Функция removeCommonTerms находится здесь для пакета TM, так что removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m <-...

421 просмотров

r quanteda tm

15.06.2024

TermDocumentMatrix выполняет незапрашиваемую очистку (например, удаление пунктуации)

Насколько я понимаю в документации, функция TermDocumentMatrix пакета tm не работает. Кажется, он выполняет обработку на условиях, которые я не запрашивал. Вот пример: require(tm) sentence <- "Astrology: I am a Capricorn Sun Cap moon...

213 просмотров

r tm

15.04.2024

список из нескольких списков из 2 для синонимов

Я хочу прочитать синонимы из CSV-файла, где первое слово является «основным» словом, а остальные слова в той же записи являются его синонимами теперь я в основном хочу создать список, как в R, **synonyms <- list( list(word="ss",...

114 просмотров

r text-mining tm

02.11.2023

Завершение ствола в R

Я работаю над анализом текста в R, вот несколько документов из моего корпуса после удаления пунктуации, чисел, URL-адресов и стоп-слов. myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords,...

481 просмотров

r tm

16.10.2023

построить матрицу документа термина из файла PDF

Я пытаюсь построить term document matrix из одного текста в формате PDF. Когда я осматриваю term document matrix , я понимаю это. <<TermDocumentMatrix (terms: 7245, documents:342)>> Номер документа должен быть 1, а не 342, а...

128 просмотров

r pdf information-retrieval tm term-document-matrix

22.12.2023

Как удалить определенные слова в столбце

У меня есть столбец, состоящий из нескольких страновых офисов, связанных с компанией, где я хотел бы сократить fx: страновой офис в Китае и страновой офис в Бангладеш, просто до Китая или Бангладеш. Другими словами, удалив слова «Офис» и «Страна». из...

5382 просмотров

r string tidytext tm

27.10.2023

Отображение темы обзора в R

У меня есть два набора данных: Обзорные данные и Тематические данные . Код вывода моих данных обзора structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be...

66 просмотров

r text-mining dplyr tidytext tm

31.08.2022

Вопросы по теме 'tm'

Похожие вопросы