Вопросы по теме 'tm'

Text Mining - как построить матрицу терминов и документов
Я пытаюсь загрузить файл csv и преобразовать его в матрицу термодокумента. Вот часть моего кода: myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE) TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf))) Но...
12321 просмотров
r tm
schedule 02.05.2024

Пакет R tm и кириллица
Я пытаюсь выполнить анализ текста с русским текстом, используя пакет tm, и у меня есть некоторые проблемы. скорость предварительной обработки сильно зависит от кодировки. library(tm)...
2545 просмотров
schedule 15.11.2022

диаграмма рассеяния частоты слов в R (слова как метки)
В настоящее время я работаю над статьей, в которой сравниваются роли британских депутатов в парламенте и их роли в твиттере. Я собрал данные из твиттера (самое главное, необработанный текст) и выступления в парламенте одного депутата и хочу сделать...
1790 просмотров
schedule 22.11.2023

Как сохранить R Corpus на диск
У меня есть большой объект R Corpus, использующий пакет tm, состоящий из миллионов небольших документов. Как сохранить это на диск в виде отдельного текстового файла для использования с другими программами (например, word2vec)? Я попытался...
6038 просмотров
r tm
schedule 19.03.2024

преобразование слова из основы в корневое слово в R
Привет, у меня есть список слов, которые были получены с помощью пакета «tm» в R. Могу ли я как-то вернуть корневое слово после этого шага. Заранее спасибо. Пример: деятельность --> деятельность
2661 просмотров
schedule 09.07.2022

Удаление чрезмерно общих слов (встречаются более чем в 80% документов) в R
Я работаю с пакетом «tm» для создания корпуса. Я выполнил большинство шагов предварительной обработки. Осталось убрать слишком распространенные слова (термины, встречающиеся более чем в 80% документов). Может ли кто-нибудь помочь мне с этим?...
10977 просмотров
schedule 04.10.2023

Как вы нормализуете строки матрицы терминов документа в R?
У меня есть DocumentTermMatrix с именем train_dtm, и я хочу нормализовать подсчет частот терминов во всех документах. Проблема, с которой я столкнулся, заключается в том, что результирующая матрица также должна иметь тип DocumentTermMatrix, потому...
1607 просмотров
schedule 05.11.2023

Сравнение облаков для текста, представленного на графике (пакет wordCloud)
У меня есть набор контента, связанный с запросом (из электронных писем), который повторно обрабатывается с использованием пакета tm . Желая представить это графически, я наткнулся на это твиттер-облако. сравнение текста , и я пытаюсь загрузить и...
2766 просмотров
schedule 18.04.2024

Как показать текст корпуса в пакете R TM?
Я совершенно новичок в пакете R и tm, поэтому, пожалуйста, извините за глупый вопрос ;-) Как мне показать текст корпуса обычного текста в пакете R tm? Я загрузил корпус с 323 текстовыми файлами в корпусе: src <-...
34640 просмотров
schedule 21.04.2024

Все еще есть проблемы с пунктуацией после функции removePunctuation
Я использовал removePuncutation из пакета «tm» в R в матрице Term Document Matrix. По какой-то причине у меня все еще остаются странные символы в моем графике букв по сравнению с их пропорциями в анализируемом корпусе. Ниже приведен код, который я...
264 просмотров
schedule 06.11.2023

Подмножить корпус по метаданным?
Я чувствую, что это должно быть проще, но я не могу понять это. Как отфильтровать документы из корпуса на основе метаданных. Чтобы быть более конкретным, у меня есть корпус из 576 документов, каждый из которых имеет тег «Раздел». Раздел имеет ряд...
555 просмотров
schedule 05.11.2022

Присвоение весов различным функциям в R
Можно ли присвоить веса различным функциям перед формулировкой DFM в R? Рассмотрим этот пример в R str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE) DFM mydfm выглядит так: docs...
586 просмотров
schedule 10.08.2022

R: removeCommonTerms с пакетом Quanteda?
Функция removeCommonTerms находится здесь для пакета TM, так что removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m <-...
421 просмотров
schedule 15.06.2024

TermDocumentMatrix выполняет незапрашиваемую очистку (например, удаление пунктуации)
Насколько я понимаю в документации, функция TermDocumentMatrix пакета tm не работает. Кажется, он выполняет обработку на условиях, которые я не запрашивал. Вот пример: require(tm) sentence <- "Astrology: I am a Capricorn Sun Cap moon...
213 просмотров
r tm
schedule 15.04.2024

список из нескольких списков из 2 для синонимов
Я хочу прочитать синонимы из CSV-файла, где первое слово является «основным» словом, а остальные слова в той же записи являются его синонимами теперь я в основном хочу создать список, как в R, **synonyms <- list( list(word="ss",...
114 просмотров
schedule 02.11.2023

Завершение ствола в R
Я работаю над анализом текста в R, вот несколько документов из моего корпуса после удаления пунктуации, чисел, URL-адресов и стоп-слов. myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords,...
481 просмотров
r tm
schedule 16.10.2023

построить матрицу документа термина из файла PDF
Я пытаюсь построить term document matrix из одного текста в формате PDF. Когда я осматриваю term document matrix , я понимаю это. <<TermDocumentMatrix (terms: 7245, documents:342)>> Номер документа должен быть 1, а не 342, а...
128 просмотров

Как удалить определенные слова в столбце
У меня есть столбец, состоящий из нескольких страновых офисов, связанных с компанией, где я хотел бы сократить fx: страновой офис в Китае и страновой офис в Бангладеш, просто до Китая или Бангладеш. Другими словами, удалив слова «Офис» и «Страна». из...
5382 просмотров
schedule 27.10.2023

Отображение темы обзора в R
У меня есть два набора данных: Обзорные данные и Тематические данные . Код вывода моих данных обзора structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved", "Sports and physical exercise need to be...
66 просмотров
schedule 31.08.2022