Вопросы по теме 'tm'
Text Mining - как построить матрицу терминов и документов
Я пытаюсь загрузить файл csv и преобразовать его в матрицу термодокумента.
Вот часть моего кода:
myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE)
TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf)))
Но...
12321 просмотров
schedule
02.05.2024
Пакет R tm и кириллица
Я пытаюсь выполнить анализ текста с русским текстом, используя пакет tm, и у меня есть некоторые проблемы.
скорость предварительной обработки сильно зависит от кодировки.
library(tm)...
2545 просмотров
schedule
15.11.2022
диаграмма рассеяния частоты слов в R (слова как метки)
В настоящее время я работаю над статьей, в которой сравниваются роли британских депутатов в парламенте и их роли в твиттере. Я собрал данные из твиттера (самое главное, необработанный текст) и выступления в парламенте одного депутата и хочу сделать...
1790 просмотров
schedule
22.11.2023
Как сохранить R Corpus на диск
У меня есть большой объект R Corpus, использующий пакет tm, состоящий из миллионов небольших документов.
Как сохранить это на диск в виде отдельного текстового файла для использования с другими программами (например, word2vec)?
Я попытался...
6038 просмотров
schedule
19.03.2024
преобразование слова из основы в корневое слово в R
Привет, у меня есть список слов, которые были получены с помощью пакета «tm» в R. Могу ли я как-то вернуть корневое слово после этого шага. Заранее спасибо.
Пример: деятельность --> деятельность
2661 просмотров
schedule
09.07.2022
Удаление чрезмерно общих слов (встречаются более чем в 80% документов) в R
Я работаю с пакетом «tm» для создания корпуса. Я выполнил большинство шагов предварительной обработки. Осталось убрать слишком распространенные слова (термины, встречающиеся более чем в 80% документов). Может ли кто-нибудь помочь мне с этим?...
10977 просмотров
schedule
04.10.2023
Как вы нормализуете строки матрицы терминов документа в R?
У меня есть DocumentTermMatrix с именем train_dtm, и я хочу нормализовать подсчет частот терминов во всех документах. Проблема, с которой я столкнулся, заключается в том, что результирующая матрица также должна иметь тип DocumentTermMatrix, потому...
1607 просмотров
schedule
05.11.2023
Сравнение облаков для текста, представленного на графике (пакет wordCloud)
У меня есть набор контента, связанный с запросом (из электронных писем), который повторно обрабатывается с использованием пакета tm . Желая представить это графически, я наткнулся на это твиттер-облако. сравнение текста , и я пытаюсь загрузить и...
2766 просмотров
schedule
18.04.2024
Как показать текст корпуса в пакете R TM?
Я совершенно новичок в пакете R и tm, поэтому, пожалуйста, извините за глупый вопрос ;-) Как мне показать текст корпуса обычного текста в пакете R tm?
Я загрузил корпус с 323 текстовыми файлами в корпусе:
src <-...
34640 просмотров
schedule
21.04.2024
Все еще есть проблемы с пунктуацией после функции removePunctuation
Я использовал removePuncutation из пакета «tm» в R в матрице Term Document Matrix. По какой-то причине у меня все еще остаются странные символы в моем графике букв по сравнению с их пропорциями в анализируемом корпусе.
Ниже приведен код, который я...
264 просмотров
schedule
06.11.2023
Подмножить корпус по метаданным?
Я чувствую, что это должно быть проще, но я не могу понять это. Как отфильтровать документы из корпуса на основе метаданных. Чтобы быть более конкретным, у меня есть корпус из 576 документов, каждый из которых имеет тег «Раздел». Раздел имеет ряд...
555 просмотров
schedule
05.11.2022
Присвоение весов различным функциям в R
Можно ли присвоить веса различным функциям перед формулировкой DFM в R?
Рассмотрим этот пример в R
str="apple is better than banana"
mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE)
DFM mydfm выглядит так:
docs...
586 просмотров
schedule
10.08.2022
R: removeCommonTerms с пакетом Quanteda?
Функция removeCommonTerms находится здесь для пакета TM, так что
removeCommonTerms <- function (x, pct)
{
stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")),
is.numeric(pct), pct > 0, pct < 1)
m <-...
421 просмотров
schedule
15.06.2024
TermDocumentMatrix выполняет незапрашиваемую очистку (например, удаление пунктуации)
Насколько я понимаю в документации, функция TermDocumentMatrix пакета tm не работает. Кажется, он выполняет обработку на условиях, которые я не запрашивал.
Вот пример:
require(tm)
sentence <- "Astrology: I am a Capricorn Sun Cap moon...
213 просмотров
schedule
15.04.2024
список из нескольких списков из 2 для синонимов
Я хочу прочитать синонимы из CSV-файла, где первое слово является «основным» словом, а остальные слова в той же записи являются его синонимами
теперь я в основном хочу создать список, как в R,
**synonyms <- list(
list(word="ss",...
114 просмотров
schedule
02.11.2023
Завершение ствола в R
Я работаю над анализом текста в R, вот несколько документов из моего корпуса после удаления пунктуации, чисел, URL-адресов и стоп-слов.
myStopwords <- setdiff(myStopwords, c("r", "big"))
myCorpus <- tm_map(myCorpus, removeWords,...
481 просмотров
schedule
16.10.2023
построить матрицу документа термина из файла PDF
Я пытаюсь построить term document matrix из одного текста в формате PDF. Когда я осматриваю term document matrix , я понимаю это.
<<TermDocumentMatrix (terms: 7245, documents:342)>>
Номер документа должен быть 1, а не 342, а...
128 просмотров
schedule
22.12.2023
Как удалить определенные слова в столбце
У меня есть столбец, состоящий из нескольких страновых офисов, связанных с компанией, где я хотел бы сократить fx: страновой офис в Китае и страновой офис в Бангладеш, просто до Китая или Бангладеш. Другими словами, удалив слова «Офис» и «Страна». из...
5382 просмотров
schedule
27.10.2023
Отображение темы обзора в R
У меня есть два набора данных: Обзорные данные и Тематические данные .
Код вывода моих данных обзора
structure(list(Review = structure(2:1, .Label = c("Canteen Food could be improved",
"Sports and physical exercise need to be...
66 просмотров
schedule
31.08.2022