Я пытаюсь построить term document matrix
из одного текста в формате PDF. Когда я осматриваю term document matrix
, я понимаю это.
<<TermDocumentMatrix (terms: 7245, documents:342)>>
Номер документа должен быть 1, а не 342, а 342 - это количество страниц в pdf-файлах. Я пытался использовать этот код с помощью R.
pdf_file <- file.path(("Lat/web"), "textpdf.pdf")
text <- pdf_text(pdf_file)
myCorpus <- Corpus(VectorSource(text))
mytdm <- TermDocumentMatrix(myCorpus, control = list
(removeNumbers = TRUE,
removePunctuation = TRUE,
stopwords=stopwords_en,
stemming=TRUE)
)
inspect(mytdm)