построить матрицу документа термина из файла PDF

Я пытаюсь построить term document matrix из одного текста в формате PDF. Когда я осматриваю term document matrix, я понимаю это.

<<TermDocumentMatrix (terms: 7245, documents:342)>>

Номер документа должен быть 1, а не 342, а 342 - это количество страниц в pdf-файлах. Я пытался использовать этот код с помощью R.

pdf_file <- file.path(("Lat/web"), "textpdf.pdf")
text <- pdf_text(pdf_file)
myCorpus <- Corpus(VectorSource(text))

mytdm <- TermDocumentMatrix(myCorpus, control = list
                         (removeNumbers = TRUE, 
                         removePunctuation = TRUE, 
                         stopwords=stopwords_en, 
                         stemming=TRUE)
)
inspect(mytdm)

person Hilfit19    schedule 16.04.2018    source источник


Ответы (1)


Используйте следующий код, чтобы свернуть страницы PDF в 1 документ.

pdf_file <- file.path(("Lat/web"), "textpdf.pdf")
text <- pdf_text(pdf_file)
# collapse pdf pages into 1
text <- paste(unlist(text), collapse ="")
.....
rest of code
person phiver    schedule 16.04.2018
comment
очень-очень спасибо @phiver, все работает, еще раз спасибо - person Hilfit19; 16.04.2018
comment
@Hilfit19, добро пожаловать. Если вы примете ответ, ваша репутация также повысится. - person phiver; 16.04.2018