Comment charger les données pour le traitement de texte ?

 

 

Il faut pour cela utliser le package tm sur R

Par la suite, on transformera en matrice le texte.

 

library(tm)

setwd('F:/My Documents/My texts')

a <-Corpus(DirSource("/My Documents/My texts"), readerControl = list(language="lat"))

 

a <- tm_map(a, removeNumbers)

a <- tm_map(a, removePunctuation)

a <- tm_map(a , stripWhitespace)

a <- tm_map(a, tolower)

a <- tm_map(a, removeWords, stopwords("english"))

a <- tm_map(a, stemDocument, language = "english")

adtm <-DocumentTermMatrix(a)

adtm <- removeSparseTerms(adtm, 0.75)

 

 

Article publié le 2 novembre 2015 par Comité de Caritat.

Posez votre question, nos experts vous répondront