Comment transformer un texte en une matrice numérique ?

 

 

 

Considérons un corpus de documents et un dictionnaire des termes contenant tous les mots apparaissant dans le document. Nous pouvons construire une matrice appelée matrice terme-document qui est une matrice à deux dimensions dont les lignes sont les termes et les colonnes sont les documents, de sorte que chaque entrée (i,j) représente la fréquence du terme i dans le document j.

Un exemple de ces matrices est le "fréquence de terme-fréquence de document inversé" (tf-idf) qui est utilisé dans la recherche d'informations. Pour chaque entrée de la matrice, la fréquence de terme (term frequency) mesure le nombre de fois où le terme i apparaît dans le document j et la fréquence de document inversé (inverse document frequency) mesure le nombre de documents dans le corpus qui contiennent le terme i.

Le score tf-idf est le produit de ces deux mesures (tf*idf).

Par conséquent ce dernier augmente lorsque le terme i apparaît fréquemment dans le document j, mais diminue à mesure que le terme apparaît dans d'autres documents.

Ce score de tf-idf est souvent utilisé dans les documents de rang dans les résultats de recherche, qui contiennent une haute fréquence de termes de la requête de recherche, et en particulier les termes qui sont des mots rares ou uniques plutôt que des mots communs comme "le".

 

Article publié le 2 novembre 2015 par Comité de Caritat.

Posez votre question, nos experts vous répondront