Comment utiliser le SVM dans le cadre du Text Mining ?

 

 

Nous allons exposer les principales étapes pour appliquer le SVM à la classification de textes :

 

1.Convertir le texte en représentations vectorielles, c’est à dire numériser les textes afin que le SVM puisse être appliqué. On pourra ensuite choisir librement les options, telles que le mot d'arrêt, des suppressions et le seuil de la fréquence du document word.

 

2. Améliorer la sélection des paramètres, qui est habituellement facultative car le SVM se montre bon à gérer les option de redondance. Cependant, la sélection des paramètres peut aider à réduire l'espace de dimension d'apprentissage et ainsi accélérer la formation de manière significative.

 

3. Affiner avec un SVM vos données d'apprentissage. Différents choix de noyaux sont à disposition et pour les paramètres d’apprentissage, tels que C et gamma, vous pouvez les laisser par défaut pour les données initiales.

Si l’objectif est d'obtenir la meilleure performance possible, on peut utiliser la recherche de grille qui tente de manière exhaustive les combinaisons de paramètres que vous spécifiez et vous montre la combinaison qui donne les meilleurs résultats. La recherche de la grille est généralement réalisée sur les données d'évaluation.

 

4. Évaluation: Après avoir affiné les paramètres d'apprentissages sur vos données d'évaluation, vous pouvez tester les performances de votre SVM sur les données de test. Alternativement, vous pouvez utiliser la validation croisée pour estimer les performances de votre SVM. Si vous avez un nombre limité de textes annotés, la validation croisée est recommandée, car elle tire partie de l'utilisation de toutes les données que vous avez.

 

Article publié le 2 novembre 2015 par Comité de Caritat.

Posez votre question, nos experts vous répondront