Puis-je avoir un exemple de caractéristiques prises dans un cas de détection de spam ?

 

 

En prenant la base de spam qui nous est fournit par :

 

https://archive.ics.uci.edu/ml/datasets/Spambase

 

Nous obtenons ainsi :

 

names.png

 

Dans notre base, 58 variables sont utilisées :

 

  • 1 variable prenant {0,1} : 1 si spam

  • 48 pour la fréquence des mots

  • 6 pour la fréquence des caractères

  • 1 pour la longueur moyenne des séquences ininterrompues de lettres en majuscules

  • 1 pour la longueur de la plus longue des séquences ininterrompues de lettres en majuscules

  • 1 pour le nombre de caractères en majuscules dans l’email = somme de la caractéristique précedente

 

Article publié le 2 novembre 2015 par Comité de Caritat.

Posez votre question, nos experts vous répondront