Qu’est-ce que le filtrage bayésien des spams?

 

 

Il s’agit d’une méthode probabiliste de filtrage des courriers électroniques se basant sur la distribution statistique de mots-clés dans les mails.

Ce type d’algorithme utilise une base la plus hétérogène possible de spams et de hams (messages légitimes) afin d’être capable par la suite de reconnaître le type de message reçu.

Le principe est le suivant : deux bases sont créées, une de spams et une de hams.

De plus, un dictionnaire de mots-clés est créé dans lequel chaque terme est associé à une probabilité. Ensuite, lors de l’analyse d’un e-mail, si les mots du dictionnaire existent, la somme des probabilités de chaque mot-clef retrouvé est affectée au mail. Pour finir, si la probabilité finale est inférieure à 50%, l’e-mail sera classé dans les messages légitimes (hams) et si la probabilité finale est supérieure à 50%, il sera considéré comme un spam. Cette technique s’est révélée être une méthode très efficace pour détecter les spams.

 

Article publié le 2 novembre 2015 par Comité de Caritat.

Posez votre question, nos experts vous répondront