Filtrage bayésien : technique pour lutter contre le SPAM

01 / 01 / 2018

Par Maxime CHARLÈS - CEO

Le filtre bayésien pour protéger sa messagerie des SPAM

Le filtrage bayésien est une des techniques utilisée pour détecter et se protéger des SPAM. Issue du théorème de Bayes, cette méthode consiste à comparer les mots d’un mail. Chaque terme est associé à une probabilité qui correspond au nombre de fois où ce mot apparaît dans un SPAM. Si la probabilité dépasse un certain seuil, alors le message est considéré comme un message indésirable.

Une méthode antispam par apprentissage

Le calcul de la probabilité de chaque mot est issu d’un apprentissage grâce aux expériences passées. En classant un mail manuellement dans le dossier des SPAM, une analyse des mots est effectuée. Plus un terme apparaît fréquemment dans ces courriers non désirés, plus sa probabilité augmente en tant que chaîne suspecte.

Par exemple, le mot viagra a une probabilité de 100% et le mot sécurité 20%. A chaque détection de SPAM, les probabilités deviennent plus précises et le filtre bayésien s’améliore.

Au final, si la probabilité dépasse un serveur seuil, le mail est considéré comme étant indésirable, autrement dit si certains mots apparaissent souvent dans un mail dit SPAM, il est alors légitime de le considérer comme tel à l’avenir.

Vous trouverez plus d’informations sur la logique mathématique du filtrage Bayésien sur le site de Stanford ou sur Niedermayer.