mercredi 27 décembre 2006

Le spam, c'est intéressant

Récemment je me suis connecté à une vieille adresse email, inusitée depuis presque 1 an. Evidemment, j'y ai trouvé plus de 4,000 spams ... pour mon plus grand plaisir ! Contrairement à la plupart des gens qui pestent et les jettent sans les lire, je me suis amusé à regarder un peu les tendances. D'ailleurs je ne suis pas le seul :)

J'en suis arrivé aux conclusions suivantes :

  • 99% des spams sont en anglais, le 1% restant étant principalement dans une langue asiatique (le chinois ?).
  • Un nombre non négligeable de spams restent filtrables par des mots-clés simples, tels que :
    • sex (pas besoin d'explications)
    • medicine et cialis/viagra/anatrim/hoodia/... (assez clair également, même si je ne connais pas les effets de tous ces produits)
    • loan (rachat de crédits)
    • casino (depuis la réglementation du casino en ligne aux USA, les opérateurs se tournent vers les marchés internationaux)
    • replica (fausses montres et faux sacs à main)
    • smallcap/microcap (sociétés à faible capitalisation - manipulation de cours de bourse)
    • oem (logiciels piratés, prétendument moins chers car en version "OEM")
    • ... et j'en oublie ...
  • Les textes "aléatoires" destinés à contrer le filtrage Bayésien le sont de moins en moins. Des extraits de bulletins météo, des documents techniques, ou des dépêches d'agences d'information sont couramment utilisés. Parfois on se demande même si ce ne sont pas des extraits d'emails internes à des sociétés ! L'exemple ci-dessous est assez représentatif (on se demande d'où vient le passage en français !) :
[...]
Why don't you tray to learn Chinese as well? This HiPODS developed service is available in IBM's SOA Business Catalog, a single, comprehensive online directory of hundreds of reusable SOA assets from IBM and business partners. Gardening complements a comprehensive fitness program. J'en au presque fait une cholique. "The current, integrated architecture of Microsoft Windows is unsustainable - for enterprises and for Microsoft," wrote Gartner analysts Brian Gammage, Michael Silver and David Mitchell Smith. End users receive this electricity through the existing electrical grid. The Single UNIX Specification is a set of open specifications that
define the requirements for a conformant UNIX system. So wie sie ihn beschreibt, tapert er einsam und routiniert als biederer Steuerbeamter durchs Leben.

[...]

Sur mes adresses personnelles d'usage courant, j'ai remarqué une recrudescence du spam "institutionnel" français. Je ne donnerai pas de noms, mais après les partis politiques, les enseignes de la grande distribution n'hésitent plus !

1 commentaire:

Anonyme a dit…

En même temps, si je vire tous les mails qui contiennent "sex", je risque d'avoir un bon nombre de faux positifs ... :)