Spam camouflage

Encore un petite nouveauté…

imagepleindeCouleurs16Nov2006

Je vois 2 raisons à ce “camouflage”:

  • L’OCR sera plus difficile car certaines lettres seront sur un fond de la même couleur.

  • Le ratio “pixels par octets”:

    En effet, devant l’explosion des spams contenant des images, des nouveaux moyens de défense ont dus êtres trouvés pour identifier les images contenant essentiellement du texte (à priori un spam).

L’une de ces nouvelles techniques pour détecter les images “spam” est d’étudier le ratio “pixels par octets”…

  • spamNormal.gif

12259 octets (12 Ko)
508x560 -> 284 480 pixels
Nombres de pixels par octets (ratio): 23

  • ImageNormale508x560pasSpam.gif

124793 octets (122 Ko)
508x560 -> 284 480 pixels
Nombres de pixels par octets (ratio): 2.2

  • NouvelleImageSpamCamouflage.gif

27154 octets (26,5 Ko)
700x400 -> 280 000 pixels
Nombres de pixels par octets (ratio): 10.3

A priori, la moyenne des images spams non “camouflage”, a un ratio allant de 7 à 60 (en moyenne 35) alors qu’une image non spam a plutôt en général un ratio entre 1 et 10 (en moyenne 3).
Tant que les fonds d’images spams sont unis, le ratio étant en moyenne de 35, c’est très significatif, mais avec ce nouveau spam “camouflage” avec un ratio de 10, çà l’est beaucoup moins…

Tout le monde aura noté également l’anti OCR avec les lettres décalées…