Sciencetext Trucs & Astuces

Blogging des conseils, des astuces de navigation et de l'informatique hacks

Spam ou Ham?

13 mai 2009 par David Bradley>> S'il vous plaît commentaire

[Post à Twitter]

Control commentaire spam Une nouvelle approche de filtrage de spam pourrait utiliser vos habitudes de navigation sur le Web à l'aide de votre programme de messagerie filtrer spam et de trouver le jambon.

Un ordinateur de bureau qui suit vos habitudes de navigation web et utilise ensuite ce comportement pour filtrer le spam de votre courriel est en cours d'élaboration par les chercheurs au Japon.

Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, et Masayoshi Aritsugi du Département d'Informatique et Communication Engineering à l'Université de Kumamoto, d'expliquer comment le système trouve "jambon" mots basé sur la façon dont un utilisateur navigue sur le Web et établit une distinction entre ces mots et jambon le "spam" mots de l'utilisateur du courrier électronique. "La méthode réduit la problématique de l'entretien un filtre anti-spam", les chercheurs affirment que, ce qui implique normalement l'utilisateur de confirmer un faux négatif ou une liste noire d'un spam qui n'a pas été filtré.

"Notre méthode permet de détecter une certaine quantité de spam qui est difficile à classer correctement en utilisant les filtres de Bayes statistiques, l'équipe a déclaré:« Nous montrons que la combinaison d'un filtre bayésien et notre méthode réduit le nombre de faux négatifs ».

En 2001, seulement 5% du trafic du courrier à travers l'Internet a été mise sur le marché des messages non sollicités, appelés "spam" après le porc produit homogénéisé, rendu célèbre par l'équipe de la comédie britannique Monty Python dans une chanson humoristique intitulé «Spam, spam, spam ..." Aujourd'hui, , il est estimé qu'entre 90 et 95% des tous les e-mails sont du spam ou effectuer une certaine forme de charge utile malveillante. Certains observateurs suggèrent que le mail spam pourrait avoir graves conséquences sur l'environnement étant donné l'énorme quantité d'ordinateurs et d'utilisateurs de perte de temps sur la gestion de ce vaste flux de trafic Internet.

Il existe deux principales technologies anti-spam: l'expéditeur du côté des technologies fonctionner au plus tôt, et sont conçues pour empêcher les utilisateurs malveillants d'envoyer le spam en premier lieu. Compte tenu de la nature distribuée massivement les sources de spam et de l'existence de réseaux de spam bot construit à partir des ordinateurs compromis à travers le monde qui peut envoyer des millions de messages chaque jour, c'est le plus difficile à mettre en œuvre.

Ainsi, la gestion des spam est généralement abordé du côté du récepteur en utilisant les technologies qui fonctionnent, soit au niveau de la société e-mail (dans le cas de Google Mail), le fournisseur de services Internet (ISP) ou sur le niveau de l'utilisateur de courrier électronique. Afin de fournir une nouvelle approche pour contrôler le spam, Takashita et ses collègues ont mis l'accent sur ce dernier: le filtrage.

Il existe de nombreuses approches possibles pour filtrer le spam. Le plus simple consiste à créer une liste noire de spam mots. Si ces mots se trouvent dans un courrier électronique, il est marqué comme spam. Des filtres additionnels peuvent rechercher les adresses des sites Web embarqué dans un courrier électronique et d'attribuer le tag spam si il ya plus d'un seuil de nombre d'URL dans le courrier électronique ou si les URL de point à la liste noire des sites ou sont en quelque sorte masquée. Cette approche de filtrage des URL permet également de filtrer les messages de phishing frauduleux trop.

À tout moment un e-mail utilisateur peut manuellement flag un email comme spam ou de pavillon, un jambon email. Bayésienne des statistiques a été utilisé pour augmenter et d'automatiser cette approche de filtrage par «apprentissage» à partir de laquelle les e-mails sont sur liste noire ou blanche quelle combinaison de mots de statistique dans un nouveau courrier électronique est de nature à suggérer de spam ou de jambon.

Une chose que la plupart des utilisateurs d'email également faire de leur ordinateur pour naviguer sur le Web. Takashita et ses collègues ont utilisé ce fait pour aider à développer un algorithme de filtrage qui extrait une des préférences de l'utilisateur en fonction de leur habitudes de navigation Web et l'applique à ce problème de filtrage de spam e-mail en la combinant avec les e-mail de filtrage bayésien. Leur approche évoque pas les questions de confidentialité comme il est tout à fait du côté client et les données de navigation est tout simplement alimenté à un outil de bureau. Par nécessité de l'outil serait avec, ou à l'intérieur, le navigateur Web et des programmes de messagerie électronique.

La méthode se compose de trois étapes: la première étape crée une liste de mots de jambon de parcourir les pages Web et applique une analyse statistique de cette liste, la deuxième étape prévoit la fonctionnalité de filtrage des e-mails reçus avec jambon liste de mots, et la troisième phase, qui est facultatif, permet à l'utilisateur d'intervenir et de liste noire ou blanche les e-mails qui ont été signalées correctement.

Dans leurs tests préliminaires de la démarche, ils sont parvenus à la moitié du nombre de faux négatifs dans le filtrage de plusieurs milliers de courriers électroniques par rapport à un test de filtrage bayésien utilisé que pour les seules statistiques.

Cela ressemble assez intelligent, mais je ne peux penser à un problème immédiat avec cette approche que dans un intérêt dans visite de certains sites spécialisés citant notamment les parties du corps ne se traduit pas nécessairement d'une volonté de lire les e-mails à l'élargissement de ces parties du corps. Ou, plus sérieusement, parce que vous cherchez des informations sur un trouble médical particulier ne signifie pas que vous ne souhaitez plus recevoir les e-mails marketing sans fin de vous offrir des médicaments pour cette maladie. Je pourrais penser à plusieurs autres exemples de journalisme où mes habitudes de navigation risque de presque pas de spam filtrés à tous!

Icône de recherche de blogs Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, et Masayoshi Aritsugi (2008). Extraction de préférence des utilisateurs de la navigation sur le Web pour les comportements de filtrage de spam Int. (2), 126-138 J. Advanced Intelligence Paradigms, 1 (2), 126-138

0 réponses à ce jour ↓

  • Vous avez quelque chose à ajouter? S'il vous plaît laissez un commentaire ci-dessous

Laissez un commentaire

Les commentaires sont vérifié pour le spam avant de comparaître devant, pas besoin de poster deux fois.