Sciencetext Tips & Trucs

Blogging tips, trucs en browsen computing hacks

Spam of Ham?

13 mei, 2009 door David Bradley>> Please comment

[Verzonden naar Twitter]

Control reactiespam Een nieuwe benadering van spamfilters kunnen gebruiken uw web browsing gewoonten te helpen uw email programma filteren spam en vind de ham.

Een computer desktop systeem die volgt op uw webpagina surfgedrag en vervolgens dit probleem voor het filteren van spam uit uw e-mail wordt ontwikkeld door onderzoekers in Japan.

Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka en Masayoshi Aritsugi van het Department of Computer Science and Communication Engineering aan Kumamoto University, uitleggen hoe het systeem vaststelt "ham" woorden gebaseerd op de manier waarop een gebruiker zoekt op het web en maakt een onderscheid tussen deze woorden en ham de "spam" woorden vinden in de gebruikershandleiding van inkomende e-mail. "De methode vermindert lastig het onderhoud van een spamfilter," zeggen de onderzoekers, die normaliter bij de gebruiker de bevestiging van een vals negatieve of een zwarte lijst een spam e-mail die niet is gefilterd.

"Onze methode kan detecteren sommige spam die is moeilijk te classificeren correct gebruik van de bestaande Bayesiaanse statistiek filters," het team zegt: "We tonen aan dat een combinatie van een Bayesiaanse filter en onze methode vermindert het aantal valse negatieven."

In 2001, slechts 5% van het email verkeer tussen het internet is ongevraagde marketing boodschappen, bekend als "spam" na de gehomogeniseerde varkensvlees product gemaakt door de beroemde Britse comedy team van Monty Python in een humoristisch lied getiteld "Spam, spam, spam ..." Vandaag , wordt geschat dat tussen 90 en 95% van alle e-mails zijn spam of voeren een of andere vorm van schadelijke lading. Sommige waarnemers wijzen erop dat e-mail spam zou kunnen hebben ernstige gevolgen voor het milieu gezien het enorme bedrag van de computer en de gebruiker tijd verspild aan het beheer van een dergelijke grote flux van het internet verkeer.

Er zijn twee belangrijke anti-spam technologieën: afzender-side technologieën opereren op het vroegste stadium en zijn ontworpen om te voorkomen dat kwaadwillende gebruikers versturen van spam in de eerste plaats. Gezien de massaal gedistribueerde aard van spam bronnen en het bestaan van een spam-bot-netwerken opgebouwd uit gecompromitteerde computers over de hele wereld die kunnen sturen miljoenen berichten per dag, dit is het moeilijkste te implementeren.

Zo, spam management is meestal aangepakt met behulp van de ontvanger-side technologieën, die actief zijn op het niveau email bedrijf (in het geval van Google Mail), de internet service provider (ISP) of op niveau van de gebruiker e-mail programma. Om een nieuwe benadering om spam controle, Takashita en collega's zijn gericht op het laatste: filteren.

Er zijn vele methoden beschikbaar om spam te filteren. De eenvoudigste betreft het creëren van een zwarte lijst van spam woorden. Als deze woorden worden gevonden in een inkomende e-mail wordt gemarkeerd als spam. Extra filters kunnen zoeken naar webadressen zijn ingebed in een inkomende e-mail en toewijzen van de spam-tag als er meer dan een drempel aantal URL's in de e-mail of indien deze URL's op de zwarte lijst plaatsen of obfuscated in zekere zin. Deze URL filtering aanpak helpt ook filteren op frauduleuze phishing-berichten ook.

Op elk punt een e-mail kan de gebruiker handmatig vlag een e-mail als spam of de-vlag ham een e-mail. Bayesiaanse statistiek is gebruikt te vergroten en te automatiseren deze aanpak filteren door "leren" van die e-mails worden de zwarte lijst of witte welke statistische combinatie van woorden in een nieuwe e-mail is waarschijnlijk te suggereren spam of ham.

Een ding dat de meeste e-mailgebruikers ook doen met hun computer om op het web. Takashita en collega's hebben gebruik gemaakt van dit feit te helpen ontwikkelen van een filtering algoritme dat extracten een gebruiker op basis van hun web browsing gewoonten en geldt dit probleem te filteren op spam e-mail in combinatie met conventionele Bayesiaanse email filteren. Hun benadering roept geen privacy kwesties zoals dit het geval is volledig client en het browsen gegevens is gewoon gevoed met een desktop-tool. Door de noodzaak de tool in strijd zou zijn met, of binnen de web browser en e-mailprogramma's.

De methode bestaat uit drie fasen: de eerste fase wordt een ham woorden lijst van doorgespit webpagina's en toepassing van een statistische analyse van deze lijst, de tweede fase levert de filterfunctie van de ontvangen e-mails met ham woorden lijst, en de derde fase, dat is mogelijk, stelt de gebruiker in te grijpen en de witte of de zwarte lijst van e-mails die zijn gemarkeerd onjuist.

In hun voorafgaande proeven van de aanpak, ze zijn erin geslaagd om de helft van het aantal valse negatieven in het filteren van duizenden e-mails in vergelijking met een filtering test die gebruikt Bayesiaanse statistiek alleen.

Het klinkt allemaal nogal slim, maar ik kan bedenken een onmiddellijke probleem met deze benadering in dat een belang in het bezoeken van bepaalde niche sites kiezen waarin name lichaamsdelen zou niet per se te vertalen naar een verlangen om te lezen e-mails met betrekking tot de uitbreiding van de genoemde lichaamsdelen. Of nog erger, gewoon omdat je op zoek bent naar informatie over een bepaalde medische aandoening betekent niet dat je zou willen ontvangen eindeloze marketing e-mails die u medicijnen voor die specifieke ziekte. Ik zou denken van verschillende andere voorbeelden van waar mijn journalistieke surfgedrag zou waarschijnlijk leiden tot vrijwel geen spam wordt gefilterd op alle!

Onderzoek Bloggen Icon Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, & Masayoshi Aritsugi (2008). Extracting gebruiker van web browsen gedrag voor spamfilters Int. (2), 126-138 J. Advanced Intelligence paradigma's, 1 (2), 126-138

0 reacties tot dusver ↓

  • Heb je iets toe te voegen? Laat een reactie hieronder

Verlaat een Commentaar

Reacties worden gecontroleerd op spam voordat ze worden weergegeven, niet nodig om na het twee keer.