De Analyse van Spam
25 juni, 2008 · door David Bradley
Iedereen wie zegt hebben zij nooit een probleem met e-mail spam zijn of mijn Papa gehad, die nooit geraakt=heeft= een computer in zijn leven (zegen hem), of zij hebben personeel om hun e-mail te lezen. Spam is alomtegenwoordig in de online wereld, overal is het, en het is omnipresent.
Als u Post gebruikt Google kunt u niet veel zien, zijn de spamfilters op dat systeem zeer goed (op zijn minst in mijn ervaring). Voorts als u dan POP3 uw downloaden bent GMail in een Desktope-mail cliënt met Het Bayesian statistische filtreren dan kunt u zelfs minder zien. Door:sturen aan uw op linux-Gebaseerde server en stel Moordenaar Spam tewerk en u kunt slechts zeer zeldzame spam e-mail goed zien. Nochtans, neem enkel een blik bij uw ruimte-drainage spam omslagen en u zult realiseren dat, hoewel u niet veel spam kunt zien, het nog een probleem is.
De wetenschappers van de computer in Frankrijk denken zij met een nieuw antwoord aan het vinden van de perfecte spamfilter kunnen op de proppen gekomen zijn. Het schrijven in Internationaal Dagboek van de Diensten van het Web en van het Net onlangs (2008, volume 4, beschrijven zij hoe zij kunnen filtreren spam zeer effectief gebruikend een proces dat als Kolmogorov ingewikkeldheidsanalyse wordt bekend. Deze benadering werkt, door headers of het lichaam van een inkomende e-mail geen te analyseren, maar door te classificeren baseerde het op hoe goed kan het worden samengeperst (verwant aan compressie WinZip of Stuffit) en whitelisted eerder dan het vergelijken van deze compressieverhouding aan dat van of zette e-mail op de zwarte lijst.
Andrei Nikolaevich Kolmogorov (1903-1987) was een Sovjet overwogen wiskundige, één van het meest uitstekend van de twintigste eeuw. Hij maakte belangrijke vooruitgang in kansberekening, topologie, intuitionistic logica, onstuimigheid, klassieke werktuigkundigen en computeringewikkeldheid. Het is binnen het werk van Kolmogorov aangaande logica dat Gilles Richard en Andrei Doncescu van de Universiteit van de hoop van Toulouse om een oplossing aan spam het filtreren te vinden, zoals zij verklaren:
Het belangrijkste idee is een formele betekenis te geven aan het begrip van informatie-inhoud `' en een maatregel van deze inhoud te verstrekken. Gebruikend zulk een kwantitatieve benadering, wordt het mogelijk om een afstand te bepalen, die een belangrijk hulpmiddel voor classificatiedoeleinden is.
De onderzoekers hebben hun benadering door in twee stappen te werk te gaan bevestigd:
Eerst, gebruikten zij de klassieke compressieafstand over een mengeling van spam en wettige e-mail om te bepalen als zij zich behoorlijk zonder enige supervisie kunnen groeperen. Deze stap kon dan tonen of er een onderliggende structuur aan spam e-mail is die in het filtreren zou kunnen worden geëxploiteerds.
In de tweede stap, voerden zij een eenvoudig machine-lerend systeem, een zogenaamd k-meest dichtbijgelegen burenalgoritme uit, dat dan e-mail classificeert volgens hoe dicht zij op anderen in de rij lijken. The approach requires no deep analysis of the header or body of the incoming email as is necessary with Spam Assassin type systems and Bayesian filtering. Instead, it works by simply measuring how different is the possible compression of known legitimate and spam emails.
Using this approach, the researchers were able to filter spam with 85% using this approach alone. However, its real strength will lie in turning to a more powerful classification technique (Support Vector Machines for instance) and in coupling it to another anti-spam technique, such as Bayesian analysis, Richard told me.

















3 responses so far ↓
andrew // Jun 25, 2008 at 4:51 pm
I read an article about a new technology called ReceiverNet from Abaca. ReceiverNet technology characterizes each protected user based on the percentage of spam they receive and then uses those reputations to rate the incoming message flow. I changed my spam filtering system to Abaca’s Email Protection Gateway and it blocked Replica watches spam mails, Subpoena Phishing mails and many more. I found that Abaca’s ReceiverNet service has 99% efficiency in blocking spam mails and they guarantee their results . For more information, log on to http://abaca.com/.
David Bradley // Jun 25, 2008 at 6:18 pm
Sounds like an interesting approach that saves on all this mathematical analysis. Anyone else got a good system in place that works as well as Abaca?
Phil Whelan // Jun 26, 2008 at 8:14 pm
Abaca approach sounds like an interesting. 99% is quite amazing! I’m going to check it.
David, yes, we have an approach that uses even less mathematical analysis, using the idea that spammers are impatient. We slow down connections of unknown senders, and in doing so have found that most zombie machines sending the spam disconnect within a few seconds.
Phil Whelans last blog post..Sign up for a MailChannels Email System Load Test
Leave a Comment