Ανάλυση Spam
25η Ιουνίου 2008 · από το Δαβίδ Bradley
Καθένας που λέει δεν είχαν ποτέ ένα πρόβλημα με το ηλεκτρονικό ταχυδρομείο spam είναι είτε ο μπαμπάς μου, ο οποίος δεν έχει αγγίξει ποτέ έναν υπολογιστή στη ζωή του (τον ευλογήστε), ή έχουν το προσωπικό για να διαβάσουν τα ηλεκτρονικά ταχυδρομεία τους. Το Spam είναι πανταχού παρόν στο σε απευθείας σύνδεση κόσμο, είναι παντού, και είναι πανταχού παρών.
Εάν χρησιμοποιείτε το ταχυδρομείο Google δεν μπορείτε να δείτε πολύς, τα φίλτρα spam σε εκείνο το σύστημα είναι πολύ καλά (τουλάχιστον στην εμπειρία μου). Επιπλέον, εάν είστε έπειτα POP3 μεταφόρτωσή σας GMail σε έναν πελάτη ηλεκτρονικού ταχυδρομείου υπολογιστών γραφείου με Μπεϋζιανό στατιστικό φιλτράρισμα κατόπιν μπορείτε να δείτε ακόμα λιγότερο. Διαβιβάστε στον linux-βασισμένο κεντρικό υπολογιστή σας και απασχολήστε το δολοφόνο Spam και μπορείτε καλά να δείτε μόνο τα πολύ σπάνια ηλεκτρονικά ταχυδρομεία spam. Εντούτοις, ρίξτε ακριβώς μια ματιά στους φακέλλους διαστημικός-στραγγίγματός σας spam και θα συνειδητοποιήσετε ότι, αν και δεν μπορείτε να δείτε πολύ spam, είναι ακόμα ένα πρόβλημα.
Οι επιστήμονες υπολογιστών στη Γαλλία σκέφτονται ότι μπορεί να είχαν βρεί μια νέα απάντηση στην εύρεση του τέλειου φίλτρου spam. Γράψιμο Διεθνές περιοδικό των υπηρεσιών Ιστού και πλέγματος πρόσφατα (το 2008, ένταση 4, περιγράφουν πώς μπορούν να φιλτραρίσουν spam πολύ αποτελεσματικά χρησιμοποιώντας μια διαδικασία γνωστή ως ανάλυση πολυπλοκότητας Kolmogorov. Αυτή η προσέγγιση λειτουργεί, όχι με την ανάλυση των επιγραφών ή του σώματος ενός εισερχόμενου ηλεκτρονικού ταχυδρομείου, αλλά με την ταξινόμηση βάσισε πόσο καλά μπορεί να συμπιεστεί (συγγενής στη συμπίεση WinZip ή Stuffit) και έπειτα να συγκρίνει αυτήν την αναλογία συμπίεσης σε αυτή προηγουμένως ή έβαλε στη μαύρη λίστα τα ηλεκτρονικά ταχυδρομεία.
Το Andrei Nikolaevich Kolmogorov (1903-1987) ήταν ένας σοβιετικός μαθηματικός, που θεωρήθηκε ένας από τον πιό διαπρεπή του εικοστού αιώνα. Έκανε σημαντικές προόδους στη θεωρία πιθανότητας, την τοπολογία, τη intuitionistic λογική, την αναταραχή, τους κλασσικούς μηχανικούς και την υπολογιστική πολυπλοκότητα. Είναι μέσα στην εργασία Kolmogorov για τη λογική αυτό Gilles Richard και Andrei Doncescu του πανεπιστημίου της ελπίδας της Τουλούζης να βρεθεί μια λύση στο φιλτράρισμα spam, όπως εξηγούν:
Η κύρια ιδέα είναι να δοθεί ένα επίσημο νόημα στην έννοια του περιεχομένου πληροφοριών `» και να παρασχεθεί ένα μέτρο αυτού του περιεχομένου. Χρησιμοποιώντας μια τέτοια ποσοτική προσέγγιση, είναι δυνατό να καθοριστεί μια απόσταση, η οποία είναι ένα σημαντικό εργαλείο για λόγους ταξινόμησης.
Οι ερευνητές έχουν επικυρώσει την προσέγγισή τους με την ενέργεια σε δύο βήματα:
Κατ' αρχάς, χρησιμοποίησαν την κλασσική απόσταση συμπίεσης πέρα από ένα μίγμα του spam και των νόμιμων ηλεκτρονικών ταχυδρομείων για να καθορίσουν εάν μπορούν να συγκεντρωθούν κατάλληλα χωρίς οποιαδήποτε επίβλεψη. Αυτό το βήμα θα μπορούσε έπειτα να παρουσιάσει εάν υπάρχει μια ελλοχεύουσα δομή στα ηλεκτρονικά ταχυδρομεία spam ότι η δύναμη χρησιμοποιείται στο φιλτράρισμα.
Στο δεύτερο βήμα, εφάρμοσαν ένα απλό σύστημα μηχανή-εκμάθησης, ένας αποκαλούμενος Κ-κοντινότερος αλγόριθμος γειτόνων, ο οποίος ταξινομεί έπειτα τα ηλεκτρονικά ταχυδρομεία σύμφωνα με πόσο πολύ μοιάζουν με άλλων στη σειρά αναμονής. The approach requires no deep analysis of the header or body of the incoming email as is necessary with Spam Assassin type systems and Bayesian filtering. Instead, it works by simply measuring how different is the possible compression of known legitimate and spam emails.
Using this approach, the researchers were able to filter spam with 85% using this approach alone. However, its real strength will lie in turning to a more powerful classification technique (Support Vector Machines for instance) and in coupling it to another anti-spam technique, such as Bayesian analysis, Richard told me.

















3 responses so far ↓
andrew // Jun 25, 2008 at 4:51 pm
I read an article about a new technology called ReceiverNet from Abaca. ReceiverNet technology characterizes each protected user based on the percentage of spam they receive and then uses those reputations to rate the incoming message flow. I changed my spam filtering system to Abaca’s Email Protection Gateway and it blocked Replica watches spam mails, Subpoena Phishing mails and many more. I found that Abaca’s ReceiverNet service has 99% efficiency in blocking spam mails and they guarantee their results . For more information, log on to http://abaca.com/.
David Bradley // Jun 25, 2008 at 6:18 pm
Sounds like an interesting approach that saves on all this mathematical analysis. Anyone else got a good system in place that works as well as Abaca?
Phil Whelan // Jun 26, 2008 at 8:14 pm
Abaca approach sounds like an interesting. 99% is quite amazing! I’m going to check it.
David, yes, we have an approach that uses even less mathematical analysis, using the idea that spammers are impatient. We slow down connections of unknown senders, and in doing so have found that most zombie machines sending the spam disconnect within a few seconds.
Phil Whelans last blog post..Sign up for a MailChannels Email System Load Test
Leave a Comment