Αρχική σελίδα σύκων SIG Σύκα Newsfeed SIG Σύκα SIG με ηλεκτρονικό ταχυδρομείο Σύκα SIG οι περισσότερες δημοφιλείς θέσεις
Σημαντικοί αριθμοί
Βοήθεια σας, με τη βοήθεια με, το ξεφύλλισμα, και τις άκρες τεχνολογίας

Οι selforganizing χάρτες παίρνουν τον έλεγχο του ηλεκτρονικού ταχυδρομείου σας

29η Αυγούστου 2007 · από το Δαβίδ Bradley

Οργάνωση του ηλεκτρονικού ταχυδρομείου

Η αποκλειστική έρευνα σύκων SIG είδηση-πιό πολύ μας θέλει να είναι σε θέση να ταξινομήσει, να οργανώσει και γενικά [[filterize]] φίλτρο οι απέραντες ποσότητες του ηλεκτρονικού ταχυδρομείου που λαμβάνουμε όσο το δυνατόν πιό αυτόματα. Υπάρχουν διάφορα εργαλεία που χτίζονται στα περισσότερα προγράμματα ηλεκτρονικού ταχυδρομείου που επιτρέπουν κάποιο βαθμό φιλτραρίσματος, αλλά κανένας δεν είναι τέλειος. Όταν θεωρείτε ότι ένας χαρακτηριστικός απολογισμός επιχειρησιακού ηλεκτρονικού ταχυδρομείου μπορεί να χειριστεί χιλιάδες εάν όχι τις δεκάδες χιλιάδες ηλεκτρονικά ταχυδρομεία κάθε εβδομάδα, αυτό είναι ένα φοβερό μέρος της οργάνωσης ηλεκτρονικού ταχυδρομείου που πρέπει να γίνει για να αποτρέψει την υπερφόρτωση πληροφοριών.

Τώρα, Helmut Berger και Michael Dittenbach και το δύο ανώτερος ερευνητής της ερευνητικής ομάδας iSpaces στο κέντρο ικανότητας ηλεκτρονικού εμπορίου (EC3), στη Βιέννη, Αυστρία, που λειτουργεί με το συνεταίρο ο καθηγητής Dieter Merkl του τεχνικού πανεπιστημίου της Βιέννης έχει αναθεωρήσει τις διάφορες τεχνικές λύσεις στην προετοιμασία στοιχείων για την κατηγοριοποίηση ηλεκτρονικού ταχυδρομείου.

Τα καθήκοντα κατηγοριοποίησης κειμένων μπορούν να χρησιμοποιηθούν για να προσδιορίσουν τον τύπο εγγράφων και να επιτρέψουν στον κατάλληλο φάκελλο ή έναν ιδιαίτερο ειδικό παραλήπτη, απόδοση συγγραφικού επαγγέλματος και ο προσδιορισμός των ηλεκτρονικών ταχυδρομείων προτεραιότητας βασισμένων στον αποστολέα, αυτό μπορεί να επιτρέψει την παραβολή και την ανάλυση των τυποποιημένων απαντήσεων σε μια έρευνα ή ένα ερωτηματολόγιο, για παράδειγμα, και το διάφορο άλλο εισερχόμενο μήνυμα, και, φυσικά να φιλτραρίσει spam έξω τα μηνύματα.

Οι ερευνητές έχουν μελετήσει τις διάφορες εποπτευμένες και ανεπίβλεπτες τεχνικές εκμάθησης μηχανών που θα μπορούσαν να εκτελέσουν το στόχο, συμπεριλαμβανομένων των διανυσματικών μηχανών υποστήριξης, των αρχαρίων δέντρων απόφασης, των περίπτωση-βασισμένων ταξινομητών, naïve των προσεγγίσεων ταξινόμησης Bayes και των self-organizing χαρτών που μπορούν να εφαρμοστούν ως απλοί αλγόριθμοι πέρα από ένα σύστημα ηλεκτρονικού ταχυδρομείου. Χρησιμοποίησαν είτε μια λέξη-βασισμένη είτε αντιπροσώπευση «ν-γραμμαρίου» χαρακτήρα των εγγράφων ηλεκτρονικού ταχυδρομείου προκειμένου να αξιολογηθεί η απόδοση κάθε μια από αυτές τις προσεγγίσεις.

Η προσέγγιση «ν-γραμμαρίου» πρέπει να βοηθήσει οποιοδήποτε σύστημα κατηγοριοποίησης για να χειριστεί τη θορυβώδη φύση των μηνυμάτων ηλεκτρονικού ταχυδρομείου όπου οι λανθασμένες ορθογραφίες, οι πρόσθετοι χαρακτήρες, και οι συντμήσεις είναι κοινή καθώς επίσης και ανακριβής μεταγραφή από το σχήμα στο σχήμα. Καθένας έχει δει πάντα τις δωδεκάδες και τις δωδεκάδες των σειρών όπως «=A30 ″ και «=20 την κωδικοποίηση ″ και HTML μεταξύ κάθε λέξης και στην έναρξη και το τέλος κάθε γραμμής ενός διαβιβασμένου ηλεκτρονικού ταχυδρομείου ή ένα ηλεκτρονικό ταχυδρομείο από την προοπτική κρατών μελών που φθάνει σε ένα διαφορετικά υποχωρητικό πρόγραμμα ηλεκτρονικού ταχυδρομείου ξέρει τι ένας πονοκέφαλος ότι το είδος θορύβου μπορεί να είναι.

Το κλειδί για την επιτυχία βρήκαν ότι ήταν στη συγκεκριμένη ανάλυση των πληροφοριών επιγραφών ηλεκτρονικού ταχυδρομείου ως τμήμα της αντιπροσώπευσης εγγράφων. Σε τελευταία ανάλυση, πέστε τους ερευνητές, εκτός από την περιεκτικότητα σε σώματα ενός ηλεκτρονικού ταχυδρομείου, οι επιγραφές περιέχουν τις ανεκτίμητες πληροφορίες ότι η δύναμη χρησιμοποιείται στην ταξινόμηση του εισερχόμενου μηνύματος. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.

That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.

The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.

3 responses so far ↓

  • Kannan.M.S. // Aug 30, 2007 at 9:47 am

    A good article for self-disciplined personnel and who believe in systems they and others build.
    Structured approach pays off after all.

  • DNA Networks // Sep 3, 2007 at 7:46 pm

    I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.

    Google mail for your domain works great.

  • David Bradley // Sep 3, 2007 at 10:13 pm

    I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…

Leave a Comment

Comments are checked for spam before appearing, no need to post it twice.

Related Posts