Page d'accueil de figues de Sig Distribution d'articles Usenet de figues de Sig Figues de Sig par l'email Figues de Sig la plupart des poteaux populaires
Figures significatives
Vous aider, en s'aidant avec blogging, passer en revue, et des bouts de technologie

Commande à organisation autonome de prise de cartes de votre email

29 août 2007 · par David Bradley

Email de organisation

Sig les Nouvelles-Plus exclusives de recherches de nous veulent pouvoir classer par catégorie, organisent et généralement filterize filtrez les vastes quantités d'email que nous recevons aussi automatiquement que possible. Il y a de divers outils construits dans la plupart des programmes d'email qui permettent un certain degré de filtrage, mais aucun n'est parfait. Quand vous considérez qu'un compte typique d'email d'affaires peut manipuler des dizaines de milliers sinon de milliers d'email chaque semaine, c'est un sort terrible de l'organisation d'email qui doit être faite pour empêcher la surcharge de l'information.

Maintenant, Helmut Berger et Michael Dittenbach les deux chercheur aîné du groupe de recherche d'iSpaces au centre de compétence d'E-Commerce (EC3), à Vienne, Autriche, fonctionnant avec le professeur d'associé personne à la diète Merkl de l'université technique de Vienne ont passé en revue les diverses solutions techniques à la préparation de données pour la catégorisation d'email.

Des fonctions de catégorisation des textes peuvent être employées pour identifier le type de document et laisser filtrer dans la chemise appropriée ou un destinataire, une attribution de profession d'auteur et une identification experts particuliers des email prioritaires basés sur l'expéditeur, il peut permettre la collation et l'analyse des réponses normalisées à un aperçu ou un questionnaire, par exemple, et divers autres message entrant, et, naturellement en filtrant dehors des messages de Spam.

Les chercheurs ont étudié les diverses techniques dirigées et non surveillées d'étude de machine qui pourraient effectuer le charger, y compris les machines de vecteur de soutien, les étudiants d'arbre de décision, les classificateurs exemple-basés, les approches de classification de Bayes de naïve et les cartes à organisation automatique qui peuvent être mis en application en tant qu'algorithmes francs à travers un système d'email. Ils ont employé ou mot-basé ou la représentation de « n-gramme » de caractère des documents d'email afin d'évaluer l'exécution de chacune de ces derniers s'approche.

L'approche de « n-gramme » devrait aider n'importe quel système de catégorisation pour manipuler la nature bruyante des messages d'email où les fautes d'orthographe, les caractères spéciaux, et les abréviations sont communs aussi bien que la transcription incorrecte du format au format. N'importe qui a jamais vu que les douzaines et les douzaines de cordes comme « le ″ =A30 et « le ″ =20 et le HTML codant entre chaque mot et au début et à l'extrémité de chaque ligne d'un email expédié ou d'un email du MS Outlook arrivant dans un programme différent conforme d'email sauront ce qui un mal de tête que le genre de bruit peut être.

La clef au succès qu'ils ont trouvé était dans l'analyse spécifique d'information d'en-tête d'email en tant qu'élément de la représentation de document. Après tout, dites les chercheurs, sans compter que la teneur en corps d'un email, les en-têtes contiennent l'information de valeur inestimable qui pourrait être exploitée dans la classification du message entrant. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.

That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.

The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.

3 responses so far ↓

  • Kannan.M.S. // Aug 30, 2007 at 9:47 am

    A good article for self-disciplined personnel and who believe in systems they and others build.
    Structured approach pays off after all.

  • DNA Networks // Sep 3, 2007 at 7:46 pm

    I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.

    Google mail for your domain works great.

  • David Bradley // Sep 3, 2007 at 10:13 pm

    I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…

Leave a Comment

Comments are checked for spam before appearing, no need to post it twice.

Related Posts