Selforganizing Diagramm-Nehmen-Steuerung Ihres email
29. August 2007 · durch David Bradley

Sig-Feige-wünschen exklusive Forschung Nachrichten-Am meisten von uns kategorisieren, organisieren und im Allgemeinen filterize filtern Sie die beträchtlichen Quantitäten von email, das wir so automatisch wie möglich empfangen. Es gibt die verschiedenen Werkzeuge, die in die meisten email Programme errichtet werden, die irgendeinen Grad Entstörung erlauben, aber keines ist vollkommen. Wenn Sie betrachten, daß ein typisches Geschäft email Konto Tausenden anfassen kann, wenn nicht 10 Tausenden email jede Woche, die ein schreckliches Los der email Organisation ist, die erfolgt werden muß, um Informationen überlastung zu verhindern.
Jetzt Helmut Berger und Michael beides Dittenbach älterer Forscher der iSpaces Forschungsgruppe in der E-Handel Kompetenz-Mitte (EC3), in Wien, Österreich, arbeitend mit Teilnehmer-Professor Diätetiker Merkl der technischen Universität von Wien haben die verschiedenen technischen Lösungen zur Datenaufbereitung für email Kategorisierung wiederholt.
Textkategorisierungaufgaben können verwendet werden, um Dokumentart zu kennzeichnen und in passendes Heft oder eine bestimmte sachverständige Empfänger, eine Autorschaftzuerkennung und eine Kennzeichnung der Priorität email filtern zu dürfen, die auf Absender basieren, kann er die Kollation und die Analyse der standardisierten Antworten zu einer übersicht oder ein Fragebogen, zum Beispiel und viele ankommende Anzeige erlauben und, selbstverständlich, wenn er heraus Spam Anzeigen filtert.
Die Forscher haben verschiedenes überwacht studiert und Lernfähigkeit einer Maschinetechniken unsupervised, die die Aufgabe, einschließlich Unterstützungsvektormaschinen, Entscheidung Baumanfänger, Fall-gegründete Klassifikatoren, naïve Bayes Klassifikationannäherungen und self-organizing Diagramme durchführen konnten, die als direkte Algorithmen über einem email System eingeführt werden können. Sie verwendeten entweder Wort-gegründet, oder Buchstabe „Ngramm“ Darstellung der email Dokumente, zwecks die Leistung von jedem von diesen festzusetzen nähert sich.
Die „Ngramm“ Annäherung sollte jedem möglichem Kategorisierungsystem helfen, um die laute Natur der email Anzeigen anzufassen, in denen Fehlbuchstabierungen, Sonderzeichen und Abkürzungen sowie falsche Transkription von Format zu Format allgemein sind. Jedermann hat überhaupt gesehen, daß Dutzende und Dutzende Zeichenketten wie „das ″ =A30 und „″ =20 und HTML, die zwischen jedem Wort und beim Anfang und beim Ende jeder Linie eines nachgeschickten email oder des email vom MS Outlook ankommt in ein anders als gefälliges email Programm kodiert, wissen, was Kopfschmerzen, daß Art der Geräusche sein kann.
Der Schlüssel zum Erfolg, den sie fanden, war in der spezifischen Analyse der email Kopfzeile als Teil der Dokumentdarstellung. Sagen Sie schließlich die Forscher, außer dem Körperinhalt eines email, die überschriften enthalten unschaetzbare Informationen, die in der Klassifikation der ankommenden Anzeige ausgenutzt werden konnten. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.
That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.
The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.


















3 responses so far ↓
Kannan.M.S. // Aug 30, 2007 at 9:47 am
A good article for self-disciplined personnel and who believe in systems they and others build.
Structured approach pays off after all.
DNA Networks // Sep 3, 2007 at 7:46 pm
I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.
Google mail for your domain works great.
David Bradley // Sep 3, 2007 at 10:13 pm
I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…
Leave a Comment