Home Page dei Figs di Sig Newsfeed dei Figs di Sig Figs di Sig dal email Figs di Sig la maggior parte dei alberini popolari
Figure significative
Assistenza voi, aiutandosi con blogging, la lettura rapida e le punte di tecnologia

Controllo ad organizzazione autonoma dell'introito dei programmi del vostro email

29 agosto 2007 · da David Bradley

Email d'organizzazione

Sig le Notizie-Più esclusive di ricerca di noi desiderano potere categorizzare, organizzano e generalmente filterize filtri le quantità ampie di email che riceviamo automaticamente quanto possibile. Ci sono vari attrezzi costruiti nella maggior parte dei programmi del email che permettono un certo grado di filtrazione, ma nessuno è perfetto. Quando considerate che un cliente tipico del email di affari può maneggiare i dieci di migliaia se non delle migliaia dei email ogni settimana, quello è un lotto terribile dell'organizzazione del email che deve essere fatta per impedire il sovraccarico delle informazioni.

Ora, Helmut Berger e Michael Dittenbach entrambe ricercatore maggiore del gruppo di ricerca dei iSpaces al centro di competenza di E-Commercio (EC3), a Vienna, Austria, funzionante con il professor di socio il Dieter Merkl dell'università tecnica di Vienna hanno rivisto le varie soluzioni tecniche alla preparazione di dati per la categorizzazione del email.

Le funzioni di categorizzazione del testo possono essere usate per identificare il tipo del documento e concedere filtrare nel dispositivo di piegatura adatto o un destinatario, un'attribuzione di condizione di scrittore e un'identificazione esperti particolari dei email di priorità basati sul mittente, può permettere la collazione e l'analisi delle risposte standardizzate ad un'indagine o un questionario, per esempio e vario messaggio ricevuto e, naturalmente nella filtrazione fuori dei messaggi dello Spam.

I ricercatori hanno studiato varia sorvegliata e unsupervised le tecniche imparare di macchina che potrebbero effettuare l'operazione, compreso le macchine di vettore di sostegno, principianti dell'albero di decisione, caso-hanno basato i classificatori, i metodi di classificazione del Baies del naïve ed i programmi ad auto-organizzazione che possono essere effettuati come procedure dirette attraverso un sistema del email. Hanno usato o la a parola-hanno basato o la rappresentazione “di n-grammo„ del carattere dei documenti del email per valutare le prestazioni di ciascuno di questi si avvicina a.

Il metodo “di n-grammo„ dovrebbe aiutare tutto il sistema di categorizzazione per maneggiare la natura rumorosa dei messaggi del email in cui gli errori d'ortografia, i caratteri speciali e le abbreviazioni sono comuni così come la trascrizione errata dalla disposizione alla disposizione. Chiunque ha visto mai che le dozzine e le dozzine delle stringhe come “″ =A30 e “″ =20 ed il HTML che codificano fra ogni parola ed all'inizio ed all'estremità di ogni linea di un email spedito o di un email dal MS Outlook che arriva in un programma diversamente compliant del email conosceranno che cosa un'emicrania che il genere di rumore può essere.

La chiave a successo ch'hanno trovato era nell'analisi specifica delle informazioni di intestazione del email come componente della rappresentazione del documento. Dopo tutto, dica i ricercatori, oltre al contenuto del corpo di un email, le intestazioni contengono le informazioni inestimabili che potrebbero essere sfruttate nella classificazione del messaggio ricevuto. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.

That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.

The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.

3 responses so far ↓

  • Kannan.M.S. // Aug 30, 2007 at 9:47 am

    A good article for self-disciplined personnel and who believe in systems they and others build.
    Structured approach pays off after all.

  • DNA Networks // Sep 3, 2007 at 7:46 pm

    I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.

    Google mail for your domain works great.

  • David Bradley // Sep 3, 2007 at 10:13 pm

    I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…

Leave a Comment

Comments are checked for spam before appearing, no need to post it twice.

Related Posts