Home Page dos Figs dos Sig Newsfeed dos Figs dos Sig Figs dos Sig pelo email Figs dos Sig a maioria de bornes populares
Figuras significativas
Ajudando a lhe, ajudando-se myself com blogging, browsing, e pontas do tech

Controle selforganizing da tomada dos mapas de seu email

Agosto 29o, 2007 · por David Bradley

Email organizando

Sig as Notícias-Mais exclusivas da pesquisa de nós querem categorizam, organizam e geralmente filterize filtre as quantidades vastas do email que nós recebemos tão automaticamente quanto possível. Há várias ferramentas construídas em a maioria de programas do email que permitem algum grau de filtrar, mas nenhum é perfeito. Quando você considerar que um cliente típico do email do negócio pode segurar milhares se não os dez dos milhares dos email cada semana, aquela forem um lote terrível da organização do email que tem que ser feita para impedir a sobrecarga da informação.

Agora, Helmut Berger e Michael Dittenbach ambo investigador sênior do grupo de pesquisa dos iSpaces no centro do Competence do E-Comércio (EC3), em Viena, Áustria, trabalhando com professor de associado Dieter Merkl da universidade técnica de Viena reviram as várias soluções técnicas à preparação de dados para o categorization do email.

Os deveres do categorization do texto podem ser usados identificar o tipo do original e para reservar filtrar no dobrador apropriado ou em um receptor, em um attribution do authorship e em uma identificação peritos particulares dos email da prioridade baseados no remetente, pode permitir o collation e a análise de respostas estandardizadas a um exame ou a um questionário, por exemplo, e vário a outra mensagem entrante, e, naturalmente em filtrar para fora mensagens do Spam.

Os investigadores estudaram vário supervisionado e unsupervised as técnicas da aprendizagem de máquina que poderiam realizar a tarefa, including as máquinas do vetor da sustentação, os learners da árvore da decisão, os classificadores exemplo-baseados, as aproximações da classificação de Bayes do naïve e os mapas self-organizing que podem ser executados como algoritmos diretos através de um sistema do email. Usaram ou palavra-baseado ou a respresentação de “n-grama” do caráter de originais do email a fim avaliar o desempenho de cada uma destes aproxima-se.

A aproximação de “n-grama” deve ajudar a todo o sistema do categorization segurar a natureza ruidosa das mensagens do email onde os misspellings, os caráteres especiais, e as abreviaturas são comuns as well as o transliteration incorreto do formato ao formato. Qualquer um viu sempre que as dúzias e as dúzias das cordas como “o ″ =A30 e “o ″ =20 e o HTML que codificam entre cada palavra e no início e extremidade de cada linha de um email enviado ou de um email do MS Outlook que chega em um programa diferentemente compliant do email saberão que um headache que o tipo do ruído pode ser.

A chave ao sucesso que encontraram estava na análise específica da informação de encabeçamento do email como parte da respresentação do original. Apesar de tudo, diga os investigadores, além do índice do corpo de um email, os encabeçamentos contêm a informação invaluable que pôde ser explorada na classificação da mensagem entrante. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.

That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.

The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.

3 responses so far ↓

  • Kannan.M.S. // Aug 30, 2007 at 9:47 am

    A good article for self-disciplined personnel and who believe in systems they and others build.
    Structured approach pays off after all.

  • DNA Networks // Sep 3, 2007 at 7:46 pm

    I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.

    Google mail for your domain works great.

  • David Bradley // Sep 3, 2007 at 10:13 pm

    I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…

Leave a Comment

Comments are checked for spam before appearing, no need to post it twice.

Related Posts