Control selforganizing de la toma de los mapas de su email
29 de agosto de 2007 · por David Bradley

Las Noticias-Más exclusivas de la investigación del higo de los Sig de nosotros desean poder categorizar, organizan y generalmente filterize filtre las cantidades extensas de email que recibimos tan automáticamente como sea posible. Hay varias herramientas construidas en la mayoría de los programas del email que permitan un cierto grado de filtración, pero ningunos son perfectos. Cuando usted considera que una cuenta típica del email del negocio puede manejar diez de los millares si no de millares de email cada semana, ésa es una porción tremenda de la organización del email que tiene que ser hecha para prevenir sobrecarga de la información.
Ahora, Helmut Berger y Michael Dittenbach ambo investigador mayor del grupo de investigación de los iSpaces en el centro de la capacidad del E-Comercio (EC3), en Viena, Austria, trabajando con el profesor de asociado Dieter Merkl de la universidad técnica de Viena han repasado las varias soluciones técnicas a la preparación de datos para la clasificación del email.
Los deberes de la clasificación del texto se pueden utilizar para identificar el tipo del documento y permitir el filtrarse en carpeta apropiada o un recipiente, una atribución de la profesión de escritor y una identificación expertos particulares de los email de la prioridad basados en el remitente, puede permitir la colación y el análisis de respuestas estandardizadas a un examen o un cuestionario, por ejemplo, y mensaje entrante otro, y, por supuesto en la filtración hacia fuera de mensajes del Spam.
Los investigadores han estudiado varia haber supervisado y unsupervised las técnicas el aprender de máquina que podrían realizar la tarea, incluyendo las máquinas del vector de la ayuda, los principiantes del árbol de la decisión, los clasificadores caso-basados, los acercamientos de la clasificación de Bayes del naïve y los mapas de auto-organización que se pueden poner en ejecución como algoritmos directos a través de un sistema del email. Utilizaron o palabra-haber basado o la representación del “n-gramo” del carácter de los documentos del email para determinar el funcionamiento de cada uno de éstos se acerca.
El acercamiento del “n-gramo” debe ayudar a cualquier sistema de la clasificación para manejar la naturaleza ruidosa de los mensajes del email donde están comunes los faltas de ortografía, los caracteres especiales, y las abreviaturas así como la transcripción incorrecta del formato al formato. Cualquier persona ha visto siempre que las docenas y las docenas de secuencias como “el ″ =A30 y “el ″ =20 y el HTML que cifran entre cada palabra y al principio y extremo de cada línea de un email remitido o de un email del MS Outlook que llega en un programa diverso obediente del email sabrán lo que un dolor de cabeza que la clase de ruido puede ser.
La llave al éxito que encontraron estaba en el análisis específico de la información de jefe del email como parte de la representación del documento. Después de todo, diga a investigadores, además del contenido del cuerpo de un email, los jefes contienen la información inestimable que se pudo explotar en la clasificación del mensaje entrante. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.
That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.
The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.


















3 responses so far ↓
Kannan.M.S. // Aug 30, 2007 at 9:47 am
A good article for self-disciplined personnel and who believe in systems they and others build.
Structured approach pays off after all.
DNA Networks // Sep 3, 2007 at 7:46 pm
I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.
Google mail for your domain works great.
David Bradley // Sep 3, 2007 at 10:13 pm
I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…
Leave a Comment