Selforganizing управление взятия карт вашего Email
29-ое августа 2007 · Дэвид Брэдли

Новости-Больше всего исследования смоквы Sig исключительные нас хотят классифицировали, организуют и вообще filterize фильтруйте более обширные количества email, котор мы получаем как можно автоматически. Будут различные инструменты построенные в большинств программы email позволяют некоторый STEPENь фильтровать, но никакое совершенно. Когда вы учитываете что типичный учет email дела может отрегулировать 10 тысяч if not тысяч emails каждая неделя, то будет awful серия организации email которая должна быть сделана для того чтобы предотвратить перегрузку информации.
Теперь, Helmut Berger и Майкл Dittenbach оба старший исследователь исследовательской группы iSpaces на центре правомочности E-Коммерции (EC3), в вене, Австралии, работая с профессором Dieter Merkl сподвижницы технически университета вены расмотрите различные технически разрешения к подготовке данных для категоризации email.
Обязанности категоризации текста можно использовать для того чтобы определить тип документа и позволить фильтровать в соотвествующий скоросшиватель или определенные экспертные получатель, атрибутику авторства и идентификацию emails приоритета основанных на прислужнике, он может позволить сверку и анализ унифицированных реакций к обзору или вопроснику, for instance, и various other входящему сообщению, и, of course в фильтровать вне сообщения spam.
Исследователя изучали различно наблюдать и unsupervised методы учить машины смогли унести задачу, включая машины вектора поддержки, learners дерева решений, пример-основанные классификаторы, подходы к классифицирования Bayes naïve и self-organizing карты которые можно снабдить как straightforward алгоритмы через систему email. Они использовали или представление слов-основанное или характер «n-грамма» документов email для того чтобы определить проведение each of этих подходов.
Подход к «n-грамма» должен помочь любой системе категоризации для того чтобы отрегулировать шумную природу сообщений email где misspellings, специальные символы, и аббревиатуры общие также, как неправильно транслитерирование от формы к форме. Любое всегда видело дюжины и дюжины шнуров как «″ =A30 и «″ =20 и html кодируя между каждым словом и на старте и конце каждой линии препровождаемого email или email от ГОСПОЖИ внешнего вида приезжая в по-разному уступчивую программу email знает headache вроде шум может быть.
Ключ к успеху, котор они нашли находился в специфически анализе данных по коллектора email как часть представления документа. В конце концов скажите исследователям, кроме содержания тела email, коллекторы содержите неоцененную информацию которая могла быть эксплуатирована в классифицировании входящего сообщения. Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.
That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.
The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.


















3 responses so far ↓
Kannan.M.S. // Aug 30, 2007 at 9:47 am
A good article for self-disciplined personnel and who believe in systems they and others build.
Structured approach pays off after all.
DNA Networks // Sep 3, 2007 at 7:46 pm
I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.
Google mail for your domain works great.
David Bradley // Sep 3, 2007 at 10:13 pm
I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…
Leave a Comment