自己の組織の地図はあなたの電子メールを管理する
2007年8月29日 · デイヴィッドブラッドリー著

SIGのイチジクの私達の排他的な研究のニュース最もは分類できたいと思ったりおよび一般に組織する filterize 私達ができるだけ自動的に受け取る広大な量の電子メールをろ過しなさい。 ろ過のある程度を可能にするが、どれも完全ではないほとんどの電子メールプログラムに造られる様々な用具がある。 毎週数万の電子メールが、それ情報過負荷を防ぐためにされなければならない電子メール構成のひどいロットでなければ典型的なビジネス電子メールアカウントはたくさんを扱うかもしれないと考慮する時。
今度は、Helmut Bergerおよび電子商取引の能力の中心でiSpacesの研究グループの上級研究員両方のミハエルDittenbach (EC3)、ウィーン、ウィーンの技術的な大学の助教授とディーターMerkl働くオーストリアで電子メールの類別のためのデータ準備に様々な技術的な解決を見直した。
テキスト類別の義務がドキュメントタイプを識別するのに使用し、例えば送り主、に基づいて優先順位の電子メールの適切なホールダーにか特定の巧妙な受け手、著述業の属性および同一証明ろ過することを割り当てるためにスパムメッセージのフィルタ・アウトの調査への標準化された応答の照合そして分析かアンケートおよび他の色々な入力メッセージ、および、当然可能にすることができる。
研究者は電子メールシステムを渡る簡単なアルゴリズムとして実行することができるサポートベクトル機械、決定ツリーの学習者、例基づかせていた助数詞、naïveのベイズの分類のアプローチおよび自己編成地図を含む仕事を、遂行できる様々な指示され、監視されていない機械学習の技術を調査した。 それらは電子メール文書のこれらのアプローチの性能を査定する単語基づかせていたまたは特性の「nグラム」の表示を使用した。
「nグラム」のアプローチは類別誤ったつづり、特殊文字および省略がフォーマットからのフォーマットに不正確な字訳と同様、共通である電子メールメッセージの騒々しい性質を扱うためにシステムを助けるべきである。 種類の騒音はある場合もあること頭痛何をあらゆる単語の間にそしてずっと別様に迎合的な電子メールプログラムに着くMS Outlookからの進められた電子メールまたは電子メールのあらゆるラインの開始時と終了時にコードする「=A30 ″および「=20 ″およびhtmlのようなダースそしてたくさんのひもが知っていることをだれでも見ている。
彼らが見つけた成功へのキーは文書の表示の一部として電子メールの見出し内容の特定の分析にあった。 結局、電子メールのボディ内容のほかの研究者を、ヘッダー含んでいる入力メッセージの分類で開発されるかもしれない非常に貴重な情報を言いなさい。 Surprisingly, they found that organization was affected to a much lesser degree by whether or not the word-based document representation was used rather than the n-gram character analysis. Perhaps categorizing based on real word analysis counters the presence of noise just as effectively as the character approach. Their main conclusion is that support vector machines (SVMs) rather than the commonly used Bayesian and other approaches is apparently the most successful at organizing email. Unattended self-organizing maps lagged only a little behind the SVM approach, surprisingly perhaps, given that no user input or training is needed.
That said, all six approaches tested showed at least 90% accuracy. However, with tens of thousands of emails, 10% falsely or negatively classified as something, spam, for example, that they are not could cause almost as big a headache as the information overload the filtering aims to tackle.
The team reports details of their study in the International Journal of Intelligent Information and Database Systems, 2007, 1, 91-121.


















3 responses so far ↓
Kannan.M.S. // Aug 30, 2007 at 9:47 am
A good article for self-disciplined personnel and who believe in systems they and others build.
Structured approach pays off after all.
DNA Networks // Sep 3, 2007 at 7:46 pm
I’m not sure what kind of accuracy I get with Google mail, but it has to be very high! It is rare that I find something in Spam that isn’t spam.
Google mail for your domain works great.
David Bradley // Sep 3, 2007 at 10:13 pm
I probably see about 100-200 spams a day in my main google account and roughly 1-2 of those messages are false positives. Other people’s mileage varies…
Leave a Comment