Spam Analysis Аналитика о спаме
June 25th, 2008 · by David Bradley 25 июня 2008 года Дэвид Брэдли
Anyone who says they have never had a problem with email spam is either my Dad, who has never touched a computer in his life (bless him), or they have staff to read their emails. Любой, говорит, которые они никогда не имели проблем с спам в электронной почте, либо мой отец, которые никогда не коснулся компьютер в своей жизни (да благословит его), или же они имеют сотрудники читать свои письма. Spam is ubiquitous in the online world, it is everywhere, and it is omnipresent. Спам есть везде в мире в Интернете, это везде, и это вездесущий.
If you’re using Google Mail you may not see much, the spam filters on that system are very good (at least in my experience). Если вы используете Google Mail вы можете не увидеть много, спам-фильтры на том, что система очень хорошо (по крайней мере в моем опыте). Moreover, if you’re then POP3 downloading your Кроме того, если вы потом POP3 загрузкой GMail into a desktop email client with на рабочем столе клиента электронной почты с Bayesian statistical filtering Статистической фильтрации Байеса then you may see even less. Затем вы можете видеть, даже меньше. Forward to your Linux-based server and employ Spam Assassin and you may well see only very rare spam emails. Вперед к вашей Linux на базе сервера, а также использовать спам Assassin и вы вполне может увидеть только очень редкие спам-писем. However, just take a look at your space-draining spam folders and you will realize that, although you may not see much spam, it’s still a problem. Тем не менее, просто взгляните на вашем пространстве-осушение спам папки и вы сможете понять, что, хотя вы можете не увидеть много спама, он по-прежнему проблемы.
Computer scientists in France think they may have come up with a new answer to finding the perfect spam filter. Компьютерные ученые во Франции считают, что они могут выйти с новыми ответ на поиск совершенства спам-фильтр. Writing in the Ввод в International Journal of Web and Grid Services Международный журнал по веб-сети и услуги recently (2008, vol 4, , they describe how they can filter spam very effectively using a process known as Kolmogorov complexity analysis. This approach works, not by analyzing the headers or the body of an incoming email, but by classifying it based on how well it can be compressed (akin to WinZip or Stuffit compression) and then comparing this compression ratio to that of previously whitelisted or blacklisted emails. Недавно (2008, том 4, они описывают, как они могут фильтрации спама весьма эффективно используют процесс, известный как Колмогорова сложность анализа. Этот подход работает, а не путем анализа заголовков или органа входящая почта, но классификация основана на том, как так он может быть сжатым (сродни WinZip или Stuffit сжатия) и затем сравнивая этот коэффициент сжатия, что и ранее белый или черный список сообщений электронной почты.
Andrei Nikolaevich Kolmogorov (1903-1987) was a Soviet mathematician, considered one of the most pre-eminent of the twentieth century. Андрей Николаевич Колмогоров (1903-1987) был советский математик, считается одним из наиболее предпочтительным вариантом в двадцатом веке. He made major advances in probability theory, topology, intuitionistic logic, turbulence, classical mechanics and computational complexity. Он внес большой прогресс в области теории вероятностей, топология, интуиционистской логики, турбулентности, классической механики и вычислительной сложности. It is within Kolmogorov’s work on logic that Именно в Колмогоровские работы по логике, что Gilles Richard Жиль Ричард and Andrei Doncescu of the University of Toulouse hope to find a solution to spam filtering, as they explain: Андрей Doncescu из университета Тулузы надежду на то, чтобы найти решение для фильтрации спама, как это объяснить:
The main idea is to give a formal meaning to the notion of ‘information content’ and to provide a measure of this content. Основная идея заключается в том, чтобы дать официальное смыслом понятие â € ~ информацией contentâ € ™ и предоставить эту меру содержания. Using such a quantitative approach, it becomes possible to define a distance, which is a major tool for classification purposes. Используя такой количественный подход, то становится возможным определить расстояние, которое является основным средством для целей классификации.
The researchers have validated their approach by proceeding in two steps: Исследователи утвердили свои подхода осуществляется в два этапа:
First, they used the classical compression distance over a mix of spam and legitimate emails to determine if they can be properly clustered without any supervision. Во-первых, они используются классические сжатия расстояние свыше сочетание спама и законных электронных сообщений, чтобы определить, если они могут быть сгруппированы без какого-либо контроля. This step could then show whether there is an underlying structure to spam emails that might be exploited in filtering. Этот шаг мог бы показать, есть ли основные структуры для спам-сообщения, которые могут быть использованы в фильтрации.
In the second step, they implemented a simple machine-learning system, a so-called k-nearest neighbors algorithm, which then classifies emails according to how closely they resemble others in the queue. Во второй шаг, они выполнены простой машинно-системы обучения, так называемых к-алгоритм ближайших соседей, которые затем классифицируются в соответствии с сообщения о том, как тесно они похожи на другие в очереди. The approach requires no deep analysis of the header or body of the incoming email as is necessary with Spam Assassin type systems and Bayesian filtering. Подход не требует глубокого анализа заголовка или органа входящая почта, которая необходима со спамом Assassin типа систем и фильтрации Байеса. Instead, it works by simply measuring how different is the possible compression of known legitimate and spam emails. Вместо этого, она работает просто как различные измерения имеет возможности сжатия известны законные и спам-писем.
Using this approach, the researchers were able to filter spam with 85% using this approach alone. Используя этот подход, исследователи имели возможность фильтрации спама при 85% использовании этого подхода в одиночку. However, its real strength will lie in turning to a more powerful classification technique (Support Vector Machines for instance) and in coupling it to another anti-spam technique, such as Bayesian analysis, Richard told me. Однако, ее реальная сила будет находиться в переходить к более мощной технике классификации (поддержка векторных машин, например), а также в связи его другому анти-спам техники, таких как анализ Байеса, Ричард сказал мне.
Related Posts Похожие Сообщений
- Spam Analysis Аналитика о спаме
- SQT: Make Friends with Auntie Spam SQT: подружиться со спамом Тетушка
- SQT: Ignore Your Spam Folders SQT: игнорировать ваши папки спама
- Send Us Your Spam Присылайте нам ваши спама
- Self Organizing Maps Take Control of Your Email Автопортрет организации Карты взять под контроль электронной почты

















3 responses so far ↓ 3 ответа до сих пор ↓
andrew // Андрей / / Jun 25, 2008 at 4:51 pm 25 июня 2008 года в 4:51 вечера
I read an article about a new technology called ReceiverNet from Abaca. Я прочитал статью о новой технологии называется ReceiverNet от абака. ReceiverNet technology characterizes each protected user based on the percentage of spam they receive and then uses those reputations to rate the incoming message flow. ReceiverNet технологии характеризует каждого пользователя охраняемых на основе процентной доли спама они получают, а затем использует эти репутации, чтобы оценить входящего сообщения потока. I changed my spam filtering system to Abaca’s Email Protection Gateway and it blocked Replica watches spam mails, Subpoena Phishing mails and many more. Я изменил мое система фильтрации спама для Abacaâ € ™ ы защите Email Gateway и он заблокирован Replica часы спам-писем, повесток Фишинг почты и многое другое. I found that Abaca’s ReceiverNet service has 99% efficiency in blocking spam mails and they guarantee their results . Я обнаружил, что Abacaâ € ™ ы ReceiverNet службы 99% эффективность блокировки спама письма, и они гарантируют их результаты. For more information, log on to Для получения дополнительной информации, зайдите на http://abaca.com/ .
David Bradley Дэвид Брэдли // / / Jun 25, 2008 at 6:18 pm 25 июня 2008 года в 6:18 вечера
Sounds like an interesting approach that saves on all this mathematical analysis. Звуки как интересный подход, который позволяет все это математический анализ. Anyone else got a good system in place that works as well as Abaca? Любой другой получил хорошее место в системе, которая работает, а также абака?
Phil Whelan Фил Уилан // / / Jun 26, 2008 at 8:14 pm 26 июня 2008 года в 8:14 вечера
Abaca approach sounds like an interesting. Абака подход Звучит интересно. 99% is quite amazing! 99% совершенно удивительные! I’m going to check it. Я собираюсь воспользоваться им.
David, yes, we have an approach that uses even less mathematical analysis, using the idea that spammers are impatient. Давид, да, мы подход, который используется даже меньше, математический анализ, используя идею о том, что спамеры проявляют нетерпение. We slow down connections of unknown senders, and in doing so have found that most zombie machines sending the spam disconnect within a few seconds. Мы замедлять соединения неизвестных отправителей, и при этом было установлено, что большинство машин зомби отправки спама отключать в течение нескольких секунд.
Phil Whelans last blog post.. Фил Whelans прошлом блоге .. Sign up for a MailChannels Email System Load Test Подпишитесь на почтовую систему MailChannels нагрузкой
Leave a Comment Оставьте комментарий