sciencetext 팁 & 트릭
Blogging tips, browsing tricks and computing hacks 블로그 팁, 브라우징 트릭과 컴퓨팅 hacks

Spam Analysis 스팸 메일 분석

June 25th, 2008 · by David Bradley 2008년 6월 25일로 데이비드 브래들리

제어 코멘트 스팸 Anyone who says they have never had a problem with email spam is either my Dad, who has never touched a computer in his life (bless him), or they have staff to read their emails. 사람에 따르면 스팸 메일에 문제가있는 적이없습니다 중 하나는 우리 아빠는, 사람은 그의 인생에있는 컴퓨터를 만진 적이 (축복이 있기를), 또는 그들은 그들의 전자 우편을 읽는 직원합니다. Spam is ubiquitous in the online world, it is everywhere, and it is omnipresent. 스팸은 유비 쿼터스 온라인 세계에서, 그것은 어디 에나있다, 그리고 그것은 무소 부재합니다.

If you’re using Google Mail you may not see much, the spam filters on that system are very good (at least in my experience). 구글 메일을 사용하고있는 경우 표시되지 않을 수있습니다 정도의 스팸 메일 필터를이 시스템은 매우 좋은 (적어도 내 경험). Moreover, if you’re then POP3 downloading your 또한, 3을 다운로드하는 경우 다음의 GMail gmail into a desktop email client with 바탕 화면에 이메일 클라이언트와 Bayesian statistical filtering 베이스 통계 필터링 then you may see even less. 그럼 당신도 훨씬를 볼 수있습니다. Forward to your Linux-based server and employ Spam Assassin and you may well see only very rare spam emails. 앞으로 여러분의 리눅스 - 기반 서버 및 고용 스팸 메일을 암살하고 아주 드문 경우에만 스팸 메일 잘보고합니다. However, just take a look at your space-draining spam folders and you will realize that, although you may not see much spam, it’s still a problem. 그러나, 단지 당신의 공간을 한번보세요 - 배출 스팸 메일 폴더를 그리고 당신은 사실을 깨닫지 있지만되지 않을 수있습니다 많은 스팸 메일, 그것은 여전히 문제가있습니다.

Computer scientists in France think they may have come up with a new answer to finding the perfect spam filter. 프랑스의 컴퓨터 과학자들이 새로운 시간 때우기 수있습니다 완벽한 스팸 메일 필터에 대한 답을 찾는합니다. Writing in the 서면에 International Journal of Web and Grid Services 국제 저널의 웹 및 그리드 서비스를 recently (2008, vol 4, , they describe how they can filter spam very effectively using a process known as Kolmogorov complexity analysis. This approach works, not by analyzing the headers or the body of an incoming email, but by classifying it based on how well it can be compressed (akin to WinZip or Stuffit compression) and then comparing this compression ratio to that of previously whitelisted or blacklisted emails. 최근에 (2008, 집 4 일, 그들의 스팸 필터를 그들은 아주 효과적으로하는 방법에 대해 설명하는 프로세스를 사용하여 복잡한 분석 kolmogorov로 알려져있습니다. 이러한 접근 방법 작품이 아니라 헤더를 분석하여이나 본문에 들어오는 전자 메일, 그러나 그것을 기반으로하는 방법으로 분류 어쨌든, 우리는 압축 (나의을 winzip 또는 stuffit 압축)하고 다음을 압축 비율을 비교하는이 허용된 또는 블랙리스트에 이전에 전자 우편을합니다.

Andrei Nikolaevich Kolmogorov (1903-1987) was a Soviet mathematician, considered one of the most pre-eminent of the twentieth century. 안드레이 nikolaevich kolmogorov (1903-1987)은 소련의 수학자, 대부분의 사전 중 하나를 고려 - 20 세기의 저명한합니다. He made major advances in probability theory, topology, intuitionistic logic, turbulence, classical mechanics and computational complexity. 주요 발전에 그는 확률 이론, 토폴로지 intuitionistic 논리, 난기류, 고전 역학 및 전산 복잡합니다. It is within Kolmogorov’s work on logic that kolmogorov 내에있다는 논리가 그것에의 작품 Gilles Richard 질 리처드 and Andrei Doncescu of the University of Toulouse hope to find a solution to spam filtering, as they explain: 툴루즈 대학의 안드레이 doncescu과 희망을 강구하고있는 해결책을 스팸 메일 필터링, 그들 설명 :

The main idea is to give a formal meaning to the notion of ‘information content’ and to provide a measure of this content. 의 주요 개념은 다음과 개념의 의미를 정식으로 contentâ â € ~ 정보를 제공하는 € ™와 해당 콘텐츠를 측정하는 기준입니다. Using such a quantitative approach, it becomes possible to define a distance, which is a major tool for classification purposes. 이러한 양적 접근 방식을 사용하는 것이 점점 거리를 정의할 수있습니다, 이것은 주요 도구를 목적으로 분류합니다.

The researchers have validated their approach by proceeding in two steps: 그들의 접근 방식으로 연구 검증 절차가 2 단계 :

First, they used the classical compression distance over a mix of spam and legitimate emails to determine if they can be properly clustered without any supervision. 첫째로, 그들은 거리를 사용하여 압축을 고전을 통해 스팸 메일과 합법적인 이메일을 혼합 여부를 확인 적절하게 클러스터된 수없이 그들이 감독합니다. This step could then show whether there is an underlying structure to spam emails that might be exploited in filtering. 이 단계를 수 있는지 보여주는 기본적인 구조를 이용할 수있는 스팸 메일을 필터링합니다.

In the second step, they implemented a simple machine-learning system, a so-called k-nearest neighbors algorithm, which then classifies emails according to how closely they resemble others in the queue. 두 번째 단계에서, 그들 간단한 기계 - 학습 시스템 구현을 너무 - 전화 k - 가까운 이웃 사람 알고리즘, 그러면 이메일을 분류하는 방법에 따라 다른 사람의 대기열에 밀접하게 그들은 비슷합니다. The approach requires no deep analysis of the header or body of the incoming email as is necessary with Spam Assassin type systems and Bayesian filtering. 그 접근 방식이 필요없습니다 머리글 또는 신체의 깊은 분석을 필요로 수신 이메일을 입력 시스템과베이스와 스팸 메일 필터링을 암살합니다. Instead, it works by simply measuring how different is the possible compression of known legitimate and spam emails. 대신에, 그것 작품 간단하게 측정하는 방법과 다르다는 합법적인 스팸 메일의 알려진 압축을 수있습니다.

Using this approach, the researchers were able to filter spam with 85% using this approach alone. 이 방법을 사용하여, 연구와 85 %를 사용하여 스팸 메일을 필터링할 수 있었다 혼자이 접근합니다. However, its real strength will lie in turning to a more powerful classification technique (Support Vector Machines for instance) and in coupling it to another anti-spam technique, such as Bayesian analysis, Richard told me. 그러나, 전환에 누워 진짜 위력은 더 강력한 분류 기술 (예를 들면 지원 벡터 머신)과 결합 - 스팸 메일 방지 그것을 또 다른 테크닉, 같은베이스 분석, 리처드 얘기합니다.

3 responses so far ↓ 지금까지 3 개의 응답 ↓

  • andrew // 앤드류 / / Jun 25, 2008 at 4:51 pm 2008년 6월 25일에서 오후 4시 51분

    I read an article about a new technology called ReceiverNet from Abaca. 새로운 기술에 대한 기사를 읽었 receivernet로부터 전화 abaca합니다. ReceiverNet technology characterizes each protected user based on the percentage of spam they receive and then uses those reputations to rate the incoming message flow. 각각의 보호를 사용자 receivernet 기술을 특징 그들이받은 스팸 메일의 비율을 기반으로 그 명성을 평가하고 다음을 수신 메시지 흐름을 사용합니다. I changed my spam filtering system to Abaca’s Email Protection Gateway and it blocked Replica watches spam mails, Subpoena Phishing mails and many more. 나는 내의 스팸 메일 필터링 시스템을 변경 € ™의 전자 우편 보호 abacaâ 복제 시계의 스팸 차단 게이트웨이와이 메일, 피싱 메일 및 소환 더 많은합니다. I found that Abaca’s ReceiverNet service has 99% efficiency in blocking spam mails and they guarantee their results . receivernet다는 걸 알았습니다 abacaâ € ™의 스팸 메일 차단 서비스는 99 % 효율성을 그리고 그들의 결과를 보장합니다. For more information, log on to 더 많은 정보는, 로그온을 http://abaca.com/ . 합니다.

  • David Bradley 데이비드 브래들리 // / / Jun 25, 2008 at 6:18 pm 2008년 6월 25일에서 오후 6시 18분

    Sounds like an interesting approach that saves on all this mathematical analysis. 마치이 모든 수학의 흥미로운 접근을 절약하고 분석합니다. Anyone else got a good system in place that works as well as Abaca? 시스템에 좋은 장소가 다른 사람뿐만 아니라 작품 abaca?

  • Phil Whelan 필 whelan // / / Jun 26, 2008 at 8:14 pm 2008년 6월 26일에서 오후 8시 14분

    Abaca approach sounds like an interesting. abaca 흥미로운 접근 방식 것 같은데. 99% is quite amazing! 의 99 %는 매우 놀라워! I’m going to check it. 나는 그것을 확인 간다.

    David, yes, we have an approach that uses even less mathematical analysis, using the idea that spammers are impatient. 데이비드, 예, 우리는 더 적은을 사용하는 접근 방식은 수학의 분석, 스패머가 참을성을 사용하여 아이디어를합니다. We slow down connections of unknown senders, and in doing so have found that most zombie machines sending the spam disconnect within a few seconds. 진정 우리가 알 수없는 연결을 보낸 사람, 그리고 대부분의 좀비 머신에서 검토한 결과 이렇게 스팸 메일을 보내는 몇 초 안에 연결합니다.

    Phil Whelans last blog post.. 필 whelans 마지막으로 블로그 게시물 .. Sign up for a MailChannels Email System Load Test 메일 시스템의 부하 테스트에 가입 mailchannels

Leave a Comment 코멘트를 남겨주세요

Comments are checked for spam before appearing, no need to post it twice. 코멘트가 게재되기 전에 스팸 메일을 확인,이 두 차례에 게시 필요가없습니다.

Related Posts 관련 기사