Sciencetext Dicas & Truques

Blogging dicas, truques e navega computação hacks

Spam ou Ham?

13. De maio de 2009 por David Bradley>> Please comment

[Post a Twitter]

Controle comentários spam Uma nova abordagem à filtragem de spam poderá utilizar o seu hábitos de navegação na web para ajudar o seu e-mail programa filtrar spam e encontrar o presunto.

Um computador desktop sistema que segue o seu web hábitos surfing e então usa esse comportamento para filtrar spam do seu e-mail está sendo desenvolvida por pesquisadores do Japão.

Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, Masayoshi Aritsugi e do Departamento de Ciência da Computação e Engenharia da Comunicação Kumamoto University, explicar o modo como o sistema verifica "presunto" palavras baseado na forma como um usuário navega na web e diferencia entre estas palavras e presunto o "spam" palavras encontradas na recepção de e-mail do usuário. "O método reduz incômodos manutenção de um filtro anti-spam", dizem os pesquisadores, que normalmente envolve o usuário confirmando um falso negativo ou uma lista negra particular spam e-mail que não foi filtrada.

"Nosso método pode detectar alguns" spam "que é difícil de classificar corretamente usando o actual filtros bayesianos estatísticas", a equipe diz, "Nós mostramos que a combinação de um filtro Bayesiano e nosso método reduz o número de falsos negativos."

Em 2001, apenas 5% do tráfego na Internet e-mail foi marketing mensagens não solicitadas, conhecidas como "spam", após a carne homogeneizada produto feito famoso pela equipe britânica comédia Monty Python em um humorístico canção intitulada "spam, spam, spam ..." Hoje , estima-se que entre 90 e 95% dos todos os e-mails são spam ou realizar algum tipo de carga malicioso. Alguns observadores sugerem que poderia ter e-mail spam graves conseqüências ambientais dada a enorme quantidade de computadores e usuários na gestão desse tempo perdido um grande fluxo de tráfego Internet.

Existem duas principais tecnologias anti-spam: do lado do remetente tecnologias operar o mais rapidamente fase, e são projetadas para impedir utilizadores mal intencionados enviar spam em primeiro lugar. Dada a natureza do spam distribuído maciçamente fontes e da existência de anti-spam bot redes construídas a partir de computadores infectados em todo o globo que podem enviar milhões de mensagens por dia, isto é o mais difícil de implementar.

Assim, spam de gestão é normalmente abordado utilizando tecnologias do lado do receptor, que funcionam tanto a nível email empresa (no caso do Google Mail), o Internet Service Provider (ISP) ou em nível de usuário de e-mail do programa. Para dar um novo enfoque para spam controle, Takashita e colegas se concentraram na última: filtragem.

Existem inúmeras abordagens disponíveis para filtrar spam. A mais simples envolve a criação de uma lista negra de spam palavras. Se estas palavras são encontradas em um e-mail recebido é marcado como spam. Filtros adicionais podem olhar para os endereços da web embutido em uma recepção de e-mail e atribuir a tag spam se houver mais de um limite no número de URLs e-mail ou se esses URLs aponte para lista negra são obfuscated sites ou de alguma forma. Este URL filtragem abordagem também ajuda a filtrar as mensagens fraudulentas phishing também.

A qualquer momento um e-mail usuário pode manualmente pavilhão um e-mail como spam ou de e-mail do pavilhão de um presunto. Bayesiano estatísticas foi utilizado para aumentar e automatizar esta abordagem filtragem por "aprender" a partir da qual e-mails são lista negra ou lista branca que estatística combinação de palavras em um novo e-mail é susceptível de sugerir spam ou presunto.

Uma coisa mais usuários e-mail também é fazer com seu computador para navegar na web. Takashita colegas e ter usado esse facto para ajudar a desenvolver um algoritmo de filtragem que extrai um usuário com base nas suas preferências de navegação na Web hábitos e aplica este comportamento para filtrar spam e-mail para fora, combinando-o com e-mail convencional Bayesiana filtragem. Sua abordagem não evoca questões como privacidade, isso é feito inteiramente lado cliente e do browser utilizado para a alimentação dos dados é simplesmente uma ferramenta desktop. Por necessidade da ferramenta seria executado com, ou no interior, o navegador da Web e programas do email.

O método consiste em três fases: a primeira fase presunto palavras cria uma lista de páginas navegadas e aplica uma análise estatística a esta lista, a segunda fase prevê a funcionalidade de filtragem de e-mails recebidos com presunto palavras lista e, a terceira fase, que é opcional, permite ao usuário intervir e branca ou negra e-mails que tenham sido sinalizadas incorretamente.

Nos seus testes preliminares da abordagem, eles conseguiram a metade do número de falsos negativos em vários milhares de filtragem de e-mails, em comparação com um teste que é utilizado filtragem Bayesiano estatísticas sozinho.

Tudo soa bastante inteligente, mas posso pensar em um problema imediato com esta abordagem, em que um interesse em visitando sítios determinados nichos menção especial partes do corpo que não se traduz necessariamente a um desejo de ler e-mails relacionados com o alargamento de partes do corpo, disse. Ou mais a sério, só porque você está procurando informações sobre um determinado distúrbio médico não significa que você gostaria de receber e-mails marketing interminável oferecendo-lhe drogas, especificamente para essa doença. Eu poderia pensar em vários outros exemplos de locais onde o meu jornalística navega hábitos conduziria provavelmente a quase nenhum spam sendo filtrada a todos!

Investigação Blogando Ícone Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, Masayoshi & Aritsugi (2008). Extraindo usuário preferência comportamento de navegação na Web para filtragem de spam Int. (2), 126-138 J. Advanced Intelligence Paradigmas, 1 (2), 126-138

0 respostas até agora ↓

  • Tem algo a acrescentar? Por favor, deixe um comentário abaixo

Deixe um Comentário

Os comentários são controlados por envio de spam antes de aparecerem, não há necessidade para publicá-la duas vezes.