Sciencetext Tips & Tricks

Blogging suggerimenti, trucchi e navigando computing hack

Spam o prosciutto?

13 maggio 2009 da David Bradley>> Please comment

[Post a Twitter]

Controllo spam di commenti Un approccio nuovo per il filtraggio dello spam potrebbe usare il tuo abitudini di navigazione sul web per aiutare il vostro programma di posta elettronica di filtrare spam e trovare il prosciutto.

Un sistema desktop che segue il tuo abitudini di navigazione web e poi usa questo comportamento per filtrare lo spam dalla tua posta elettronica è stata sviluppata dai ricercatori in Giappone.

Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, Masayoshi Aritsugi e del Dipartimento di Informatica e Comunicazione Università di Ingegneria di Kumamoto, spiegare come funziona il sistema trova "prosciutto" parole basato sul modo in cui un utente naviga il web e una distinzione tra queste parole e prosciutto la "spam" parole presenti nella utente posta in arrivo. "Il metodo riduce fastidiosi mantenimento di un filtro anti-spam", dicono i ricercatori, che in genere comporta l'utente conferma di un falso negativo o blacklisting una particolare e-mail spam che non è stato filtrato.

"Il nostro metodo è in grado di rilevare alcuni spam che è molto difficile da classificare correttamente utilizzando i filtri bayesiani statistiche", dice il team, "Ci mostrano che la combinazione di un filtro Bayesiano e il nostro metodo riduce il numero di falsi negativi."

Nel 2001, solo il 5% del traffico di posta elettronica su Internet è stata la commercializzazione di messaggi non sollecitati, noto come "spam" dopo l'omogeneizzato di carne suina prodotto reso celebre dal British commedia Monty Python squadra in una divertente canzone intitolata "spam, spam, spam ..." Oggi , si stima che tra il 90 e il 95% dei tutte le e-mail spam o una qualche forma di trasportare payload dannosi. Alcuni osservatori suggeriscono che potrebbe avere e-mail spam gravi conseguenze ambientali data l'enorme quantità di computer e degli utenti in materia di gestione del tempo sprecato quali un vasto flusso di traffico internet.

Ci sono due principali tecnologie anti-spam: mittente-side tecnologie operare nelle primissime fasi e sono progettati in modo da impedire l'invio di spam utenti malintenzionati, in primo luogo. Data la natura distribuita massicciamente le fonti di spam e l'esistenza di un anti-spam bot costruito reti di computer compromessi da tutto il mondo che può inviare milioni di messaggi ogni giorno, questo è il più difficile da attuare.

In tal modo, lo spam di gestione è di solito affrontato utilizzando ricevitore lato tecnologie, che operano sia a livello aziendale e-mail (nel caso di Google Mail), il provider di servizi Internet (ISP) o sul livello utente del programma di posta elettronica. Per fornire un nuovo approccio per il controllo dello spam, Takashita e colleghi si sono concentrati su questi ultimi: il filtraggio.

Vi sono numerosi approcci disponibili per filtrare la posta indesiderata. Il più semplice la creazione di una "lista nera" di spam parole. Se queste parole si trovano in una e-mail in entrata è contrassegnata come spam. Ulteriori filtri potrebbero cercare indirizzi web incorporato in una e-mail in entrata e assegnare lo spam tag se non vi sono più di una soglia numero di URL in e-mail o se tali URL punto di una lista nera dei siti o sono in qualche modo offuscato. L'URL di filtraggio approccio aiuta anche filtrare i messaggi fraudolenti di phishing troppo.

In qualsiasi momento una e-mail utente potrebbe manualmente bandiera una e-mail come spam o de-bandiera un prosciutto e-mail. Bayesian statistiche è stato utilizzato per aumentare e automatizzare questo filtraggio approccio "apprendimento" e-mail da cui sono blacklist o whitelist ciò statistica combinazione di parole in una nuova e-mail è probabile che suggeriscono di spam o di prosciutto.

Una cosa che la maggior parte degli utenti e-mail anche con i loro computer per navigare sul web. Takashita e colleghi hanno utilizzato questo fatto per contribuire allo sviluppo di un algoritmo di filtraggio che estrae le preferenze di un utente in base alla loro abitudini di navigazione Web e si applica a questo problema bloccando le email di spam da combinare con i convenzionali filtraggio bayesiano e-mail. Il loro approccio evoca questioni come la privacy non è fatto tutto il lato client e dati di navigazione è semplicemente alimentato ad un attrezzo desktop. Con la necessità di eseguire lo strumento, o all'interno, il browser web e programmi di posta elettronica.

Il metodo si compone di tre fasi: la prima fase prosciutto parole crea un elenco da sfogliare le pagine web e applica una analisi statistica a questo elenco, la seconda fase prevede la funzionalità di filtraggio delle e-mail ricevute con prosciutto parole elenco, e la terza fase, che è facoltativo, consente all'utente di intervenire e di lista nera o bianca e-mail che sono state marcate correttamente.

Nella loro analisi preliminare della strategia, sono riuscito a metà il numero di falsi negativi nel filtraggio diverse migliaia di e-mail rispetto ad un test che il filtraggio bayesiano statistiche utilizzate solo.

E tutti i suoni piuttosto intelligente, ma non posso pensare a un immediato problema di questo approccio in quanto un interesse a visitare alcuni siti di nicchia citano particolare le parti del corpo che non necessariamente si traducono in un desiderio di leggere le email in questione con l'allargamento di tali parti del corpo. O più grave, proprio perché si sta cercando informazioni su un particolare disturbo medico non significa che si desidera ricevere messaggi di posta elettronica che offre infinite di marketing che si droga per quella particolare malattia. Potrei pensare di una serie di altri esempi di settori in cui le mie abitudini di navigazione giornalistica probabilmente porterà a quasi non lo spam è filtrato a tutti!

Icona di ricerca blog Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka, & Aritsugi Masayoshi (2008). Estrazione delle preferenze utente dal Web comportamento per il filtraggio dello spam Int.. (2), 126-138 J. avanzata Intelligence paradigmi, 1 (2), 126-138

0 risposte finora ↓

  • Hai qualcosa da aggiungere? Si prega di lasciare un commento qui sotto

Lascia un tuo commento

I commenti sono controllati per lo spam prima che appare, non è necessario per pubblicare due volte.