Spam-oder Ham?
13. Mai 2009 durch David Bradley>> Bitte Kommentar
Ein neuer Ansatz zur Spam-Filter können Sie Ihre Web-Browsing-Gewohnheiten, damit Ihre E-Mail-Programm filtern Spam und finden Sie den Schinken.
Ein Computer, Desktop-System, dass Sie sich Ihre Internet-Surfgewohnheiten und verwendet dann dieses Verhalten zu filtern Spam aus Ihrem E-Mail wird von Forschern in Japan.
Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka und Masayoshi Aritsugi der Abteilung für Informatik und Kommunikation Engineering an der Universität Kumamoto, erklären, wie das System "Schinken" Worte auf die Frage, wie ein Benutzer im Web und unterscheidet zwischen den Worten und Schinken die "Spam" Wörter in der Benutzer eingehende E-Mail. "Die Methode reduziert störende Aufrechterhaltung eines Spam-Filter", sagen die Forscher, die in der Regel mit dem Nutzer zur Bestätigung einer falschen negativen oder schwarze Liste eine bestimmte Spam-Mails, die nicht gefiltert werden.
"Unsere Methode kann einige Spam-Mails, die nur schwer zu klassifizieren, richtig mit den bestehenden Statistiken Bayes'schen Filter," das Team, sagt: "Wir zeigen, dass eine Kombination von Bayesian-Filter und unsere Methode reduziert die Anzahl der falsch Negativen."
Im Jahr 2001, nur 5% der E-Mail-Verkehr über das Internet wurde unerbetene Werbebotschaften, bekannt als "Spam" nach dem homogenisierten Schweinefleisch Produkt bekannt gemacht von der britischen Comedy-Gruppe Monty Python in einem humorvoll-Song namens "Spam, Spam, Spam ..." Heute Es wird geschätzt, dass zwischen 90 und 95% der Alle E-Mails sind Spam oder die in irgendeiner Form von bösartigen Nutzlast. Einige Beobachter weisen darauf hin, dass E-Mail-Spam haben könnte schwerwiegende Folgen für die Umwelt Angesichts der enormen Menge von Computer und Benutzer verschwendete Zeit für das Management einer solchen großen Fluss für den Internet-Verkehr.
Es gibt im Wesentlichen zwei Anti-Spam-Technologien: Absender-Seite Technologien sind bereits im frühesten Stadium und sind so konzipiert, dass böswillige Benutzer das Senden von Spam in den ersten Platz. In Anbetracht der massiv verteilte Art der Spam-Quellen und die Existenz von Spam-Bot-Netze aus kompromittierter Computer auf der ganzen Welt senden können, dass Millionen von Nachrichten pro Tag, dies ist die am schwierigsten zu realisieren ist.
So, Spam-Management ist in der Regel mit Hilfe Empfänger-Seite Technologien, die entweder auf der Ebene E-Mail-Unternehmen (im Fall von Google Mail), die Internet Service Provider (ISP) oder über die Benutzer-E-Mail-Programm. Um einen neuen Ansatz zur Spam-Kontrolle, Takashita und Kollegen haben sich auf diese: Filterung.
Es gibt zahlreiche Ansätze zur Verfügung, um Spam. Die einfachste umfasst die Erstellung einer schwarzen Liste der Spam-Wörter. Wenn diese Worte finden sich in einer eingehenden E-Mails ist es als Spam gekennzeichnet. Zusätzliche Filter aussehen könnte für Web-Adressen in einer eingehenden E-Mail und weisen Sie den Spam-Tag, wenn es mehr als ein Schwellenwert von URLs in der E-Mail oder, wenn diese URLs auf der schwarzen Liste sind obfuscated Websites oder in irgendeiner Weise. Diese URL-Filter-Ansatz trägt auch dazu herauszufiltern betrügerischen Phishing-Nachrichten zu.
An jedem Punkt eine E-Mail-Benutzer kann manuell Flagge eine E-Mail als Spam-oder de-Flagge einen Schinken E-Mail. Bayes-Statistik wurde zur Erweiterung und Automatisierung dieser Filter Ansatz von "Lernen", aus denen die E-Mails werden weißen oder schwarzen Liste, welche statistischen Kombination der Wörter in eine neue E-Mail ist wahrscheinlich darauf hin, Spam-oder Schinken.
Eine Sache, die meisten E-Mail-Nutzer auch mit dem Computer ist die im Internet surfen. Takashita und Kollegen haben diese Tatsache bei der Entwicklung ein Filter-Algorithmus, dass Auszüge Präferenzen eines Benutzers auf der Grundlage ihrer Web-Browsing-Gewohnheiten und gilt dieses Verhalten zur Filterung von Spam-E-Mail durch die Kombination mit herkömmlichen E-Mail-Bayesian-Filter. Ihr Ansatz erinnert an keine Privatsphäre, da es das gesamte Client-und Browser-Daten einfach satt zu einem Desktop-Tool. Durch die Notwendigkeit, das Tool würde, oder innerhalb der Web-Browser und E-Mail-Programme.
Die Methode besteht aus drei Phasen: die erste Stufe schafft ein Schinken Liste von Wörtern durchsucht Web-Seiten und durch eine statistische Analyse zu dieser Liste, die die zweite Stufe sieht die Filterfunktionen der empfangenen E-Mails mit Schinken Worte, und die dritte Stufe, die optional ist, kann der Benutzer eingreifen und weiße oder schwarze Liste von E-Mails, die nicht ordnungsgemäß gekennzeichnet.
In ihrer ersten Tests der Ansatz, sie haben es geschafft, die Hälfte der Anzahl der falsch Negativen in der Filtration von mehreren tausend E-Mails verglichen mit einem Filter-Test, verwendet der Bayes'schen Statistik allein.
Es klingt alles ziemlich clever, aber ich kann mir eine unmittelbare Problem mit diesem Ansatz, dass ein Interesse an Besuch bestimmter Websites Nische besondere Erwähnung Körperteile nicht unbedingt zu einer Wunsch-E-Mails zu lesen, die sich mit der Erweiterung der genannten Körperteile. Oder noch schlimmer, nur weil Sie auf der Suche nach Informationen zu einem bestimmten medizinischen Erkrankung bedeutet nicht, dass Sie wollen, erhalten endlosen Marketing-E-Mails bieten Ihnen Medikamente für die betreffende Krankheit. Ich könnte denken, der mehrere andere Beispiele, wo meine journalistische Surfgewohnheiten würde wahrscheinlich dazu führen, dass fast kein Spam gefiltert auf allen!
Taiki Takashita, Tsuyoshi Itokawa, Teruaki Kitasuka & Masayoshi Aritsugi (2008). Extrahieren von Benutzereinstellungen von Web-Browsing-Verhalten für die Spam-Filter Int. (2), 126-138 J. Advanced Intelligence Paradigmen, 1 (2), 126-138


















0 Antworten bisher ↓
Haben Sie noch etwas hinzufügen? Bitte geben Sie einen Kommentar unter
Schreibe einen Kommentar