Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Spam: Spam bezieht sich auf unaufgeforderte, oft unerwünschte und sich häufig wiederholende Nachrichten, die über elektronische Kommunikationskanäle wie E-Mail, Nachrichten oder Kommentare verschickt werden. Dazu gehören in der Regel Werbung, Betrug oder irrelevante Inhalte. Siehe auch Soziale Medien, Internet, Internetkultur.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

KI-Forschung über Spam - Lexikon der Argumente

Norvig I 865
Spam/KI-Forschung/Norvig/Russell: Sprachidentifizierung und Genre-Klassifizierung sind Beispiele für die Textklassifizierung, ebenso wie die Sentimentanalyse (Einstufung einer Film- oder Produktrezension als positiv oder negativ) und die Spam-Erkennung (Einstufung einer E-Mail als Spam oder Nicht-Spam). Da "Nicht-Spam" ungeschickt ausgedrückt ist, haben Forscher den Begriff "Ham" für Nicht-Spam geprägt. Wir können die Spam-Erkennung als ein Problem beim >überwachten Lernen
behandeln.
Norvig I 866
Im Ansatz des maschinellen Lernens stellen wir die Nachricht als eine Menge von Merkmal/Wert-Paaren dar und wenden einen Klassifikationsalgorithmus h auf den Merkmalsvektor X an. Wir können die Sprachmodellierung und den Ansatz des maschinellen Lernens kompatibel machen, indem wir uns die n-Gramme als Merkmale vorstellen. Dies ist am einfachsten mit einem Unigramm-Modell zu erkennen. Die Merkmale sind die Wörter im Vokabular (...) und die Werte sind die Anzahl, wie oft jedes Wort in der Nachricht erscheint. Dadurch wird der Merkmalsvektor groß und dünn. Wenn es 100.000 Wörter im Sprachmodell gibt, dann hat der Merkmalsvektor eine Länge von 100.000, bei einer kurzen E-Mail-Nachricht hingegen haben fast alle Merkmale die Anzahl Null.
Diese Unigramm-Darstellung wurde als das Modell der Worttasche (engl. bag of words) bezeichnet. Man kann sich das Modell so vorstellen, dass man die Wörter des Übungskorpus in eine Tasche steckt und dann die Wörter einzeln auswählt. Die Reihenfolge der Wörter geht dabei verloren; ein Unigramm-Modell gibt jeder Permutation eines Textes die gleiche Wahrscheinlichkeit. Bei n-Gramm-Modellen höherer Ordnung bleibt ein gewisser lokaler Begriff der Wortstellung erhalten. Bei Bigrammen und Trigrammen wird die Anzahl der Merkmale quadriert oder kubiert und wir können weitere, nicht n-Gramm-Merkmale hinzufügen, wie z.B.: die Zeit, zu der die Nachricht gesendet wurde, ob eine URL oder ein Bild Teil der Nachricht ist, eine ID-Nummer für den Absender der Nachricht, die Anzahl der früheren Spam- und Ham-Nachrichten des Absenders und so weiter. >Sprachmodelle/Norvig, >Datenkompression/Norvig.
Norvig I 867
Datenkompression: Um eine Klassifizierung durch Kompression durchzuführen, werfen wir zunächst alle Spam-Trainingsnachrichten in einen Topf und komprimieren sie als
Norvig I 867
eine Einheit. Wir tun dasselbe für den "Ham". Wenn wir dann eine neue zu klassifizierende Nachricht erhalten, hängen wir sie an die Spam-Nachrichten an und komprimieren das Ergebnis. Wir hängen sie auch an den "Ham" an und komprimieren ihn. Welche Klasse besser komprimiert wird, d.h. welche, die weniger zusätzlichen Bytes für die neue Nachricht hinzufügt, ist die vorhergesagte Klasse. Die Idee dahinter ist, dass eine Spam-Nachricht dazu neigt, Wörterbucheinträge mit anderen Spam-Nachrichten zu teilen und daher besser komprimiert wird, wenn sie an eine Sammlung angehängt wird, die bereits das Spam-Wörterbuch enthält. Experimente mit kompressionsbasierter Klassifikation an einigen der Standardkorpora zur >Textklassifikation.

_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.
KI-Forschung

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z