Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Sprachmodelle: Sprachmodelle in der KI-Forschung sind maschinelle Lernmodelle, die auf großen Mengen von Textdaten trainiert werden, um die statistischen Beziehungen zwischen Wörtern und Sätzen zu lernen. Dadurch können sie Texte generieren, übersetzen, Fragen beantworten, Zusammenfassungen erstellen oder Spam erkennen. Siehe auch Texte, Übersetzung, Question answering, Spam.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

Peter Norvig über Sprachmodelle – Lexikon der Argumente

Norvig I 860
Sprachmodelle/Norvig/Russell: Sprachmodelle [sind] Modelle, die die Wahrscheinlichkeitsverteilung von Sprachausdrücken vorhersagen.
Norvig I 861
Letztendlich besteht ein geschriebener Text aus Zeichen - Buchstaben, Ziffern, Interpunktion und Leerzeichen im Englischen (und exotischeren Zeichen in einigen anderen Sprachen). Daher ist eines der einfachsten Sprachmodelle eine Wahrscheinlichkeitsverteilung über Zeichenfolgen.
N-Gramm-Zeichenmodelle: Eine Folge von geschriebenen Symbolen der Länge n wird als n-Gramm bezeichnet (von der griechischen Wurzel für Schrift oder Buchstaben), mit dem Sonderfall "Unigramm" für 1-Gramm, "Bigramm" für 2-Gramm und "Trigramm" für 3-Gramm. Ein Modell der Wahrscheinlichkeitsverteilung von n-Buchstabenfolgen wird daher als n-Gramm-Modell bezeichnet. (Aber Vorsicht: Wir können n-Gramm-Modelle über Folgen von Wörtern, Silben oder anderen Einheiten haben; nicht nur über Zeichen). Ein n-Gramm-Modell ist definiert als eine Markov-Kette der Ordnung n - 1 (...). In einer Markov-Kette hängt die Wahrscheinlichkeit des Zeichens ci nur von den unmittelbar vorausgehenden Zeichen ab, nicht von anderen Zeichen.
Norvig I 863
Wir können ein Modell mit Kreuzvalidierung evaluieren: teilen Sie das Korpus in ein Trainingskorpus und ein Validierungskorpus auf, bestimmen Sie die Parameter des Modells aus den Trainingsdaten und bewerten Sie dann das Modell anhand des Validierungskorpus. Die Bewertung kann eine aufgabenspezifische Metrik sein, wie z. B. die Messung der Genauigkeit bei der Sprachidentifizierung. Alternativ können wir ein aufgabenunabhängiges Modell der Sprachqualität verwenden: Berechnen Sie die Wahrscheinlichkeit, die dem Validierungskorpus durch das Modell zugewiesen wird; je höher die Wahrscheinlichkeit, desto besser.
Norvig I 864
N-Gramm-Modelle über Wörter: Der Hauptunterschied besteht darin, dass der Wortschatz - die Menge der Symbole, aus denen der Korpus und das Modell bestehen - größer ist. In den meisten Sprachen gibt es nur etwa 100 Zeichen und manchmal bauen wir Zeichenmodelle auf, die noch restriktiver sind, indem wir z.B. "A" und "a" als dasselbe Symbol behandeln oder indem wir alle Interpunktionszeichen als dasselbe Symbol behandeln. Mit Wortmodellen haben wir jedoch mindestens Zehntausende, manchmal sogar Millionen von Symbolen. Das breite Spektrum ist darauf zurückzuführen, dass nicht klar ist, was ein Wort ausmacht. Im Englischen ist eine von Leerzeichen umgebene Buchstabenfolge ein Wort, aber in einigen Sprachen, wie z.B. im Chinesischen, sind die Wörter nicht durch Leerzeichen getrennt, (...). Wort-n-Gramm-Modelle müssen mit Wörtern außerhalb des Vokabulars umgehen. Bei Zeichenmodellen stellt es kein Problem dar, wenn jemand einen neuen Buchstaben des Alphabets erfindet. Aber bei Wortmodellen gibt es immer die Chance, dass ein neues Wort entsteht, das im Trainingskorpus nicht gesehen wurde, d.h. wir müssen dies explizit in unserem Sprachmodell modellieren. ((s) Vgl. >Vokabular/Philosophische Theorien
). >Datenkompression.
Norvig I 883
Geschichte: N-Gramm-Buchstabenmodelle für die Sprachmodellierung wurden von Markov (1913)(1) vorgeschlagen. Claude Shannon (Shannon und Weaver, 1949)(2) war der erste, der n-Gramm-Wortmodelle des Englischen erstellte.
Chomsky (1956(3), 1957(4)) wies auf die Grenzen von Modellen mit endlichen Zuständen im Vergleich zu kontextfreien Modellen hin und kam zu dem Schluss: "Probabilistische Modelle geben keinen besonderen Einblick in einige der grundlegenden Probleme der syntaktischen Struktur". Das ist zwar richtig, jedoch geben probabilistische Modelle Einblick in einige andere grundlegende Probleme - Probleme, die kontextfreie Modelle ignorieren. Chomskys Äußerungen hatten den unglücklichen Effekt, dass viele Menschen zwei Jahrzehnte lang von statistischen Modellen abgeschreckt waren, bis diese Modelle wieder für die Verwendung in der Spracherkennung auftauchten (Jelinek, 1976)(5). Kessler et al. (1997)(6) zeigen, wie man Charakter-n-Gramm-Modelle auf die Genre-Klassifikation anwendet. Klein et al. (2003)(7) beschreiben die Erkennung von namentlich genannten Personen mit Charaktermodellen. Franz und Brants (2006)(8) beschreiben den Google n-Gramm-Korpus von 13 Millionen eindeutigen Wörtern aus einer Billion Wörtern Webtext. Dieser ist jetzt öffentlich zugänglich. Das Modell der Worttasche stammt namentlich aus einer Passage des Linguisten Zellig Harris (1954)(9): "Sprache ist nicht nur eine Tasche mit Wörtern, sondern ein Werkzeug mit besonderen Eigenschaften". Norvig (2009)(10) gibt einige Beispiele für Aufgaben, die mit n-Gramm-Modellen gelöst werden können.
Einfache n-Gramm-Buchstaben- und Wortmodelle sind nicht die einzig möglichen probabilistischen Modelle. Blei et al. (2001)(11) beschreiben ein probabilistisches Textmodell namens latente Dirichlet-Allokation, das ein Dokument als eine Mischung von Themen mit jeweils eigener Wortverteilung betrachtet. Dieses Modell kann als eine Erweiterung und Rationalisierung des latenten semantischen Indexierungsmodells von (Deerwester et al., 1990)(12) (siehe auch Papadimitriou et al. (1998)(13)) angesehen werden und steht auch mit dem Modell der Mehrursachenmischung von (Sahami et al., 1996)(14) in Zusammenhang.


1. Markov, A. A. (1913). An example of statistical investigation in the text of “Eugene Onegin” illustrating coupling of “tests” in chains. Proc. Academy of Sciences of St. Petersburg, 7.
2. Shannon, C. E. and Weaver, W. (1949). The Mathematical Theory of Communication. University of
Illinois Press.
3. Chomsky, N. (1956). Three models for the description of language. IRE Transactions on Information
Theory, 2(3), 113–124.
4. Chomsky, N. (1957). Syntactic Structures. Mouton.
5. Jelinek, F. (1976). Continuous speech recognition by statistical methods. Proc. IEEE, 64(4), 532–556.
6. Kessler, B., Nunberg, G., and Schütze, H. (1997). Automatic detection of text genre. CoRR, cmplg/
9707002.
7. Klein, D., Smarr, J., Nguyen, H., and Manning, C. (2003). Named entity recognition with character level models. In Conference on Natural Language Learning (CoNLL).
8. Franz, A. and Brants, T. (2006). All our n-gram are belong to you. Blog posting.
9. Harris, Z. (1954). Distributional structure. Word, 10(2/3).
10. Norvig, P. (2009). Natural language corpus data. In Segaran, T. and Hammerbacher, J. (Eds.), Beautiful Data. O’Reilly.
11. Blei, D. M., Ng, A. Y., and Jordan, M. I. (2001). Latent Dirichlet Allocation. In Neural Information
Processing Systems, Vol. 14.
12. Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman, R. A. (1990). Indexing by latent semantic analysis. J. American Society for Information Science, 41(6), 391–407.
13. Papadimitriou, C. H., Tamaki, H., Raghavan, P., and Vempala, S. (1998). Latent semantic indexing:
A probabilistic analysis. In PODS-98, pp. 159–168.
14. Sahami, M., Hearst, M. A., and Saund, E. (1996). Applying the multiple cause mixture model to text
categorization. In ICML-96, pp. 435–443.

_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z