Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Informationsextraktion: Informationsextraktion (IE) ist der Prozess der automatischen Extraktion von strukturierten Informationen aus unstrukturierten oder halbstrukturierten Datenquellen. Dabei kann es sich um Texte, Bilder, Videos oder Audiodateien handeln. Siehe auch Information, KI-Forschung.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

KI-Forschung über Informationsextraktion - Lexikon der Argumente

Norvig I 873
Informationsextraktion/KI-Forschung/Norvig/Russell: Informationsextraktion ist der Prozess des Wissenserwerbs durch Überfliegen eines Textes und der Suche nach dem Vorkommen einer bestimmten Objektklasse und nach Beziehungen zwischen Objekten. Eine typische Aufgabe besteht darin, Instanzen von Adressen aus Webseiten mit Datenbankfeldern für Straße, Stadt, Bundesland und Postleitzahl zu extrahieren; (...) in einem begrenzten Bereich kann dies mit hoher Genauigkeit erfolgen. Da das Gebiet immer allgemeiner wird, sind komplexere linguistische Modelle und komplexere Lerntechniken erforderlich.
Norvig I 874
A. Finite-State Template-basierte Informationsextraktion:
Attribut-basiertes Extraktionssystem: (...) geht davon aus, dass sich der gesamte Text auf ein einziges Objekt bezieht und die Aufgabe darin besteht, Attribute dieses Objekts zu extrahieren. Z.B. Hersteller, Produkt, Preis.
Relationale Extraktionssysteme: befassen sich mit mehreren Objekten und den Beziehungen zwischen ihnen.
Norvig I 875
Ein relationales Extraktionssystem kann als eine Reihe von kaskadierten Finite-States-Wandlern aufgebaut werden. FASTUS z.B. besteht aus fünf Stufen: 1. Tokenisierung, 2. komplexe Wortbehandlung, 3. grundlegende Gruppenbehandlung, 4. Handhabung komplexer Phrasen, 5. Zusammenführen von Strukturen.
Norvig I 876
B. Probabilistische Modelle zur Informationsextraktion:
Wenn die Informationsextraktion aus gestörten oder variierten Eingaben versucht werden muss, (...) ist es besser, ein probabilistisches Modell als ein regelbasiertes Modell zu verwenden. Das einfachste probabilistische Modell für Sequenzen mit verborgenem Zustand ist das verborgene Markov-Modell oder HMM. (Vgl. >Bayesianische Netzwerke
, >Statistisches Lernen.) (...) Ein HMM modelliert eine Progression durch eine Sequenz von verborgenen Zuständen, "xt", mit einer Beobachtung "et" bei jedem Schritt. Um HMMs auf die Informationsextraktion anzuwenden, kann [man] entweder ein großes HMM für alle Attribute oder ein separates HMM für jedes Attribut erstellen. HMMs sind probabilistisch und daher tolerant gegenüber Rauschen. (...) mit HMMs gibt es eine elegante Degradierung mit fehlenden Zeichen/Wörtern und [man] erhält eine Wahrscheinlichkeit, die den Grad der Übereinstimmung angibt
und nicht nur eine boolesche Übereinstimmung/Fehlschlag.
Norvig I 877
(...) HMMs können anhand von Daten trainiert werden; sie erfordern keine mühsame Konstruktion von Vorlagen und können daher leichter auf dem neuesten Stand gehalten werden, wenn sich der Text im Laufe der Zeit ändert.
Norvig I 878
VsHMMs: Problem: Ein Problem bei HMMs für die Aufgabe der Informationsextraktion ist, dass sie eine Menge Wahrscheinlichkeiten modellieren, die wir nicht wirklich brauchen. Ein HMM ist ein generatives Modell; es modelliert die volle gemeinsame Wahrscheinlichkeit von Beobachtungen und verborgenen Zuständen und kann daher zur Erzeugung von Stichproben verwendet werden. Das heißt, wir können das HMM-Modell nicht nur verwenden, um einen Text zu parsen und den Sprecher und das Datum wiederherzustellen, sondern auch, um eine zufällige Instanz eines Textes zu erzeugen, der einen Sprecher und ein Datum enthält.
Lösung: Alles, was wir brauchen, um einen Text zu verstehen, ist ein unterscheidendes Modell, eines, das die bedingte Wahrscheinlichkeit der verborgenen Attribute angesichts der Beobachtungen (des Textes) modelliert.
Bedingtes Zufallsfeld: Wir brauchen nicht die Unabhängigkeitsannahmen des Markov-Modells - wir können ein "xt" haben, das von "x1" abhängig ist. Ein Rahmen für diese Art von Modell ist das bedingte Zufallsfeld oder CRF, das eine bedingte Wahrscheinlichkeitsverteilung eines Satzes von Zielvariablen modelliert, denen ein Satz von Beobachtungsvariablen gegeben ist. Wie Bayessche Netzwerke können CRFs viele verschiedene Strukturen von Abhängigkeiten zwischen den Variablen darstellen.
Norvig I 879
Ontologische Extraktion: [ist zu unterscheiden von] Informationsextraktion, da das Auffinden einer bestimmten Menge von Beziehungen (z.B. Sprecher, Zeit, Ort) in einem bestimmten Text (z.B. einer Vortragsankündigung) (...) [Ontologie-Extraktion] den Aufbau einer großen Wissensbasis oder Ontologie von Fakten aus einem Korpus darstellt. Dies unterscheidet sich in dreierlei Hinsicht: Erstens ist das Ende offen - wir wollen Fakten über alle Arten von Bereichen erfassen, nicht nur über einen bestimmten Bereich. Zweitens ist diese Aufgabe bei einem großen Korpus von Präzision und nicht durch Abruf geprägt - genau wie bei der >Question Answering im Internet (...). Drittens können die Ergebnisse statistische Aggregate sein, die aus mehreren Quellen zusammengetragen werden, anstatt aus einem bestimmten Text extrahiert zu werden. So befasste sich z.B. Hearst (1992)(1) mit dem Problem des Erlernens einer Ontologie von Begriffskategorien und Unterkategorien aus einem großen Korpus. Die Arbeit konzentrierte sich auf Templates, die sehr allgemein sind (nicht an einen bestimmten Bereich gebunden) und eine hohe Präzision aufweisen (sind
Norvig I 880
fast immer korrekt, wenn sie übereinstimmen), jedoch nicht so leistungsfähig im Abruf (stimmen nicht immer überein) sind. Hier ist eine der produktivsten Templates: NP wie NP (, NP)* (,)? ((und | oder) NP)? .
Hier müssen ["wie", "und", "oder"] und Kommas wörtlich im Text erscheinen, die Klammern dienen jedoch der Gruppierung, das Sternchen bedeutet Wiederholung von Null oder mehr und das Fragezeichen bedeutet optional.
Probleme: Die größte Schwäche dieses Ansatzes ist die Empfindlichkeit für Rauschen. Wenn eine der ersten wenigen Templates falsch ist, können sich Fehler schnell ausbreiten. Eine Möglichkeit, dieses Problem einzugrenzen, besteht darin, ein neues Beispiel nicht zu akzeptieren, es sei denn, es wird durch mehrere Vorlagen verifiziert. [Eine andere Möglichkeit ist] eine neue Vorlage nicht zu akzeptieren, es sei denn, es werden mehrere Beispiele entdeckt, die auch von anderen Vorlagen gefunden werden.
Maschinelles Lesen: (...) ein System, das selbständig lesen und eine eigene Datenbank aufbauen könnte. Ein solches System wäre relations-unabhängig und würde für jede Relation funktionieren. In der Praxis arbeiten diese Systeme aufgrund der Eingabe/Ausgabe-Anforderungen großer Korpora auf allen Relationen parallel. Sie verhalten sich weniger wie ein traditionelles Informationsextraktionssystem, das auf einige wenige Relationen abzielt, sondern eher wie ein menschlicher Leser, der aus dem Text selbst lernt; aus diesem Grund wurde das Gebiet als maschinelles Lesen bezeichnet.
Ein repräsentatives maschinelles Lesesystem ist TEXTRUNNER (Banko und Etzioni, 2008)(2).
TEXTRUNNER nutzt Co-Training, um seine Leistung zu steigern, aber es braucht etwas, von dem es bootstrapen kann. Im Fall von Hearst (1992)(1) lieferten bestimmte Muster (z.B. wie) den Bootstrap, und bei Brin (1998)(3) handelte es sich um einen Satz von fünf Autor-Titel-Paaren.
Norvig I 884
Zu den frühen Programmen der Informationsextraktion gehören GUS (Bobrow et al., 1977)(4) und FRUMP (DeJong, 1982)(5). Die jüngste Informationsbeschaffung wurde durch die jährlichen, von der US-Regierung geförderten Message Understand Conferences (MUC) vorangetrieben. Das FASTUS-Finite-State-System wurde von Hobbs et al. (1997)(6) entwickelt. Es basierte zum Teil auf der Idee von Pereira und Wright (1991)(7), FSAs als Annäherungen an Phrasenstrukturgrammatiken zu verwenden. Überblicke über template-basierte Systeme werden von Roche und Schabes (1997)(8) und Appelt (1999)(9) gegeben,
Norvig I 885
Freitag und McCallum (2000)(10) besprechen HMMs zur Informationsextraktion. CRFs wurden von Lafferty et al. (2001)(11) eingeführt; ein Beispiel für ihre Verwendung zur Informationsextraktion wird in (McCallum, 2003)(12) beschrieben und ein Tutorium mit praktischer Anleitung wird von (Sutton und McCallum, 2007)(13) gegeben. Sarawagi (2007)(14) gibt einen umfassenden Überblick.

1. Hearst, M. A. (1992). Automatic acquisition of hyponyms from large text corpora. In COLING-92.
2. Banko, M. and Etzioni, O. (2008). The tradeoffs between open and traditional relation extraction. In ACL-08, pp. 28–36.
3. Brin, D. (1998). The Transparent Society. Perseus
4. Bobrow, D. G.,Kaplan, R.,Kay,M.,Norman, D. A., Thompson, H., and Winograd, T. (1977). GUS, a
frame driven dialog system. AIJ, 8, 155–173.
5. DeJong, G. (1982). An overview of the FRUMP system. In Lehnert,W. and Ringle,M. (Eds.), Strategies for Natural Language Processing, pp. 149–176. Lawrence Erlbaum.
6. Hobbs, J. R., Appelt, D., Bear, J., Israel, D., Kameyama, M., Stickel, M. E., and Tyson, M.
(1997). FASTUS: A cascaded finite-state transducer for extracting information from natural-language text. In Roche, E. and Schabes, Y. (Eds.), Finite- State Devices for Natural Language Processing, pp.
383–406. MIT Press.
7. Pereira, F. and Wright, R. N. (1991). Finite-state approximation of phrase structure grammars. In ACL-91, pp. 246–255.
8. Roche, E. and Schabes, Y. (1997). Finite-State Language Processing (Language, Speech and Communication). Bradford Books.
9. Appelt, D. (1999). Introduction to information extraction. CACM, 12(3), 161–172.
10. Freitag, D. and McCallum, A. (2000). Information extraction with hmm structures learned by stochastic optimization. In AAAI-00.
11. Lafferty, J., McCallum, A., and Pereira, F. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In ICML-01.
12. McCallum, A. (2003). Efficiently inducing features of conditional random fields. In UAI-03.
13. Sutton, C. and McCallum, A. (2007). An introduction to conditional random fields for relational learning. In Getoor, L. and Taskar, B. (Eds.), Introduction to Statistical Relational Learning. MIT Press.
14. Sarawagi, S. (2007). Information extraction. Foundations and Trends in Databases, 1(3), 261–377.

_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.
KI-Forschung

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z