Beziehung und Unterschied zwischen Informationsabruf und Informationsextraktion?

11

Das Abrufen von Informationen ist die Aktivität zum Abrufen von Informationsressourcen, die für einen Informationsbedarf relevant sind, aus einer Sammlung von Informationsressourcen. Die Suche kann auf Metadaten oder auf Volltextindizierung basieren.

Aus Wikipedia

Informationsextraktion (IE) ist die Aufgabe, strukturierte Informationen automatisch aus unstrukturierten und / oder halbstrukturierten maschinenlesbaren Dokumenten zu extrahieren. In den meisten Fällen betrifft diese Aktivität die Verarbeitung von Texten in menschlicher Sprache mittels Verarbeitung natürlicher Sprache (NLP). Jüngste Aktivitäten in der Verarbeitung multimedialer Dokumente wie die automatische Annotation und Extraktion von Inhalten aus Bildern / Audio / Video könnten als Informationsextraktion angesehen werden.

Welche Beziehungen und Unterschiede bestehen zwischen dem Abrufen von Informationen und dem Extrahieren von Informationen?

Vielen Dank!

data-mining natural-language-processing

— Tim
quelle

9

Information Retrieval wird auf einer Abfrage basiert - Sie angeben , welche Informationen die Sie benötigen , und es wird in der menschlichen verständlicher Form zurückgegeben.

Bei der Informationsextraktion geht es um die Strukturierung unstrukturierter Informationen. Bei einigen Quellen sind alle (relevanten) Informationen in einer Form strukturiert, die einfach zu verarbeiten ist. Dies muss nicht in verständlicher Form erfolgen - es kann nur für die Verwendung von Computerprogrammen verwendet werden.

Einige Quellen:

— Anton
quelle

7

http://gate.ac.uk/ie/ gibt eine sehr schöne, prägnante Unterscheidung:

Informationsextraktion ist kein Informationsabruf: Die Informationsextraktion unterscheidet sich von herkömmlichen Techniken darin, dass aus einer Sammlung keine Teilmenge von Dokumenten wiederhergestellt wird, die hoffentlich für eine Abfrage relevant sind, basierend auf der Suche nach Schlüsselwörtern (möglicherweise ergänzt durch einen Thesaurus). Stattdessen besteht das Ziel darin, aus den Dokumenten (die in einer Vielzahl von Sprachen vorliegen können) wichtige Fakten über vorgegebene Arten von Ereignissen, Entitäten oder Beziehungen zu extrahieren. Diese Fakten werden dann normalerweise automatisch in eine Datenbank eingegeben, die dann verwendet werden kann, um die Daten auf Trends zu analysieren, eine Zusammenfassung in natürlicher Sprache zu geben oder einfach für den Online-Zugriff zu dienen.

Um es bildlich auszudrücken:

Beim Abrufen von Informationen werden Sätze relevanter Dokumente abgerufen:

Informationsextraktion holt Fakten aus Dokumenten:

— Franck Dernoncourt
quelle

2

Vom Standpunkt der Modellierung aus ist das Abrufen von Informationen ein tiefes Feld, das auf verschiedenen Disziplinen basiert, darunter Statistik, Mathematik, Linguistik, künstliche Intelligenz und jetzt Datenwissenschaft. In der Praxis werden diese Modelle auf Text innerhalb von Korpora angewendet, um Muster in den Daten zu erkennen. Die IR-Modelle überschneiden sich nicht nur in ihrer Verwendung, sie können auch mit anderen Modellen wie k-means- oder k-next-neighbour-Modellen "zusammenarbeiten", sondern andere Modelle können aus der Sicht der Computerlinguistik wie LDA / LDI und angewendet werden Themenmodellierung Das Endspiel ist dann eine Art Informationsvisualisierung dieser Entdeckung - nach Rangfolge, Clustering und Aggregation der Arbeit. Das Abrufen von Informationen scheint eine kryptische Disziplin zu sein, aber ernsthafte Anstrengungen, die sehr geschätzt werden, wird den Bereich für ein tieferes Verständnis jedes Modells und die Interaktion zwischen Modellen öffnen. Ich zitiere die Reihe "Synthesis Lectures on Information Concepts, Retrieval and Services" als den besten Ort, um sich mit einer Grundlage für IR zu befassen.

Während ich IR und Informationsextraktion nicht vollständig voneinander trenne, wendet möglicherweise eine Teilmenge der IE-Extraktion auf Konzeptebene IR-Muster zusammen mit AI-basierten Inferenzregeln an, um verwandte Ontologien zu extrahieren. Die grafische Natur dieser Beziehungen wird durch die Ontologiemodellierung in OWL und RDF sowie durch Graphendatenbanken verbessert, die eine weniger strenge oder strenge Beziehungsmodellierung ermöglichen und mehr Beziehungen zur Oberfläche ermöglichen, anstatt per se gesteuert zu werden. Die Fähigkeit, die Informationsextraktion dynamisch auszubauen, hält ihre "Disziplin" für Forscher stark interessant.

Sowohl IR als auch IE spielen sich in unseren eigenen bedeutenden "Entitäten des Augenblicks" ab - einige haben "dynamische Ontologien" genannt - andere sind Palantir - wir benötigen die Muster, Modelle, Simulationen und Visualisierungen dieser bedeutenden Entitäten, um Geschäfte zu machen das Gesicht der Verwandlung neuer Informationsquellen und der Änderung bestehender Informationen. Die konzeptionelle, relationale, definitive, muster- und ontologische Modellierung muss flexibel sein und ihre Visualisierungen müssen gleich sein. Das starke Heben von KI-Engines wie Watson in den Bereichen Informationsextraktion und Inferenz hat die IE- und offen IR-Felder in den Mittelpunkt gerückt. Auch die Allgegenwart der Verarbeitung natürlicher Sprache und des maschinellen Lernens lenkt die Aufmerksamkeit auf IR- und IE-Modelle und -Motoren. Der Einfluss von IR-Modellen auf Suche und SEO sowie auf die Modellierung von Semantic Web ist einer davon. "

— MethodyM
quelle

1

Beim Abrufen von Informationen werden die Informationen zurückgegeben, die für eine bestimmte Abfrage oder ein bestimmtes Interessengebiet relevant sind. Beachten Sie, dass diese Informationen auch in Form allgemeiner Dokumente vorliegen können. Sicherlich sind Suchmaschinen ein bemerkenswertes Beispiel für eine solche Aufgabe. Ich würde sagen, dass die wichtigsten Entitäten, die für das Abrufen von Informationen erkennbar sind, der anfängliche Satz von Dokumenten / Informationen und die Abfrage sind, die angeben, wonach gesucht werden soll.

Andererseits geht es bei der Informationsextraktion eher darum, allgemeines Wissen (oder Beziehungen) aus einer Reihe von Dokumenten oder Informationen zu extrahieren (oder daraus abzuleiten). Beachten Sie, dass hier der gesamte Inhalt der Dokumente als ein ganzes Datenkorpus betrachtet werden kann, aus dem das Wissen extrahiert wird. Natürlich können Sie auch in diesem Fall irgendwie angeben, was Sie extrahieren möchten, aber es geht mehr um Eigenschaften / Beziehungen als um bestimmte Themen / Themen. Eigenschaften sind domänenspezifischer, während Beziehungen im Allgemeinen allgemeinere Szenarien abdecken.

Auch hier möchten Sie bei Suchmaschinen nach Websites suchen, die am wahrscheinlichsten Informationen zu diesem bestimmten Thema enthalten. Dies ist ein Beispiel für das Abrufen von Informationen .

Zur Informationsextraktion können Sie stattdessen beispielsweise alle Namen von Städten oder E-Mail-Adressen extrahieren, die in einem Korpus von Dokumenten enthalten sind. Sie könnten sogar viel allgemeiner vorgehen und einfach darum bitten, Wissen zu extrahieren. Wie Sie sehen, ist dies wirklich allgemein gehalten, aber es kann zum Beispiel erreicht werden, indem für jeden gültigen Satz eines Textes Drillinge der Form Subjekt-Aktions-Objekt erhalten werden (dies ist am besten für Texte in natürlicher Sprache geeignet).

Wenn Sie interessiert sind, werden diese (und andere) Themen im Kapitel Verarbeitung natürlicher Sprache des Buches Künstliche Intelligenz: Ein moderner Ansatz ausführlich erläutert .

— 5agado
quelle