Welche Möglichkeiten gibt es, Textdokumente (in natürlicher Sprache, unstrukturiert) mit semantischen Metadaten zu versehen? Betrachten Sie zum Beispiel ein kurzes Dokument:
I saw the company's manager last day.
Um Informationen daraus extrahieren zu können, müssen sie mit zusätzlichen Daten versehen werden, damit sie nicht mehr eindeutig sind. Das Auffinden solcher Metadaten ist nicht in Frage, nehmen wir also an, dass dies manuell erfolgt. Die Frage ist, wie diese Daten so gespeichert werden können, dass eine weitere Analyse bequemer und effizienter durchgeführt werden kann.
Ein möglicher Ansatz ist die Verwendung von XML-Tags (siehe unten), die jedoch zu ausführlich erscheinen. Vielleicht gibt es bessere Ansätze / Richtlinien zum Speichern solcher Metadaten in Textdokumenten.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.