Ich möchte nichtatomare Daten als Merkmal für eine Vorhersage verwenden. Angenommen, ich habe eine Tabelle mit folgenden Funktionen:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
Ich möchte zum Beispiel Spalte 2 vorhersagen / klassifizieren.
Ich mache etwas, um automatisch auf Fragen zu antworten, jede Art von Frage, wie "Wo wurde Foo geboren?" ...
Ich stelle zuerst eine Abfrage an eine Suchmaschine, erhalte dann einige Textdaten als Ergebnis und erledige dann das gesamte Parsing (Tagging, Stemming, Parsing, Splitting ...).
Mein erster Ansatz war es, eine Tabelle zu erstellen, jede Zeile mit einer Textzeile und vielen Funktionen wie "Erstes Wort", "Tag des ersten Wortes", "Chunks" usw.
Aber bei diesem Ansatz fehlen mir die Beziehungen zwischen den Sätzen.
Ich würde gerne wissen, ob es einen Algorithmus gibt, der in die Baumstrukturen (oder Vektoren) schaut und die Beziehungen herstellt und alles extrahiert, was für die Vorhersage / Klassifizierung relevant ist. Ich würde lieber etwas über eine Bibliothek wissen, die das macht, als über einen Algorithmus, den ich implementieren muss.