Ich habe einen Datensatz mit Textfragmenten mit einer festen Struktur, die Parameter enthalten kann. Beispiele sind:
Temperature today is 20 centigrades
Temperature today is 28 centigrades
oder
Her eyes are blue and hair black.
Her eyes are green and hair brown.
Das erste Beispiel zeigt eine Vorlage mit einem numerischen Parameter. Die zweite ist eine Vorlage mit zwei Faktorparametern.
Die Anzahl der Vorlagen und die Anzahl der Parameter ist nicht bekannt.
Das Problem besteht darin, die Vorlagen zu identifizieren und jedes Textfragment der entsprechenden Vorlage zuzuweisen.
Die naheliegende erste Idee ist die Verwendung von Clustering. Das Abstandsmaß ist als eine Anzahl nicht übereinstimmender Wörter definiert. Das heißt, die Datensätze in Beispiel 1 haben Abstand 1, in Beispiel 2 beträgt Abstand 2. Der Abstand zwischen dem Datensatz in Beispiel 1 und 2 beträgt 7. Dieser Ansatz funktioniert einwandfrei, vorausgesetzt, die Anzahl der Cluster ist bekannt, was nicht der Fall ist es ist nicht nützlich.
Ich kann mir einen programmatischen Ansatz vorstellen, bei dem die Entfernungsmatrix nach Datensätzen mit vielen Nachbarn in Entfernung 1 (oder 2,3, ..) durchsucht wird, aber ich bin gespannt, ob ich einen unbeaufsichtigten Algorithmus für maschinelles Lernen anwenden kann, um das Problem zu lösen. R ist bevorzugt, aber nicht erforderlich.