Ich würde gerne wissen, wie man einen Datensatz, der aus gemischten Attributtypen besteht, am besten klassifiziert, z. B. in Textform und numerisch. Ich weiß, dass ich Text in Boolean konvertieren kann, aber der Wortschatz ist vielfältig und die Daten werden zu spärlich. Ich habe auch versucht, die Attributtypen separat zu klassifizieren und die Ergebnisse durch Meta-Lerntechniken zu kombinieren, aber es hat nicht gut funktioniert.
Principal Component AnalysisoderNon-Negative Matrix Factorizationwird die Anzahl der Variablen reduzieren, spärliche Daten anreichern und alle Variablen in quantitative umwandeln. Darüber hinaus kann der Frageautor bei der Bewertung der Qualität des Dimensionalitätsreduktionsmodells den Nutzen von Textvariablen abschätzen.