Ich würde gerne wissen, wie man einen Datensatz, der aus gemischten Attributtypen besteht, am besten klassifiziert, z. B. in Textform und numerisch. Ich weiß, dass ich Text in Boolean konvertieren kann, aber der Wortschatz ist vielfältig und die Daten werden zu spärlich. Ich habe auch versucht, die Attributtypen separat zu klassifizieren und die Ergebnisse durch Meta-Lerntechniken zu kombinieren, aber es hat nicht gut funktioniert.
Principal Component Analysis
oderNon-Negative Matrix Factorization
wird die Anzahl der Variablen reduzieren, spärliche Daten anreichern und alle Variablen in quantitative umwandeln. Darüber hinaus kann der Frageautor bei der Bewertung der Qualität des Dimensionalitätsreduktionsmodells den Nutzen von Textvariablen abschätzen.