Auf Kosten einer zu starken Vereinfachung sind latente Merkmale "verborgene" Merkmale, um sie von beobachteten Merkmalen zu unterscheiden. Latente Merkmale werden aus beobachteten Merkmalen unter Verwendung der Matrixfaktorisierung berechnet. Ein Beispiel wäre die Analyse von Textdokumenten. 'Wörter', die aus den Dokumenten extrahiert wurden, sind Merkmale. Wenn Sie die Daten von Wörtern faktorisieren, finden Sie "Themen", wobei "Thema" eine Gruppe von Wörtern mit semantischer Relevanz ist. Die Matrixfaktorisierung mit niedrigem Rang ordnet mehrere Zeilen (beobachtete Merkmale) einer kleineren Gruppe von Zeilen (latente Merkmale) zu. In diesem Dokument könnten Merkmale (Wörter) wie [Segelboot, Schoner, Jacht, Dampfer, Kreuzer] beobachtet worden sein, die zu latenten Merkmalen (Themen) wie "Schiff" und "Boot" "faktorisieren" würden.
[Segelboot, Schoner, Jacht, Dampfer, Kreuzer, ...] -> [Schiff, Boot]
Der Grundgedanke ist, dass latente Merkmale semantisch relevante „Aggregate“ beobachteter Merkmale sind. Wenn Sie über große, hochdimensionale und verrauschte beobachtete Features verfügen, ist es sinnvoll, Ihren Klassifikator auf latenten Features aufzubauen.
Dies ist natürlich eine vereinfachte Beschreibung, um das Konzept zu erläutern. Sie können die Details zu Latent Dirichlet Allocation (LDA) - oder probabilistischen Latent Semantic Analysis (pLSA) -Modellen lesen, um eine genaue Beschreibung zu erhalten.