Ich bezweifle, dass unbeaufsichtigt besser funktioniert, aber es könnte eine coole Übung sein, sie auszuprobieren. Unüberwachtes Lernen mit zufälligen Gesamtstrukturen erfolgt durch Erstellen einer gemeinsamen Verteilung auf der Grundlage Ihrer unabhängigen Variablen, die Ihre Daten grob beschreibt. Simulieren Sie dann eine bestimmte Anzahl von Beobachtungen mit dieser Verteilung. Wenn Sie beispielsweise 1000 Beobachtungen haben, können Sie 1000 weitere simulieren. Dann beschriften Sie sie, zB 1: = echte Beobachtung, 0: = simulierte Beobachtung. Danach führen Sie einen üblichen zufälligen Waldklassifikator aus, um die tatsächlichen Beobachtungen von den simulierten zu unterscheiden. Beachten Sie, dass die Option zum Berechnen der Nähe aktiviert sein muss. Die wirklich nützliche Ausgabe ist genau dies, eine Beschreibung der Nähe zwischen Ihren Beobachtungen basierend darauf, was Random Forest tut, wenn Sie versuchen, diese Bezeichnungen zuzuweisen. Sie haben jetzt eine Beschreibung, wie " Ich meine, Beobachtungen zusammenhalten, die näher als eine bestimmte Schwelle liegen. Eine weitere einfache Option ist das hierarchische Clustering unter Verwendung dieser speziellen Distanzmatrix. Wenn Sie mit R arbeiten können, können Sie mit den meisten hierarchischen Clustering-Paketen die benutzerdefinierten Distanzmatrizen der Funktionen füttern. Sie wählen dann einen Grenzpunkt aus, Sie können ihn als Dendrogramm usw. visualisieren. Ich meine, Beobachtungen zusammenhalten, die näher als eine bestimmte Schwelle liegen. Eine weitere einfache Option ist das hierarchische Clustering unter Verwendung dieser speziellen Distanzmatrix. Wenn Sie mit R arbeiten können, können Sie mit den meisten hierarchischen Clustering-Paketen die benutzerdefinierten Distanzmatrizen der Funktionen füttern. Sie wählen dann einen Grenzpunkt aus, Sie können ihn als Dendrogramm usw. visualisieren.
Dies war früher ein sehr gutes Tutorial zum Random Forest-Clustering und sie teilten einige nützliche R-Funktionen, die sie für diesen Zweck geschrieben hatten, aber der Link scheint jetzt tot zu sein. Vielleicht kommt es später wieder. Sie haben auch ein sehr ordentliches zufälliges glm R-Paket geschrieben (das analog zu zufälliger Gesamtstruktur ist, aber auf duh ... glms basiert), wenn Sie das überprüfen möchten. Sie können jederzeit an die Autoren schreiben und nach dem Material für die Random Forest-Klassifizierung fragen, das früher auf dem toten Link verfügbar war. Ich habe den R-Code, aber er ist zu groß, um ihn hier einzufügen. Ich kann ihn Ihnen senden, wenn Sie mir eine private Nachricht senden.