Ich versuche, den Erfolg oder Misserfolg von Schülern anhand einiger Funktionen mit einem logistischen Regressionsmodell vorherzusagen. Um die Leistung des Modells zu verbessern, habe ich bereits darüber nachgedacht, die Schüler anhand offensichtlicher Unterschiede in verschiedene Gruppen aufzuteilen und für jede Gruppe separate Modelle zu erstellen. Aber ich denke, es könnte schwierig sein, diese Gruppen durch Prüfung zu identifizieren, deshalb dachte ich daran, die Schüler aufzuteilen, indem ich ihre Merkmale zusammenfasse. Ist dies eine gängige Praxis beim Aufbau solcher Modelle? Würden Sie vorschlagen, dass ich es in offensichtliche Gruppen aufteile (z. B. Erstsemester vs. zurückkehrende Studenten) und dann Clustering für diese Gruppen oder Cluster von Anfang an durchführe?
Um zu versuchen zu klären:Was ich damit meine ist, dass ich erwäge, einen Clustering-Algorithmus zu verwenden, um meinen Trainingssatz für die logistische Regression in Gruppen aufzuteilen. Ich würde dann separate logistische Regressionen für jede dieser Gruppen durchführen. Wenn ich dann die logistische Regression verwende, um das Ergebnis für einen Schüler vorherzusagen, würde ich anhand der Gruppe, in die er am besten passt, auswählen, welches Modell verwendet werden soll.
Vielleicht könnte ich das Gleiche tun, indem ich eine Gruppenkennung einfüge, zum Beispiel eine 1, wenn der Schüler zurückkehrt, und eine 0, wenn nicht.
Jetzt habe ich darüber nachgedacht, ob es vorteilhaft sein könnte, den Trainingsdatensatz zu gruppieren und die Clusterbezeichnung als Merkmal in der logistischen Regression zu verwenden, anstatt separate logistische Regressionsmodelle für jede Population zu erstellen.
Wenn es nützlich ist, eine Gruppen-ID für diejenigen anzugeben, die Schüler gegen neue Schüler zurückgeben, kann es auch nützlich sein, die Liste der Gruppen zu erweitern? Clustering scheint ein natürlicher Weg zu sein, dies zu tun.
Ich hoffe das ist klar ...