Ich baue ein Vorhersagemodell auf, das die Erfolgswahrscheinlichkeit eines Schülers am Ende eines Semesters vorhersagt. Ich bin speziell daran interessiert, ob der Student erfolgreich ist oder nicht, wobei Erfolg in der Regel als Abschluss des Kurses und Erreichen von 70% oder mehr der insgesamt möglichen Punkte definiert wird.
Wenn ich das Modell einsetze, muss die Schätzung der Erfolgswahrscheinlichkeit im Laufe der Zeit aktualisiert werden, sobald weitere Informationen verfügbar sind - idealerweise unmittelbar nach dem Eintreten eines Ereignisses, wenn ein Schüler eine Aufgabe einreicht oder eine Note für eine Aufgabe erhält. Diese Aktualisierung klingt für mich nach Bayes, aber angesichts meiner Ausbildung in Bildungsstatistik liegt sie etwas außerhalb meiner Komfortzone.
Bisher habe ich die logistische Regression (eigentlich Lasso) mit einem historischen Datensatz verwendet, der wochenbasierte Schnappschüsse enthält. Dieser Datensatz hat Beobachtungen korreliert, da jeder Schüler Beobachtungen mit ; Beobachtungen für einen Schüler sind korreliert. Ich modelliere nicht speziell die Korrelation innerhalb der wöchentlichen Beobachtungen eines bestimmten Schülers. Ich glaube, das müsste ich nur in einer inferentiellen Umgebung berücksichtigen, da Standardfehler zu klein wären. Ich denke, aber ich bin mir nicht sicher, dass das einzige Problem, das sich aus den korrelierten Beobachtungen ergibt, darin besteht, dass ich vorsichtig sein muss, wenn ich eine Kreuzvalidierung durchführe, um gruppierte Beobachtungen in einer Teilmenge der Daten zu behalten, damit ich sie nicht bekomme Künstlich niedrige Fehlerraten außerhalb der Stichprobe basierend auf Vorhersagen über eine Person, die das Modell bereits gesehen hat.
Ich verwende das glmnet-Paket von R , um ein Lasso mit einem logistischen Modell zu erstellen , um eine Wahrscheinlichkeit für Erfolg / Misserfolg zu generieren und automatisch Prädiktoren für einen bestimmten Kurs auszuwählen. Ich habe die Variable week als Faktor verwendet und mit allen anderen Prädiktoren interagiert. Ich denke nicht, dass dies im Allgemeinen von der Schätzung einzelner wochenbasierter Modelle abweicht, außer dass es eine Vorstellung davon gibt, wie es ein gemeinsames Modell geben kann, das während der Laufzeit gültig ist und über verschiedene Risikoanpassungsfaktoren zu verschiedenen Wochen angepasst wird.
Meine Hauptfrage lautet: Gibt es eine bessere Möglichkeit, die Klassifizierungswahrscheinlichkeiten im Zeitverlauf zu aktualisieren, als nur den Datensatz in wöchentliche (oder andere intervallbasierte) Schnappschüsse aufzuteilen, indem eine mit jedem anderen Feature interagierende Variable für den Zeitraumfaktor eingeführt wird, und Verwenden von kumulativen Funktionen (kumulierte Punkte, kumulierte Unterrichtstage usw.)?
Meine zweite Frage lautet: Fehlt mir hier etwas Kritisches zur prädiktiven Modellierung mit korrelierten Beobachtungen?
Meine dritte Frage lautet: Wie kann ich dies auf eine Echtzeitaktualisierung verallgemeinern, wenn ich wöchentliche Schnappschüsse mache? Ich plane, nur Variablen für das aktuelle wöchentliche Intervall einzufügen, aber das scheint mir kludgey.
Zu Ihrer Information, ich bin in angewandten pädagogischen Statistiken ausgebildet, habe aber einen Hintergrund in mathematischen Statistiken von vor langer Zeit. Ich kann etwas raffinierteres tun, wenn es Sinn macht, aber ich muss es in relativ zugänglichen Begriffen erklären.