Ich trainiere eine logistische Regression, um vorherzusagen, welche Läufer am ehesten ein anstrengendes Langstreckenrennen beenden werden.
Sehr wenige Läufer absolvieren dieses Rennen, daher habe ich ein schweres Klassenungleichgewicht und eine kleine Auswahl an Erfolgen (vielleicht ein paar Dutzend). Ich habe das Gefühl, ich könnte ein gutes "Signal" von den Dutzenden von Läufern bekommen, die es fast geschafft haben. (Meine Trainingsdaten haben nicht nur den Abschluss, sondern auch, wie weit diejenigen, die nicht fertig waren, es tatsächlich geschafft haben.) Ich frage mich also, ob es eine schreckliche Idee ist, eine "Teilgutschrift" aufzunehmen oder nicht. Ich habe mir ein paar Funktionen für Teilkredite, die Rampe und die Logistikkurve ausgedacht, denen verschiedene Parameter zugewiesen werden konnten.
Der einzige Unterschied zur Regression wäre, dass ich Trainingsdaten verwenden würde, um das modifizierte, kontinuierliche Ergebnis anstelle eines binären Ergebnisses vorherzusagen . Beim Vergleich ihrer Vorhersagen auf einem Testsatz (unter Verwendung der binären Antwort) hatte ich ziemlich nicht schlüssige Ergebnisse - die logistische Teilgutschrift schien R-Quadrat, AUC, P / R geringfügig zu verbessern, aber dies war nur ein Versuch in einem Anwendungsfall unter Verwendung von a kleine Probe.
Es ist mir egal, ob die Vorhersagen einheitlich auf die Fertigstellung ausgerichtet sind - was mir wichtig ist, ist die korrekte Einstufung der Teilnehmer nach ihrer Wahrscheinlichkeit des Abschlusses oder vielleicht sogar die Schätzung ihrer relativen Wahrscheinlichkeit des Abschlusses.
Ich verstehe, dass die logistische Regression eine lineare Beziehung zwischen Prädiktoren und dem Protokoll des Odds Ratio voraussetzt, und offensichtlich hat dieses Verhältnis keine wirkliche Interpretation, wenn ich anfange, mit den Ergebnissen herumzuspielen. Ich bin mir sicher, dass dies aus theoretischer Sicht nicht klug ist, aber es könnte helfen, ein zusätzliches Signal zu erhalten und eine Überanpassung zu verhindern. (Ich habe fast so viele Prädiktoren wie Erfolge, daher kann es hilfreich sein, Beziehungen mit teilweiser Fertigstellung zu verwenden, um Beziehungen mit vollständiger Fertigstellung zu überprüfen.)
Wird dieser Ansatz jemals in verantwortungsbewusster Praxis angewendet?
Wie auch immer, gibt es andere Arten von Modellen (möglicherweise etwas, das die Gefährdungsrate explizit modelliert und über die Entfernung anstelle der Zeit angewendet wird), die für diese Art der Analyse besser geeignet sind?