In der biomedizinischen Forschung wird in der Regel kein Trainingssatz verwendet. Wir wenden lediglich eine logistische Regression auf den gesamten Datensatz an, um zu ermitteln, welche Prädiktoren wichtige Risikofaktoren für das angestrebte Ergebnis sind. oder einen interessierenden Prädiktor zu betrachten, während die Auswirkung anderer möglicher Prädiktoren auf das Ergebnis kontrolliert wird.
Ich bin mir nicht sicher, was Sie unter Schwellenwerten verstehen, aber es gibt verschiedene Parameter, die optimiert werden sollten: AUC, Grenzwerte für eine Dichotomisierung einer kontinuierlichen Prädiktorvariablen, positive und negative prädiktive Werte, Konfidenzintervalle und p-Werte, falsch positive und falsch negative Raten. Die logistische Regression untersucht eine Population von Subjekten und bewertet die Stärke und die Kausalrichtung von Risikofaktoren, die zum Ergebnis des Interesses an dieser Population beitragen. Es ist auch möglich, sozusagen "rückwärts" zu verfahren und das Risiko einer Person für das Ergebnis zu bestimmen, wenn die Risikofaktoren der Person gegeben sind. Die logistische Regression weist jedem Individuum auf der Grundlage seiner individuellen Risikofaktoren ein Risiko des Ergebnisses zu. Standardmäßig beträgt dieses 0,5. Wenn ein Thema ' s Die Wahrscheinlichkeit, dass das Ergebnis (basierend auf allen Daten und Probanden in Ihrem Modell) erreicht wird, beträgt 0,5 oder mehr. Dies sagt voraus, dass er das Ergebnis haben wird. Wenn er unter 0,5 liegt, sagt er dies voraus. Sie können diesen Grenzwert jedoch anpassen, um beispielsweise mehr Personen zu kennzeichnen, bei denen möglicherweise das Risiko besteht, dass das Ergebnis erzielt wird, auch wenn das Modell mehr falsch-positive Ergebnisse vorhersagt. Sie können diesen Grenzwert anpassen, um die Auswahlentscheidungen zu optimieren, um beispielsweise vorherzusagen, welchen Personen eine weitere medizinische Nachsorge empfohlen wird. und um Ihren positiven Vorhersagewert, den negativen Vorhersagewert und die falsch-negativen und falsch-positiven Raten für einen auf dem logistischen Regressionsmodell basierenden Screening-Test zu berechnen. Sie können das Modell auf der Hälfte Ihres Datensatzes entwickeln und auf der anderen Hälfte testen, aber Sie tun es nicht. Das muss nicht unbedingt sein (und dies halbiert Ihre Trainingsdaten und reduziert somit die Fähigkeit, signifikante Prädiktoren im Modell zu finden). Also ja, Sie können "das Ganze von Ende zu Ende trainieren". Natürlich möchten Sie in der biomedizinischen Forschung eine Validierung an einer anderen Population, einem anderen Datensatz, vornehmen, bevor Sie sagen, dass Ihre Ergebnisse auf eine breitere Population verallgemeinert werden können. Ein anderer Ansatz besteht darin, einen Bootstrapping-Ansatz zu verwenden, bei dem Sie Ihr Modell anhand einer Teilstichprobe Ihrer Studienpopulation ausführen, diese Probanden dann wieder in den Pool zurücksetzen und mit einer anderen Stichprobe viele Male (normalerweise 1000 Mal) wiederholen. Wenn Sie die meiste Zeit (z. B. 95% der Zeit) signifikante Ergebnisse erzielen, kann Ihr Modell als validiert angesehen werden - zumindest anhand Ihrer eigenen Daten. Aber auch hier gilt, je kleiner die Studienpopulation ist, auf der Sie Ihr Modell ausführen. desto unwahrscheinlicher wird es sein, dass einige Prädiktoren statistisch signifikante Risikofaktoren für das Ergebnis sind. Dies gilt insbesondere für biomedizinische Studien mit einer begrenzten Teilnehmerzahl.
Die Hälfte Ihrer Daten zu verwenden, um Ihr Modell zu "trainieren" und es dann auf der anderen Hälfte zu "validieren", ist eine unnötige Belastung. Sie tun dies nicht für T-Tests oder lineare Regression. Warum also für logistische Regression? Das Beste ist, dass Sie sagen: "Ja, es funktioniert". Wenn Sie jedoch Ihren vollständigen Datensatz verwenden, stellen Sie dies trotzdem fest. Das Aufteilen Ihrer Daten in kleinere Datensätze birgt das Risiko, dass keine signifikanten Risikofaktoren in der Studienpopulation (ODER der Validierungspopulation) erkannt werden, wenn sie tatsächlich vorhanden sind, da die Stichprobengröße zu klein ist, zu viele Prädiktoren für Ihre Studiengröße vorhanden sind und die Möglichkeit besteht dass Ihr "Validierungsmuster" keine zufälligen Assoziationen aufzeigt. Die Logik hinter dem Ansatz "Trainieren, dann validieren" scheint zu sein, dass, wenn die von Ihnen als signifikant identifizierten Risikofaktoren nicht stark genug sind, dann sind sie statistisch nicht signifikant, wenn sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten modelliert werden. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Es ist nicht statistisch signifikant, wenn Sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten ein Modell erstellen. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Es ist nicht statistisch signifikant, wenn Sie anhand einer zufällig ausgewählten Hälfte Ihrer Daten ein Modell erstellen. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. Diese zufällig ausgewählte Stichprobe zeigt jedoch möglicherweise nicht zufällig einen Zusammenhang oder ist zu klein, als dass der oder die Risikofaktoren statistisch signifikant wären. Es ist jedoch die Größe der Risikofaktoren UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen. Aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. s die Größe des Risikofaktors (der Risikofaktoren) UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen, und aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell mit zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung. s die Größe des Risikofaktors (der Risikofaktoren) UND ihre statistische Signifikanz, die ihre Bedeutung bestimmen, und aus diesem Grund ist es am besten, Ihren vollständigen Datensatz zu verwenden, um Ihr Modell mit zu erstellen. Die statistische Signifikanz wird bei kleineren Stichproben an Bedeutung verlieren, wie dies bei den meisten statistischen Tests der Fall ist. Logistische Regression ist eine Kunst, die beinahe so viel kostet wie statistische Wissenschaft. Abhängig von Ihrem Studiendesign gibt es verschiedene Ansätze und verschiedene Parameter zur Optimierung.