Ich verwende LOESS-Regressionsmodelle in R und möchte die Ausgaben von 12 verschiedenen Modellen mit unterschiedlichen Stichprobengrößen vergleichen. Ich kann die tatsächlichen Modelle detaillierter beschreiben, wenn dies bei der Beantwortung der Frage hilfreich ist.
Hier sind die Stichprobengrößen:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Das LOESS-Regressionsmodell ist eine Oberflächenanpassung, bei der die X-Position und die Y-Position jedes Baseballfelds verwendet werden, um die Wahrscheinlichkeit eines Swinging-Strikes vorherzusagen. Ich möchte jedoch alle 12 dieser Modelle vergleichen, aber die Einstellung derselben Spanne (dh Spanne = 0,5) führt zu unterschiedlichen Ergebnissen, da es einen so großen Bereich an Stichprobengrößen gibt.
Meine grundlegende Frage ist, wie bestimmen Sie die Spannweite Ihres Modells? Eine höhere Spanne glättet die Anpassung stärker, während eine niedrigere Spanne mehr Trends erfasst, bei zu geringen Daten jedoch statistisches Rauschen erzeugt. Ich verwende eine höhere Spanne für kleinere Stichprobengrößen und eine niedrigere Spanne für größere Stichprobengrößen.
Was sollte ich tun? Was ist eine gute Faustregel beim Festlegen der Spanne für LOESS-Regressionsmodelle in R? Danke im Voraus!