Als «model-selection» getaggte Fragen

Die Modellauswahl ist ein Problem bei der Beurteilung, welches Modell aus einem Satz am besten funktioniert. Beliebte Methoden sindR.2, AIC- und BIC-Kriterien, Testsätze und Kreuzvalidierung. In gewissem Maße ist die Merkmalsauswahl ein Teilproblem der Modellauswahl.

1
Wie erstelle ich das endgültige Modell und optimiere den Wahrscheinlichkeitsschwellenwert nach einer verschachtelten Kreuzvalidierung?
Erstens, Entschuldigung für das Posten einer Frage, die hier , hier , hier , hier , hier bereits ausführlich besprochen wurde, und zum Aufwärmen eines alten Themas. Ich weiß, dass @DikranMarsupial ausführlich über dieses Thema in Beiträgen und Fachzeitschriften geschrieben hat, aber ich bin immer noch verwirrt, und der Anzahl …

2
Ist die Verwendung der Korrelationsmatrix zur Auswahl der Prädiktoren für die Regression korrekt?
Vor ein paar Tagen erzählte mir ein Psychologe und Forscher von seiner Methode zur Auswahl von Variablen für ein lineares Regressionsmodell. Ich denke, es ist nicht gut, aber ich muss jemanden fragen, um sicherzugehen. Die Methode ist: Betrachten Sie die Korrelationsmatrix zwischen allen Variablen (einschließlich der abhängigen Variablen Y) und …


1
Ist die private Bestenliste von Kaggle ein guter Indikator für die Out-of-Sample-Leistung des Gewinnermodells?
Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen? Laut "Pseudomathematik und Finanzscharlatanismus: Die …


7
Was ist die Definition von "best", wie sie im Begriff "best fit" und Kreuzvalidierung verwendet wird?
Wenn Sie eine nichtlineare Funktion an eine Menge von Punkten anpassen (vorausgesetzt, es gibt nur eine Ordinate für jede Abszisse), kann das Ergebnis entweder sein: eine sehr komplexe Funktion mit kleinen Residuen eine sehr einfache Funktion mit großen Residuen Kreuzvalidierung wird häufig verwendet, um den "besten" Kompromiss zwischen diesen beiden …


5
Kann ich Koeffizienten für nicht signifikante Faktorstufen in einem linearen Modell ignorieren?
Nachdem ich hier die linearen Modellkoeffizienten geklärt habe, habe ich eine weitere Frage bezüglich der Nicht-Signifikanz (hoher p-Wert) für Koeffizienten von Faktorstufen. Beispiel: Wenn mein lineares Modell einen Faktor mit 10 Stufen enthält und nur 3 dieser Stufen mit signifikanten p-Werten verknüpft sind, kann ich bei Verwendung des Modells zur …



3
Auswahl des optimalen K für KNN
Ich habe einen 5-fachen Lebenslauf durchgeführt, um das optimale K für KNN auszuwählen. Und es scheint, je größer K wird, desto kleiner wird der Fehler ... Es tut mir leid, dass ich keine Legende hatte, aber die verschiedenen Farben repräsentieren verschiedene Versuche. Insgesamt gibt es 5, und es scheint, als …


4
Optimale Elfmeterauswahl für Lasso
Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? ℓ1ℓ1\ell_1Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es oft unpraktisch ist, den Parameter durch Kreuzvalidierung oder Bootstrap zu …

1
Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.