Als «model-selection» getaggte Fragen

Die Modellauswahl ist ein Problem bei der Beurteilung, welches Modell aus einem Satz am besten funktioniert. Beliebte Methoden sindR.2, AIC- und BIC-Kriterien, Testsätze und Kreuzvalidierung. In gewissem Maße ist die Merkmalsauswahl ein Teilproblem der Modellauswahl.


2
Bietet die schrittweise Regression eine voreingenommene Schätzung des R-Quadrats der Bevölkerung?
In der Psychologie und anderen Bereichen wird häufig eine Form der schrittweisen Regression angewendet, die Folgendes umfasst: Sehen Sie sich die verbleibenden Prädiktoren an (es gibt zunächst keine im Modell) und identifizieren Sie den Prädiktor, der zur größten Änderung des R-Quadrats führt. Wenn der p-Wert der Änderung des r-Quadrats kleiner …


2
Auswahl der Box-Jenkins-Modelle
Das Box-Jenkins-Modellauswahlverfahren in der Zeitreihenanalyse beginnt mit der Betrachtung der Autokorrelations- und der partiellen Autokorrelationsfunktion der Reihe. Diese Diagramme können das geeignete und in einem ARMA -Modell vorschlagen . Das Verfahren wird fortgesetzt, indem der Benutzer aufgefordert wird, die AIC / BIC-Kriterien anzuwenden, um das sparsamste Modell unter denjenigen auszuwählen, …

1
logloss vs gini / auc
Ich habe zwei Modelle trainiert (binäre Klassifikatoren mit h2o AutoML) und möchte eines zur Verwendung auswählen. Ich habe folgende Ergebnisse: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 Die Spalten aucund loglosssind die Kreuzvalidierungsmetriken (bei der Kreuzvalidierung …

4
Was ist der Sinn einer univariaten Regression vor einer multivariaten Regression?
Ich arbeite derzeit an einem Problem, bei dem es sich um einen kleinen Datensatz handelt und bei dem der Kausalitätseffekt einer Behandlung auf das Ergebnis von Interesse ist. Mein Berater hat mich angewiesen, eine univariate Regression für jeden Prädiktor mit dem Ergebnis als Antwort und dann der Behandlungszuweisung als Antwort …

2
Widersprüchliche Ansätze zur Variablenauswahl: AIC, p-Werte oder beides?
Soweit ich weiß, ist die Variablenauswahl basierend auf p-Werten (zumindest im Regressionskontext) stark fehlerhaft. Es sieht so aus, als ob die Variablenauswahl basierend auf AIC (oder ähnlichem) auch von einigen aus ähnlichen Gründen als fehlerhaft angesehen wird, obwohl dies ein wenig unklar erscheint (siehe z. B. meine Frage und einige …

2
Lineare vs. nichtlineare Regression
Ich habe eine Menge von Werten und y, die theoretisch exponentiell zusammenhängen:xxxyyy y=axby=axby = ax^b Eine Möglichkeit, die Koeffizienten zu erhalten, besteht darin, natürliche Logarithmen auf beiden Seiten anzuwenden und ein lineares Modell zu erstellen: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] Ein anderer Weg, …

2
Was sind Blocktests?
Als Antwort auf eine Frage zur Modellauswahl in Gegenwart von Multikollinearität schlug Frank Harrell vor : Fügen Sie alle Variablen in das Modell ein, testen Sie jedoch nicht die Auswirkung einer Variablen, die für die Auswirkung konkurrierender Variablen angepasst ist ... Blocktests konkurrierender Variablen sind sehr leistungsfähig, da kollineare Variablen …

2
Grundlegendes zum Bootstrapping für die Validierung und Modellauswahl
Ich denke, ich verstehe, wie die Grundlagen des Bootstrapping funktionieren, bin mir aber nicht sicher, wie ich das Bootstrapping zur Modellauswahl oder zur Vermeidung von Überanpassungen einsetzen kann. Würden Sie beispielsweise für die Modellauswahl nur das Modell auswählen, das den geringsten Fehler (möglicherweise die geringste Varianz?) In den Bootstrap-Beispielen ergibt? …

2
Verständnis AIC und Schwarz-Kriterium
Ich betreibe ein Logistikmodell. Der tatsächliche Modelldatensatz enthält mehr als 100 Variablen, aber ich wähle einen Testdatensatz aus, in dem sich etwa 25 Variablen befinden. Davor habe ich auch einen Datensatz mit 8-9 Variablen erstellt. Mir wurde gesagt, dass AIC- und SC-Werte verwendet werden können, um das Modell zu vergleichen. …

3
Verwenden von Informationsgeometrie zum Definieren von Abständen und Volumina… nützlich?
Ich stieß auf eine große Menge an Literatur, die sich dafür einsetzte, die Fisher-Informationsmetrik als natürliche lokale Metrik im Raum der Wahrscheinlichkeitsverteilungen zu verwenden und dann darüber zu integrieren, um Entfernungen und Volumina zu definieren. Aber sind diese "integrierten" Größen tatsächlich für irgendetwas nützlich? Ich fand keine theoretischen Gründe und …

2
Gibt es Umstände, unter denen schrittweise Regression angewendet werden sollte?
In der Vergangenheit war die schrittweise Regression in vielen biomedizinischen Veröffentlichungen überstrapaziert. Dies scheint sich jedoch durch eine bessere Aufklärung der zahlreichen Themen zu verbessern. Viele ältere Rezensenten fragen jedoch noch danach. Unter welchen Umständen spielt die schrittweise Regression eine Rolle und sollte gegebenenfalls angewendet werden?

1
Können Sie AIC-Werte vergleichen, solange die Modelle auf demselben Datensatz basieren?
Ich mache eine Prognose in R mit Rob Hyndmans Prognosepaket . Das zum Paket gehörende Papier finden Sie hier . In dem Artikel implementieren die Autoren die Algorithmen nach der Erläuterung der automatischen Vorhersagealgorithmen auf demselben Datensatz. Nach der Schätzung eines exponentiellen Glättungsmodells und eines ARIMA-Modells geben sie jedoch eine …

1
Interaktionsterme und Polynome höherer Ordnung
Wenn ich daran interessiert wäre, wechselseitige Wechselwirkungen zwischen einer linearen erklärenden Variablen und einer anderen erklärenden Variablen , die eine quadratische Beziehung zur abhängigen Variablen , , müsste ich sowohl die Wechselwirkung mit der quadratischen Komponente als auch die Wechselwirkung mit der linearen Komponente einbeziehen Komponente im Modell? Beispiel: Aufbauend …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.