Als «model-selection» getaggte Fragen

Die Modellauswahl ist ein Problem bei der Beurteilung, welches Modell aus einem Satz am besten funktioniert. Beliebte Methoden sindR.2, AIC- und BIC-Kriterien, Testsätze und Kreuzvalidierung. In gewissem Maße ist die Merkmalsauswahl ein Teilproblem der Modellauswahl.

1
Ausgelassene variable Verzerrung bei linearer Regression
Ich habe eine philosophische Frage bezüglich der ausgelassenen variablen Verzerrung. Wir haben das typische Regressionsmodell (Populationsmodell) dem die Stichproben stammen , und dann eine Reihe von Bedingungen, unter denen sich die OLS-Schätzungen recht gut verhalten.Y=β0+β1X1+...+βnXn+υ,Y=β0+β1X1+...+βnXn+υ, Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon, (Y,X1,...,Xn)(Y,X1,...,Xn)(Y,X_1,...,X_n) Dann wissen wir, dass, …

3
Kann ich eine umfassende Suche mit Kreuzvalidierung für die Funktionsauswahl durchführen?
Ich habe einige Beiträge zur Funktionsauswahl und Kreuzvalidierung gelesen, habe aber noch Fragen zum richtigen Verfahren. Angenommen, ich habe einen Datensatz mit 10 Funktionen und möchte die besten Funktionen auswählen. Angenommen, ich verwende einen Klassifikator für den nächsten Nachbarn. Kann ich mithilfe der Kreuzvalidierung eine umfassende Suche durchführen, um die …

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

1
Wie nennt man diese dynamische Auswahlstrategie für die Stichprobengröße?
Stellen Sie sich vor, Sie möchten die Komprimierbarkeit eines großen Dokuments sehr schnell beurteilen. Sie können eine Teilsequenz zufällig auswählen und versuchen, sie zu komprimieren. Dies kann als Vorhersage für die Gesamtkomprimierbarkeit des Dokuments dienen. Aber wie groß sollte Ihre Stichprobe sein? Wir haben folgende Strategie entwickelt: Wählen Sie eine …



1
Genauer Unterschied zwischen zweiteiligen Modellen (z. B. Cragg) und Tobit Typ 2-Modellen (z. B. Heckman)
Ich möchte eine Regression durchführen, bei der der DV die Höhe der von Startups erhaltenen Mittel (in USD) ist. Natürlich enthält der DV viele Nullen (~ 55%) und hat eine kontinuierliche Verteilung für y> 0. Im Allgemeinen verstehe ich, dass das Tobit-Modell (oder eine Variation davon) für die Modellierung dieses …

1
Kreuzvalidierung für elastische Netzregression: Quadratischer Fehler vs. Korrelation auf dem Testsatz
Betrachten Sie die elastische Netzregression mit einer glmnetähnlichen Parametrisierung der VerlustfunktionIch habe einen Datensatz mit n \ ll p (44 bzw. 3000) und verwende eine wiederholte 11-fache Kreuzvalidierung, um die optimalen Regularisierungsparameter \ alpha und \ lambda auszuwählen . Normalerweise würde ich einen quadratischen Fehler als Leistungsmetrik für den Testsatz …

2
Wird das Testen von Modellannahmen als P-Hacking / Fischen angesehen?
"P-Hacking", "Fischen" und "Garten der Gabelpfade", wie hier und hier erläutert , beschreiben einen explorativen Datenanalyse-ähnlichen Forschungsstil, der voreingenommene Schätzungen liefert. Wird das Testen von Modellannahmen (z. B. Normalität, Homoskedastizität in der Regression) unter Verwendung statistischer Tests für denselben Datensatz, der zur Anpassung an das Modell verwendet wird, als "p-Hacking" …

1
Ist eine auf einem vollständigen (globalen) Regressionsmodell basierende Inferenz angemessen?
Ist eine Schlussfolgerung auf der Grundlage eines vollständigen Modells angemessen und wenn ja, unter welchen Umständen? Angenommen, Sie interessieren sich für die mögliche Beziehung zwischen einer Antwortvariablen und mehreren Kandidaten-Prädiktorvariablen und verwenden eine Form der Regression (z. B. ein verallgemeinertes lineares Modell), um dies zu beantworten. Ein Ansatz, um zu …


1
AIC versus Likelihood Ratio Test bei der Auswahl von Modellvariablen
Die Software, die ich derzeit zum Erstellen eines Modells verwende, vergleicht ein "aktuelles Lauf" -Modell mit einem "Referenzmodell" und meldet (falls zutreffend) sowohl einen Chi-Quadrat-p-Wert basierend auf Likelihood-Ratio-Tests als auch AIC-Werte für jedes Modell. Ich weiß, dass ein Vorteil von AIC gegenüber Likelihood-Ratio-Tests darin besteht, dass AIC mit nicht verschachtelten …

1
Wie kann man entscheiden, welche Interaktionsterme in ein multiples Regressionsmodell aufgenommen werden sollen?
Ich versuche, mit R ein multiples Regressionsmodell zu erstellen. Ich habe eine Reihe von Prädiktorvariablen. Ich habe einige grundlegende Domänenkenntnisse, für die ich versuche, das Modell zu erstellen. Zunächst habe ich einige Prädiktorvariablen basierend auf Domänenwissen und hohen Korrelationskoeffizienten mit der Antwortvariablen aufgenommen, während einige andere Prädiktoren aufgrund der Multikollinearität …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.