Als «model-selection» getaggte Fragen

Die Modellauswahl ist ein Problem bei der Beurteilung, welches Modell aus einem Satz am besten funktioniert. Beliebte Methoden sindR.2, AIC- und BIC-Kriterien, Testsätze und Kreuzvalidierung. In gewissem Maße ist die Merkmalsauswahl ein Teilproblem der Modellauswahl.

4
Reduzieren der Anzahl von Variablen in einer multiplen Regression
Ich habe einen großen Datensatz, der aus den Werten mehrerer hundert Finanzvariablen besteht, die in einer multiplen Regression verwendet werden könnten, um das Verhalten eines Indexfonds im Zeitverlauf vorherzusagen. Ich möchte die Anzahl der Variablen auf etwa zehn reduzieren und dabei so viel Vorhersagekraft wie möglich behalten. Hinzugefügt: Die reduzierte …


2
In welcher Einstellung würden Sie erwarten, dass sich das von LARS gefundene Modell am meisten von dem durch umfassende Suche gefundenen Modell unterscheidet?
Ein bisschen mehr Infos; nehme an, dass Sie wissen vorher, wie viele Variablen Sie auswählen müssen und dass Sie die Komplexitätsstrafe in der LARS-Prozedur festlegen, um genau so viele Variablen mit Koeffizienten ungleich 0 zu haben. Berechnungskosten sind kein Problem (die Gesamtzahl der Variablen ist gering, sagen wir 50). dass …

2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
Berechnung der besten Teilmenge von Prädiktoren für die lineare Regression
Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das …


1
Modellbau: Wie baue ich ein aussagekräftiges Spielmodell? (verallgemeinertes additives Modell)
Ich habe gesehen, dass es verschiedene Fragen bezüglich der Interpretation und Konstruktion von Gams gibt, was die Schwierigkeit für Nicht-Statistiker zu veranschaulichen scheint, mit diesen umzugehen. Leider konnte ich aus keinem der von mir gelesenen Threads oder Tutorials ein klares Verständnis dafür gewinnen, wie man ein aussagekräftiges Modell erstellt. Derzeit …



4
Auswahl eines Regressionsmodells
Wie kann man objektiv ("algorithmisch" gelesen) ein geeignetes Modell für eine einfache lineare Regression der kleinsten Quadrate mit zwei Variablen auswählen? Angenommen, die Daten scheinen einen quadratischen Trend zu zeigen, und es wird eine Parabel generiert, die recht gut zu den Daten passt. Wie rechtfertigen wir es, dies zur Regression …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Auswählen einer Klassifizierungsleistungsmetrik für die Modellauswahl, Merkmalsauswahl und Veröffentlichung
Ich habe einen kleinen, unausgeglichenen Datensatz (70 positiv, 30 negativ) und habe mit der Modellauswahl für SVM-Parameter unter Verwendung von BAC (ausgeglichene Genauigkeit) und AUC (Bereich unter der Kurve) herumgespielt. Ich habe verschiedene Klassengewichte für den C-Parameter in libSVM verwendet, um die unausgeglichenen Daten gemäß den hier angegebenen Anweisungen auszugleichen …

2
Umgang mit guten Leistungen bei Trainings- und Validierungsdaten, aber sehr schlechten Leistungen bei Testdaten
Ich habe ein Regressionsproblem mit 5-6k Variablen. Ich teile meine Daten in 3 nicht überlappende Sätze ein: Training, Validierung und Testen. Ich trainiere nur mit dem Trainingssatz und generiere viele verschiedene lineare Regressionsmodelle, indem ich für jedes Modell einen anderen Satz von 200 Variablen auswähle (ich versuche ungefähr 100.000 solcher …

1
Vollständig Bayesianische Hyperparameterauswahl in GPML
Ist es möglich, mit dem GPML-Code eine ungefähre vollständige Bayes'sche (1) Auswahl von Hyperparametern (z. B. Kovarianzskala) durchzuführen, anstatt die Grenzwahrscheinlichkeit zu maximieren (2)? Ich denke, die Verwendung von MCMC-Methoden zur Lösung der Integrale mit Hyperparametern sollte zu besseren Ergebnissen führen, wenn es um Überanpassung geht. Meines Wissens enthält das …

1
Ausgelassene Kreuzvalidierung: Relativ unvoreingenommene Schätzung der Generalisierungsleistung?
Ich habe gelesen, dass eine ausgelassene Kreuzvalidierung eine relativ „unvoreingenommene Schätzung der tatsächlichen Generalisierungsleistung“ liefert (z. B. hier ) und dass dies eine vorteilhafte Eigenschaft des ausgelassenen Lebenslaufs ist. Ich sehe jedoch nicht, wie sich dies aus den Eigenschaften eines ausgelassenen Lebenslaufs ergibt. Warum ist die Tendenz dieses Schätzers im …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.