Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.


1
Warum gehen Informationen über die Validierungsdaten verloren, wenn ich beim Optimieren von Hyperparametern die Modellleistung anhand von Validierungsdaten bewerte?
In François Chollets Deep Learning with Python heißt es: Infolgedessen kann das Optimieren der Konfiguration des Modells basierend auf seiner Leistung im Validierungssatz schnell zu einer Überanpassung an den Validierungssatz führen, obwohl Ihr Modell niemals direkt darauf trainiert wird. Zentral für dieses Phänomen ist der Begriff der Informationslecks. Jedes Mal, …


1
Welches Deep-Learning-Modell kann Kategorien klassifizieren, die sich nicht gegenseitig ausschließen?
Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Ist es tatsächlich in Ordnung, vor der Kreuzvalidierung eine unbeaufsichtigte Funktionsauswahl durchzuführen?
In den Elementen des statistischen Lernens habe ich die folgende Aussage gefunden: Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden. Zum Beispiel könnten wir die 1000 Prädiktoren mit der höchsten Varianz über alle 50 Stichproben auswählen, bevor wir mit der Kreuzvalidierung beginnen. Da …

2
Sollten wir immer einen Lebenslauf machen?
Meine Frage: Soll ich auch für einen relativ großen Datensatz einen Lebenslauf machen? Ich habe einen relativ großen Datensatz und werde einen Algorithmus für maschinelles Lernen auf den Datensatz anwenden. Da mein PC nicht schnell ist, dauert der Lebenslauf (und die Rastersuche) manchmal zu lange. Insbesondere endet eine SVM nie …

1
Algebraische Klassifikatoren, weitere Informationen?
Ich habe algebraische Klassifikatoren gelesen : einen generischen Ansatz für schnelle Kreuzvalidierung, Online-Training und paralleles Training und war von der Leistung der abgeleiteten Algorithmen begeistert. Es scheint jedoch, dass es jenseits von Naive Bayes (und GBMs) nicht viele Algorithmen gibt, die an das Framework angepasst sind. Gibt es andere Papiere, …

1
Original (?) Modellauswahl mit k-fachem Lebenslauf
Wenn ich einen k-fachen CV zur Auswahl unter Regressionsmodellen verwende, berechne ich normalerweise den CV-Fehler für jedes Modell separat zusammen mit seinem Standardfehler SE und wähle das einfachste Modell innerhalb von 1 SE des Modells mit dem niedrigsten CV-Fehler (der 1) aus Standardfehlerregel, siehe zum Beispiel hier ). Kürzlich wurde …

1
Kreuzvalidierende Lasso-Regression in R.
Die R-Funktion cv.glm (Bibliothek: Boot) berechnet den geschätzten K-fachen Kreuzvalidierungs-Vorhersagefehler für verallgemeinerte lineare Modelle und gibt Delta zurück. Ist es sinnvoll, diese Funktion für eine Lasso-Regression (Bibliothek: glmnet) zu verwenden, und wenn ja, wie kann sie ausgeführt werden? Die glmnet-Bibliothek verwendet eine Kreuzvalidierung, um den besten Drehparameter zu erhalten, aber …

2
Backtesting oder Kreuzvalidierung, wenn der Modellbildungsprozess interaktiv war
Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte). Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt wurden. Zum Beispiel habe ich gemäß den Ratschlägen …


3
K-fache oder Hold-out-Kreuzvalidierung für die Gratregression mit R.
Ich arbeite an einer Kreuzvalidierung der Vorhersage meiner Daten mit 200 Probanden und 1000 Variablen. Ich bin an einer Ridge-Regression interessiert, da die Anzahl der Variablen (die ich verwenden möchte) größer ist als die Anzahl der Stichproben. Ich möchte also Schrumpfungsschätzer verwenden. Die folgenden Beispieldaten bestehen aus: #random population of …

2
Wie finde ich optimale Werte für die Abstimmungsparameter beim Boosten von Bäumen?
Mir ist klar, dass das Boosting-Tree-Modell 3 Tuning-Parameter enthält, d. H. die Anzahl der Bäume (Anzahl der Iterationen) Schrumpfungsparameter Anzahl der Teilungen (Größe der einzelnen Bäume) Meine Frage ist: Wie soll ich für jeden der Abstimmungsparameter den optimalen Wert finden? Und welche Methode? Beachten Sie Folgendes: Der Parameter für die …


1
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.