Statistiken und Big Data cross-validation

2

Können RMSE und MAE den gleichen Wert haben?

Ich implementiere eine Kreuzvalidierung und berechne Fehlermetriken wie RMSE, R2R.2R^2 , MAE, MSE usw. Können RMSE und MAE den gleichen Wert haben?

9 cross-validation rms mae

1

Warum gehen Informationen über die Validierungsdaten verloren, wenn ich beim Optimieren von Hyperparametern die Modellleistung anhand von Validierungsdaten bewerte?

In François Chollets Deep Learning with Python heißt es: Infolgedessen kann das Optimieren der Konfiguration des Modells basierend auf seiner Leistung im Validierungssatz schnell zu einer Überanpassung an den Validierungssatz führen, obwohl Ihr Modell niemals direkt darauf trainiert wird. Zentral für dieses Phänomen ist der Begriff der Informationslecks. Jedes Mal, …

9 neural-networks cross-validation hyperparameter

2

Stimmt es, dass Bayesianer keine Testsätze benötigen?

Ich habe kürzlich diesen Vortrag von Eric J. Ma gesehen und in seinem Blogeintrag , in dem er Radford Neal zitiert, überprüft , dass Bayes'sche Modelle nicht überpassen (aber sie können überpassen ), und wenn wir sie verwenden, benötigen wir keine Testsätze, um sie zu validieren (z In den Anführungszeichen …

9 machine-learning bayesian cross-validation deep-learning

1

Welches Deep-Learning-Modell kann Kategorien klassifizieren, die sich nicht gegenseitig ausschließen?

Beispiele: Ich habe einen Satz in der Stellenbeschreibung: "Java Senior Engineer in UK". Ich möchte ein Deep-Learning-Modell verwenden, um es als zwei Kategorien vorherzusagen: English und IT jobs. Wenn ich ein traditionelles Klassifizierungsmodell verwende, kann es nur 1 Etikett mit softmaxFunktion auf der letzten Ebene vorhersagen . Somit kann ich …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

Ist es tatsächlich in Ordnung, vor der Kreuzvalidierung eine unbeaufsichtigte Funktionsauswahl durchzuführen?

In den Elementen des statistischen Lernens habe ich die folgende Aussage gefunden: Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden. Zum Beispiel könnten wir die 1000 Prädiktoren mit der höchsten Varianz über alle 50 Stichproben auswählen, bevor wir mit der Kreuzvalidierung beginnen. Da …

9 machine-learning cross-validation feature-selection

2

Sollten wir immer einen Lebenslauf machen?

Meine Frage: Soll ich auch für einen relativ großen Datensatz einen Lebenslauf machen? Ich habe einen relativ großen Datensatz und werde einen Algorithmus für maschinelles Lernen auf den Datensatz anwenden. Da mein PC nicht schnell ist, dauert der Lebenslauf (und die Rastersuche) manchmal zu lange. Insbesondere endet eine SVM nie …

9 machine-learning cross-validation

1

Algebraische Klassifikatoren, weitere Informationen?

Ich habe algebraische Klassifikatoren gelesen : einen generischen Ansatz für schnelle Kreuzvalidierung, Online-Training und paralleles Training und war von der Leistung der abgeleiteten Algorithmen begeistert. Es scheint jedoch, dass es jenseits von Naive Bayes (und GBMs) nicht viele Algorithmen gibt, die an das Framework angepasst sind. Gibt es andere Papiere, …

9 cross-validation references random-forest computational-statistics naive-bayes

1

Original (?) Modellauswahl mit k-fachem Lebenslauf

Wenn ich einen k-fachen CV zur Auswahl unter Regressionsmodellen verwende, berechne ich normalerweise den CV-Fehler für jedes Modell separat zusammen mit seinem Standardfehler SE und wähle das einfachste Modell innerhalb von 1 SE des Modells mit dem niedrigsten CV-Fehler (der 1) aus Standardfehlerregel, siehe zum Beispiel hier ). Kürzlich wurde …

9 regression cross-validation model-selection

1

Kreuzvalidierende Lasso-Regression in R.

Die R-Funktion cv.glm (Bibliothek: Boot) berechnet den geschätzten K-fachen Kreuzvalidierungs-Vorhersagefehler für verallgemeinerte lineare Modelle und gibt Delta zurück. Ist es sinnvoll, diese Funktion für eine Lasso-Regression (Bibliothek: glmnet) zu verwenden, und wenn ja, wie kann sie ausgeführt werden? Die glmnet-Bibliothek verwendet eine Kreuzvalidierung, um den besten Drehparameter zu erhalten, aber …

9 r regression cross-validation lasso glmnet

2

Backtesting oder Kreuzvalidierung, wenn der Modellbildungsprozess interaktiv war

Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte). Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt wurden. Zum Beispiel habe ich gemäß den Ratschlägen …

9 cross-validation modeling outliers splines overfitting

2

Out-of-Bag-Fehlerschätzung zum Boosten?

In Random Forest wird jeder Baum parallel auf einer eindeutigen Boostrap-Stichprobe der Daten gezüchtet. Da erwartet wird, dass jede Boostrap-Probe ungefähr 63% der eindeutigen Beobachtungen enthält, bleiben ungefähr 37% der Beobachtungen aus, die zum Testen des Baums verwendet werden können. Nun scheint es bei Stochastic Gradient Boosting auch eine -Schätzung …

9 machine-learning cross-validation data-mining random-forest boosting

3

K-fache oder Hold-out-Kreuzvalidierung für die Gratregression mit R.

Ich arbeite an einer Kreuzvalidierung der Vorhersage meiner Daten mit 200 Probanden und 1000 Variablen. Ich bin an einer Ridge-Regression interessiert, da die Anzahl der Variablen (die ich verwenden möchte) größer ist als die Anzahl der Stichproben. Ich möchte also Schrumpfungsschätzer verwenden. Die folgenden Beispieldaten bestehen aus: #random population of …

9 r cross-validation prediction ridge-regression

2

Wie finde ich optimale Werte für die Abstimmungsparameter beim Boosten von Bäumen?

Mir ist klar, dass das Boosting-Tree-Modell 3 Tuning-Parameter enthält, d. H. die Anzahl der Bäume (Anzahl der Iterationen) Schrumpfungsparameter Anzahl der Teilungen (Größe der einzelnen Bäume) Meine Frage ist: Wie soll ich für jeden der Abstimmungsparameter den optimalen Wert finden? Und welche Methode? Beachten Sie Folgendes: Der Parameter für die …

9 machine-learning cross-validation computational-statistics boosting gbm

1

R / Caret: Zug- und Testsätze vs. Kreuzvalidierung?

Dies mag vielleicht eine dumme Frage sein, aber wenn Sie ein Modell mit Caret erstellen und so etwas wie LOOCVoder (noch genauer) verwenden LGOCV, was ist der Vorteil der Aufteilung von Daten in Zug- und Testsätze, wenn dies im Wesentlichen der Kreuzvalidierungsschritt ist macht sowieso? Ich habe einige der zugehörigen …

9 r machine-learning cross-validation caret

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

Als «cross-validation» getaggte Fragen