Statistiken und Big Data cross-validation

4

Modellauswahl und Modellleistung in der logistischen Regression

Ich habe eine Frage zur Modellauswahl und Modellleistung bei der logistischen Regression. Ich habe drei Modelle, die auf drei verschiedenen Hypothesen basieren. Die ersten beiden Modelle (nennen wir sie z und x) haben nur eine erklärende Variable in jedem Modell, und das dritte (nennen wir es w) ist komplizierter. Ich …

9 logistic model-selection cross-validation

2

AUC in der ordinalen logistischen Regression

Ich verwende zwei Arten der logistischen Regression - eine ist die einfache Art für die binäre Klassifizierung und die andere ist die ordinale logistische Regression. Zur Berechnung der Genauigkeit der ersten habe ich eine Kreuzvalidierung verwendet, bei der ich die AUC für jede Falte berechnet und dann die mittlere AUC …

9 logistic cross-validation roc auc ordered-logit

2

Kreuzvalidierung für gemischte Modelle?

Mein Kollege und ich passen eine Reihe von linearen und nichtlinearen Mischeffektmodellen in R an. Wir werden gebeten, eine Kreuzvalidierung der angepassten Modelle durchzuführen, damit überprüft werden kann, ob die beobachteten Effekte relativ verallgemeinerbar sind. Dies ist normalerweise eine triviale Aufgabe, aber in unserem Fall müssen wir die gesamten Daten …

9 mixed-model cross-validation

2

Wie wendet man eine Kreuzvalidierung im Kontext der Auswahl von Lernparametern für Support-Vektor-Maschinen angemessen an?

Das wunderbare libsvm-Paket bietet eine Python-Oberfläche und eine Datei "easy.py", die automatisch nach Lernparametern (Kosten & Gamma) sucht, die die Genauigkeit des Klassifikators maximieren. Innerhalb eines bestimmten Kandidatensatzes von Lernparametern wird die Genauigkeit durch Kreuzvalidierung operationalisiert, aber ich denke, dies untergräbt den Zweck der Kreuzvalidierung. Das heißt, sofern die Lernparameter …

9 cross-validation svm

1

Soll ich meine Daten neu mischen?

Wir haben eine Reihe von biologischen Proben, deren Beschaffung ziemlich teuer war. Wir haben diese Beispiele einer Reihe von Tests unterzogen, um Daten zu generieren, die zum Erstellen eines Vorhersagemodells verwendet werden. Zu diesem Zweck haben wir die Stichproben in Trainings- (70%) und Testsätze (30%) unterteilt. Wir haben erfolgreich ein …

9 classification modeling experiment-design cross-validation bootstrap

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Beeinflusst die Implementierung der Kreuzvalidierung die Ergebnisse?

Wie Sie wissen, gibt es zwei beliebte Arten der Kreuzvalidierung: K-fach und zufällige Unterabtastung (wie in Wikipedia beschrieben ). Trotzdem weiß ich, dass einige Forscher Artikel erstellen und veröffentlichen, in denen etwas, das als K-facher Lebenslauf bezeichnet wird, tatsächlich eine zufällige Unterabtastung ist. In der Praxis wissen Sie also nie, …

9 machine-learning cross-validation

1

Lineare Regression: Wie kann man weniger „empfindliche“ Parameter bevorzugen?

Ich habe ein einfaches Regressionsmodell ( y = param1 * x1 + param2 * x2 ). Wenn ich das Modell an meine Daten anpasse, finde ich zwei gute Lösungen: Lösung A, params = (2,7), ist am besten für den Trainingssatz mit RMSE = 2,5 geeignet ABER! Lösung B params = …

9 regression cross-validation overfitting sensitivity-analysis

2

Optimieren Sie SVM, um falsch negative Ergebnisse bei der binären Klassifizierung zu vermeiden

Ich trainiere einen binären SVM-Klassifikator mit Scikit Learn. Aufgrund der Art meines Problems muss ich falsche Negative vermeiden. Da nichts umsonst ist, kann ich eine höhere Rate an falsch positiven Ergebnissen erzielen, um die Anzahl der falsch negativen Ergebnisse zu verringern. Wie können wir das machen (idealerweise mit Scikit lernen)? …

9 machine-learning cross-validation svm python scikit-learn

1

Techniken zur Erkennung von Überanpassungen

Ich hatte ein Vorstellungsgespräch für eine Stelle in Data Science. Während des Interviews wurde ich gefragt, was ich tun soll, um sicherzustellen, dass das Modell nicht überpasst. Meine erste Antwort war die Verwendung einer Kreuzvalidierung, um die Leistung des Modells zu bewerten. Der Interviewer sagte jedoch, dass selbst eine Kreuzvalidierung …

9 cross-validation regularization overfitting

2

Trainingsdaten sind unausgewogen - aber sollte mein Validierungssatz auch sein?

Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen. Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt: Sollte ich sicherstellen, dass mein Validierungssatz AUCH …

9 machine-learning neural-networks cross-validation dataset unbalanced-classes

2

Bonferroni Korrektur & maschinelles Lernen

In psychologischen Studien habe ich gelernt, dass wir die Bonferroni-Methode verwenden sollten, um das Signifikanzniveau anzupassen, wenn wir mehrere Hypothesen an einem einzigen Datensatz testen. Derzeit arbeite ich mit Methoden des maschinellen Lernens wie Support Vector Machines oder Random Forest zur Klassifizierung. Hier habe ich einen einzelnen Datensatz, der bei …

9 machine-learning cross-validation svm overfitting bonferroni

1

Auswahl des Zeitreihenmodells: AIC vs. SSE außerhalb der Stichprobe und ihre Äquivalenz

AIC wird häufig als Kriterium für den Vergleich von Modellen für die Vorhersage von Zeitreihen empfohlen. Sehen Sie dies zum Beispiel im Kontext dynamischer Regressionsmodelle : Der AIC kann für das endgültige Modell berechnet werden, und dieser Wert kann verwendet werden, um die besten Prädiktoren zu bestimmen. Das heißt, das …

9 time-series cross-validation model-selection arima aic

1

Wie gehe ich mit Faktoren mit seltenen Niveaus bei der Kreuzvalidierung um?

Angenommen, in einer Regressionsanalyse in R habe ich eine faktortypunabhängige Variable mit 3 Ebenen in meinem Zugdatensatz. Im Testdatensatz hat dieselbe Faktorvariable jedoch 5 Ebenen. Daher kann ich die Antwortwerte für den Testdatensatz nicht vorhersagen. Was ist in diesem Fall zu tun?

9 r regression categorical-data cross-validation rare-events

2

PRESS-Statistik für die Ridge-Regression

In gewöhnlichen kleinsten Quadraten, die einen Zielvektor gegen einen Satz von Prädiktoren zurückführen , wird die Hutmatrix als berechnetyyyX.X.X H.= X.( X.tX.)- 1X.tH.=X.(X.tX.)- -1X.tH = X (X^tX)^{-1} X^t und die PRESSE (vorhergesagte verbleibende Quadratsumme) wird berechnet durch S.S.P.= ∑ich( eich1 - hi i)2S.S.P.=∑ich(eich1- -hichich)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 wobei der …

9 regression cross-validation ridge-regression

Als «cross-validation» getaggte Fragen