Statistiken und Big Data cross-validation

2

Hohe Varianz der einmaligen Kreuzvalidierung

Ich habe immer wieder gelesen, dass die Kreuzvalidierung "Auslassen" aufgrund der großen Überlappung der Trainingsfalten eine hohe Varianz aufweist. Ich verstehe jedoch nicht, warum das so ist: Sollte die Leistung der Kreuzvalidierung nicht sehr stabil sein (geringe Varianz), gerade weil die Trainingssätze fast identisch sind? Oder habe ich ein falsches …

15 variance cross-validation bias

1

Was ist, wenn die Validierungsgenauigkeit hoch und die Testgenauigkeit in der Forschung niedrig ist?

Ich habe eine spezielle Frage zur Validierung in der maschinellen Lernforschung. Wie wir wissen, fordert das Regime des maschinellen Lernens die Forscher auf, ihre Modelle anhand der Trainingsdaten zu trainieren, anhand des Validierungssatzes aus den Kandidatenmodellen auszuwählen und die Genauigkeit des Testsatzes zu melden. In einer sehr strengen Studie kann …

15 machine-learning cross-validation reproducible-research

2

Jackknife gegen LOOCV

Gibt es wirklich einen Unterschied zwischen dem Jackknife und der fehlenden Kreuzvalidierung? Die Prozedur scheint identisch zu sein. Fehlt mir etwas?

15 cross-validation jackknife

3

Wie wählt man eine optimale Anzahl latenter Faktoren bei der nicht-negativen Matrixfaktorisierung?

Bei gegebener Matrix findet die nicht negative Matrixfaktorisierung (NMF) zwei nicht negative Matrizen und ( dh mit allen Elementen ) zur Darstellung der zerlegten Matrix als:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, Zum Beispiel, indem Sie verlangen, dass nicht negative …

15 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

1

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Warum tastet die scikit-learn-Bootstrap-Funktion den Testsatz erneut ab?

Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist …

15 cross-validation bootstrap random-forest scikit-learn bagging

3

Wie wird eine Datenerweiterung und eine Aufteilung der Zugvalidierung durchgeführt?

Ich mache eine Bildklassifizierung mit maschinellem Lernen. Angenommen, ich habe einige Trainingsdaten (Bilder) und teile die Daten in Trainings- und Validierungssätze auf. Außerdem möchte ich die Daten durch zufällige Rotationen und Rauschinjektion erweitern (neue Bilder aus den Originalen erstellen). Die Erweiterung erfolgt offline. Welches ist die richtige Methode zur Datenerweiterung? …

14 machine-learning classification cross-validation dataset data-augmentation

3

Training, Testen, Validieren in einem Überlebensanalyseproblem

Ich habe hier verschiedene Themen durchgesehen, aber ich glaube nicht, dass meine genaue Frage beantwortet ist. Ich habe einen Datensatz von ~ 50.000 Studenten und deren Zeit bis zum Abbruch. Ich werde eine proportionale Hazard-Regression mit einer großen Anzahl potenzieller Kovariaten durchführen. Ich werde auch eine logistische Regression bei Studienabbrechern …

14 cross-validation survival train

4

Was sind die Fallstudien in der gesundheitspolitischen Forschung, in denen unzuverlässige / verwirrte / ungültige Studien oder Modelle missbraucht wurden?

Ich erstelle eine Literaturübersicht zu einem aktuellen Thema der öffentlichen Gesundheit, in der die Daten verwechselt werden: Was sind übliche historische Fallstudien, die in der Aufklärung über Volksgesundheit / Epidemiologie verwendet werden, in denen ungültige oder verwechselte Beziehungen oder Schlussfolgerungen absichtlich oder fälschlicherweise in der Politik und Gesetzgebung im Bereich …

14 cross-validation reliability epidemiology biostatistics

2

Optimierung: Die Wurzel allen Übels in der Statistik?

Ich habe den folgenden Ausdruck schon einmal gehört: "Optimierung ist die Wurzel allen Übels in der Statistik". Die beste Antwort in diesem Thread gibt diese Aussage beispielsweise in Bezug auf die Gefahr einer zu aggressiven Optimierung bei der Modellauswahl wieder. Meine erste Frage lautet wie folgt: Kann dieses Zitat jemand …

14 cross-validation optimization overfitting

6

So teilen Sie einen Datensatz, um eine 10-fache Kreuzvalidierung durchzuführen

Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Jetzt habe ich einen RDatenrahmen (Training). Kann mir jemand sagen, wie ich diesen Datensatz zufällig aufteilen soll, um eine 10-fache Kreuzvalidierung …

14 cross-validation

3

Was ist die Kostenfunktion in cv.glm im Boot-Paket von R?

Ich führe eine Kreuzvalidierung mit der Methode "Auslassen" durch. Ich habe eine binäre Antwort und benutze das Boot-Paket für R und die cv.glm-Funktion . Mein Problem ist, dass ich den Teil "Kosten" in dieser Funktion nicht vollständig verstehe. Nach meinem Verständnis ist dies die Funktion, die entscheidet, ob ein geschätzter …

14 r cross-validation

2

Bestellung von Zeitreihen für maschinelles Lernen

Nachdem ich einen der "Forschungstipps" von RJ Hyndman über Kreuzvalidierung und Zeitreihen gelesen hatte , kam ich auf eine alte Frage zurück, die ich hier zu formulieren versuchen werde. Die Idee ist, dass bei Klassifizierungs- oder Regressionsproblemen die Reihenfolge der Daten nicht wichtig ist und daher eine k- fache Kreuzvalidierung …

14 time-series machine-learning cross-validation

2

Scikit-Methode zum Kalibrieren von Klassifikatoren mit CalibratedClassifierCV

Scikit verfügt über CalibratedClassifierCV , mit dem wir unsere Modelle für ein bestimmtes X, Y-Paar kalibrieren können. Es heißt auch klar, dassdata for fitting the classifier and for calibrating it must be disjoint. Wenn sie disjunkt sein müssen, ist es legitim, den Klassifikator mit den folgenden zu trainieren? model = …

14 cross-validation scikit-learn validation train calibration

2

AIC, BIC und GCV: Was ist am besten geeignet, um bei bestraften Regressionsmethoden eine Entscheidung zu treffen?

Mein allgemeines Verständnis ist, dass sich AIC mit dem Kompromiss zwischen der Anpassungsgüte des Modells und der Komplexität des Modells befasst. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = Anzahl der Parameter im Modell LLL = Wahrscheinlichkeit Das Bayes'sche Informationskriterium BIC ist eng mit dem AIC verwandt. Der AIC benachteiligt die Anzahl der …

14 cross-validation lasso aic ridge-regression bic

Als «cross-validation» getaggte Fragen