Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Ich habe immer wieder gelesen, dass die Kreuzvalidierung "Auslassen" aufgrund der großen Überlappung der Trainingsfalten eine hohe Varianz aufweist. Ich verstehe jedoch nicht, warum das so ist: Sollte die Leistung der Kreuzvalidierung nicht sehr stabil sein (geringe Varianz), gerade weil die Trainingssätze fast identisch sind? Oder habe ich ein falsches …
Ich habe eine spezielle Frage zur Validierung in der maschinellen Lernforschung. Wie wir wissen, fordert das Regime des maschinellen Lernens die Forscher auf, ihre Modelle anhand der Trainingsdaten zu trainieren, anhand des Validierungssatzes aus den Kandidatenmodellen auszuwählen und die Genauigkeit des Testsatzes zu melden. In einer sehr strengen Studie kann …
Bei gegebener Matrix findet die nicht negative Matrixfaktorisierung (NMF) zwei nicht negative Matrizen und ( dh mit allen Elementen ) zur Darstellung der zerlegten Matrix als:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, Zum Beispiel, indem Sie verlangen, dass nicht negative …
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …
Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist …
Ich mache eine Bildklassifizierung mit maschinellem Lernen. Angenommen, ich habe einige Trainingsdaten (Bilder) und teile die Daten in Trainings- und Validierungssätze auf. Außerdem möchte ich die Daten durch zufällige Rotationen und Rauschinjektion erweitern (neue Bilder aus den Originalen erstellen). Die Erweiterung erfolgt offline. Welches ist die richtige Methode zur Datenerweiterung? …
Ich habe hier verschiedene Themen durchgesehen, aber ich glaube nicht, dass meine genaue Frage beantwortet ist. Ich habe einen Datensatz von ~ 50.000 Studenten und deren Zeit bis zum Abbruch. Ich werde eine proportionale Hazard-Regression mit einer großen Anzahl potenzieller Kovariaten durchführen. Ich werde auch eine logistische Regression bei Studienabbrechern …
Ich erstelle eine Literaturübersicht zu einem aktuellen Thema der öffentlichen Gesundheit, in der die Daten verwechselt werden: Was sind übliche historische Fallstudien, die in der Aufklärung über Volksgesundheit / Epidemiologie verwendet werden, in denen ungültige oder verwechselte Beziehungen oder Schlussfolgerungen absichtlich oder fälschlicherweise in der Politik und Gesetzgebung im Bereich …
Ich habe den folgenden Ausdruck schon einmal gehört: "Optimierung ist die Wurzel allen Übels in der Statistik". Die beste Antwort in diesem Thread gibt diese Aussage beispielsweise in Bezug auf die Gefahr einer zu aggressiven Optimierung bei der Modellauswahl wieder. Meine erste Frage lautet wie folgt: Kann dieses Zitat jemand …
Verschlossen . Diese Frage und ihre Antworten sind gesperrt, da die Frage nicht zum Thema gehört, aber von historischer Bedeutung ist. Derzeit werden keine neuen Antworten oder Interaktionen akzeptiert. Jetzt habe ich einen RDatenrahmen (Training). Kann mir jemand sagen, wie ich diesen Datensatz zufällig aufteilen soll, um eine 10-fache Kreuzvalidierung …
Ich führe eine Kreuzvalidierung mit der Methode "Auslassen" durch. Ich habe eine binäre Antwort und benutze das Boot-Paket für R und die cv.glm-Funktion . Mein Problem ist, dass ich den Teil "Kosten" in dieser Funktion nicht vollständig verstehe. Nach meinem Verständnis ist dies die Funktion, die entscheidet, ob ein geschätzter …
Nachdem ich einen der "Forschungstipps" von RJ Hyndman über Kreuzvalidierung und Zeitreihen gelesen hatte , kam ich auf eine alte Frage zurück, die ich hier zu formulieren versuchen werde. Die Idee ist, dass bei Klassifizierungs- oder Regressionsproblemen die Reihenfolge der Daten nicht wichtig ist und daher eine k- fache Kreuzvalidierung …
Scikit verfügt über CalibratedClassifierCV , mit dem wir unsere Modelle für ein bestimmtes X, Y-Paar kalibrieren können. Es heißt auch klar, dassdata for fitting the classifier and for calibrating it must be disjoint. Wenn sie disjunkt sein müssen, ist es legitim, den Klassifikator mit den folgenden zu trainieren? model = …
Mein allgemeines Verständnis ist, dass sich AIC mit dem Kompromiss zwischen der Anpassungsgüte des Modells und der Komplexität des Modells befasst. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = Anzahl der Parameter im Modell LLL = Wahrscheinlichkeit Das Bayes'sche Informationskriterium BIC ist eng mit dem AIC verwandt. Der AIC benachteiligt die Anzahl der …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.