Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Ich habe eine Frage zur Modellauswahl und Modellleistung bei der logistischen Regression. Ich habe drei Modelle, die auf drei verschiedenen Hypothesen basieren. Die ersten beiden Modelle (nennen wir sie z und x) haben nur eine erklärende Variable in jedem Modell, und das dritte (nennen wir es w) ist komplizierter. Ich …
Ich verwende zwei Arten der logistischen Regression - eine ist die einfache Art für die binäre Klassifizierung und die andere ist die ordinale logistische Regression. Zur Berechnung der Genauigkeit der ersten habe ich eine Kreuzvalidierung verwendet, bei der ich die AUC für jede Falte berechnet und dann die mittlere AUC …
Mein Kollege und ich passen eine Reihe von linearen und nichtlinearen Mischeffektmodellen in R an. Wir werden gebeten, eine Kreuzvalidierung der angepassten Modelle durchzuführen, damit überprüft werden kann, ob die beobachteten Effekte relativ verallgemeinerbar sind. Dies ist normalerweise eine triviale Aufgabe, aber in unserem Fall müssen wir die gesamten Daten …
Das wunderbare libsvm-Paket bietet eine Python-Oberfläche und eine Datei "easy.py", die automatisch nach Lernparametern (Kosten & Gamma) sucht, die die Genauigkeit des Klassifikators maximieren. Innerhalb eines bestimmten Kandidatensatzes von Lernparametern wird die Genauigkeit durch Kreuzvalidierung operationalisiert, aber ich denke, dies untergräbt den Zweck der Kreuzvalidierung. Das heißt, sofern die Lernparameter …
Wir haben eine Reihe von biologischen Proben, deren Beschaffung ziemlich teuer war. Wir haben diese Beispiele einer Reihe von Tests unterzogen, um Daten zu generieren, die zum Erstellen eines Vorhersagemodells verwendet werden. Zu diesem Zweck haben wir die Stichproben in Trainings- (70%) und Testsätze (30%) unterteilt. Wir haben erfolgreich ein …
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
Wie Sie wissen, gibt es zwei beliebte Arten der Kreuzvalidierung: K-fach und zufällige Unterabtastung (wie in Wikipedia beschrieben ). Trotzdem weiß ich, dass einige Forscher Artikel erstellen und veröffentlichen, in denen etwas, das als K-facher Lebenslauf bezeichnet wird, tatsächlich eine zufällige Unterabtastung ist. In der Praxis wissen Sie also nie, …
Ich habe ein einfaches Regressionsmodell ( y = param1 * x1 + param2 * x2 ). Wenn ich das Modell an meine Daten anpasse, finde ich zwei gute Lösungen: Lösung A, params = (2,7), ist am besten für den Trainingssatz mit RMSE = 2,5 geeignet ABER! Lösung B params = …
Ich trainiere einen binären SVM-Klassifikator mit Scikit Learn. Aufgrund der Art meines Problems muss ich falsche Negative vermeiden. Da nichts umsonst ist, kann ich eine höhere Rate an falsch positiven Ergebnissen erzielen, um die Anzahl der falsch negativen Ergebnisse zu verringern. Wie können wir das machen (idealerweise mit Scikit lernen)? …
Ich hatte ein Vorstellungsgespräch für eine Stelle in Data Science. Während des Interviews wurde ich gefragt, was ich tun soll, um sicherzustellen, dass das Modell nicht überpasst. Meine erste Antwort war die Verwendung einer Kreuzvalidierung, um die Leistung des Modells zu bewerten. Der Interviewer sagte jedoch, dass selbst eine Kreuzvalidierung …
Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen. Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt: Sollte ich sicherstellen, dass mein Validierungssatz AUCH …
In psychologischen Studien habe ich gelernt, dass wir die Bonferroni-Methode verwenden sollten, um das Signifikanzniveau anzupassen, wenn wir mehrere Hypothesen an einem einzigen Datensatz testen. Derzeit arbeite ich mit Methoden des maschinellen Lernens wie Support Vector Machines oder Random Forest zur Klassifizierung. Hier habe ich einen einzelnen Datensatz, der bei …
AIC wird häufig als Kriterium für den Vergleich von Modellen für die Vorhersage von Zeitreihen empfohlen. Sehen Sie dies zum Beispiel im Kontext dynamischer Regressionsmodelle : Der AIC kann für das endgültige Modell berechnet werden, und dieser Wert kann verwendet werden, um die besten Prädiktoren zu bestimmen. Das heißt, das …
Angenommen, in einer Regressionsanalyse in R habe ich eine faktortypunabhängige Variable mit 3 Ebenen in meinem Zugdatensatz. Im Testdatensatz hat dieselbe Faktorvariable jedoch 5 Ebenen. Daher kann ich die Antwortwerte für den Testdatensatz nicht vorhersagen. Was ist in diesem Fall zu tun?
In gewöhnlichen kleinsten Quadraten, die einen Zielvektor gegen einen Satz von Prädiktoren zurückführen , wird die Hutmatrix als berechnetyyyX.X.X H.= X.( X.tX.)- 1X.tH.=X.(X.tX.)- -1X.tH = X (X^tX)^{-1} X^t und die PRESSE (vorhergesagte verbleibende Quadratsumme) wird berechnet durch S.S.P.= ∑ich( eich1 - hi i)2S.S.P.=∑ich(eich1- -hichich)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 wobei der …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.