Als «overfitting» getaggte Fragen

Modellierungsfehler (insbesondere Stichprobenfehler) anstelle von replizierbaren und informativen Beziehungen zwischen Variablen verbessern die Modellanpassungsstatistik, verringern jedoch die Sparsamkeit und verschlechtern die erklärende und prädiktive Validität.


1
Wie wähle ich die beste Anpassung aus, ohne die Daten zu überanpassen? Modellierung einer bimodalen Verteilung mit N Normalfunktionen usw.
Ich habe eine offensichtlich bimodale Werteverteilung, die ich anpassen möchte. Die Daten können entweder mit 2 normalen Funktionen (bimodal) oder mit 3 normalen Funktionen gut angepasst werden. Darüber hinaus gibt es einen plausiblen physikalischen Grund für die Anpassung der Daten an 3. Je mehr Parameter eingeführt werden, desto perfekter ist …

1
Fisher's Exact Test und hypergeometrische Verteilung
Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …


4
Überanpassung mit linearen Klassifikatoren
Heute erklärte unser Professor in der Klasse, dass "eine Überanpassung mit linearen Klassifikatoren nicht möglich ist". Ich halte das für falsch, da selbst lineare Klassifizierer empfindlich auf Ausreißer im Trainingssatz reagieren können - zum Beispiel eine Support Vector Machine mit hartem Rand: Ein einzelner verrauschter Datenpunkt kann ändern, welche Hyperebene …

1
Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?
Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …


2
Klare Erklärung für die „numerische Stabilität der Matrixinversion“ bei der Gratregression und ihre Rolle bei der Reduzierung der Überanpassung
Ich verstehe, dass wir Regularisierung in einem Regressionsproblem der kleinsten Quadrate als anwenden können w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] und dass dieses Problem eine geschlossene Lösung hat als: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Wir sehen, dass in der 2. Gleichung die Regularisierung einfach λλ\lambda zur Diagonale von \ …




2
Backtesting oder Kreuzvalidierung, wenn der Modellbildungsprozess interaktiv war
Ich habe einige Vorhersagemodelle, deren Leistung ich zurücktesten möchte (dh ich nehme meinen Datensatz, spule ihn zu einem früheren Zeitpunkt zurück und sehe, wie sich das Modell prospektiv entwickelt hätte). Das Problem ist, dass einige meiner Modelle über einen interaktiven Prozess erstellt wurden. Zum Beispiel habe ich gemäß den Ratschlägen …


1
Techniken zur Erkennung von Überanpassungen
Ich hatte ein Vorstellungsgespräch für eine Stelle in Data Science. Während des Interviews wurde ich gefragt, was ich tun soll, um sicherzustellen, dass das Modell nicht überpasst. Meine erste Antwort war die Verwendung einer Kreuzvalidierung, um die Leistung des Modells zu bewerten. Der Interviewer sagte jedoch, dass selbst eine Kreuzvalidierung …

2
Bonferroni Korrektur & maschinelles Lernen
In psychologischen Studien habe ich gelernt, dass wir die Bonferroni-Methode verwenden sollten, um das Signifikanzniveau anzupassen, wenn wir mehrere Hypothesen an einem einzigen Datensatz testen. Derzeit arbeite ich mit Methoden des maschinellen Lernens wie Support Vector Machines oder Random Forest zur Klassifizierung. Hier habe ich einen einzelnen Datensatz, der bei …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.