Wenn Sie eine nichtlineare Funktion an eine Menge von Punkten anpassen (vorausgesetzt, es gibt nur eine Ordinate für jede Abszisse), kann das Ergebnis entweder sein:
- eine sehr komplexe Funktion mit kleinen Residuen
- eine sehr einfache Funktion mit großen Residuen
Kreuzvalidierung wird häufig verwendet, um den "besten" Kompromiss zwischen diesen beiden Extremen zu finden. Aber was heißt "am besten"? Ist es "am wahrscheinlichsten"? Wie würden Sie überhaupt anfangen zu beweisen, was die wahrscheinlichste Lösung ist?
Meine innere Stimme sagt mir, dass der Lebenslauf eine Art Minimal-Energie-Lösung findet. Dies lässt mich an Entropie denken, von der ich vage weiß, dass sie sowohl in der Statistik als auch in der Physik vorkommt.
Es scheint mir, dass die "beste" Anpassung durch Minimierung der Summe der Funktionen von Komplexität und Fehler erzeugt wird, d. H
minimising m where m = c(Complexity) + e(Error)
Ergibt das irgendeinen Sinn? Was wären die Funktionen c und e?
Kannst du bitte erklären, wenn du keine mathematische Sprache verwendest, da ich nicht viel Mathe verstehe.