Ich kann nicht mit den großen Hunden der Statistik rennen, die vor mir geantwortet haben, und vielleicht denke ich naiv, aber ich sehe es so ...
Stellen Sie sich vor, Sie sitzen in einem Auto und fahren die Straße hinunter, drehen das Rad nach links und rechts und betätigen das Gaspedal und die Bremsen wie wild. Dennoch bewegt sich das Auto reibungslos und bleibt von Ihren Aktionen unberührt. Sie würden sofort vermuten, dass Sie nicht in einem richtigen Auto saßen, und vielleicht würden wir bei genauerem Hinsehen feststellen, dass Sie in Disney World unterwegs sind. (Wenn Sie in einem echten Auto wären, wären Sie in Lebensgefahr, aber gehen wir nicht dorthin.)
Wenn Sie dagegen in einem Auto die Straße hinunterfahren und das Rad nur leicht nach links oder rechts drehen, bewegt sich das Auto sofort. Wenn Sie die Bremsen betätigen, führt dies zu einer starken Verzögerung Sitz. Sie könnten vermuten, dass Sie sich in einem Hochleistungssportwagen befanden.
Im Allgemeinen erleben Sie wahrscheinlich etwas zwischen diesen beiden Extremen. Das Ausmaß, in dem Ihre Eingaben (Lenkung, Bremsen, Gas) die Bewegung des Fahrzeugs direkt beeinflussen, gibt Ihnen einen Hinweis auf die Qualität des Fahrzeugs. Das heißt, je mehr von Ihrem Auto Abweichungen in der Bewegung aufweisen, die sich auf Ihre Handlungen beziehen, desto besser ist das Auto, und je mehr sich das Auto unabhängig von Ihrer Kontrolle bewegt, desto schlechter ist das Auto.
In ähnlicher Weise geht es darum, ein Modell für einige Daten zu erstellen (nennen wir diese Daten ), basierend auf einigen anderen Datensätzen (nennen wir sie ). Wenn sich nicht ändert, ist es wie ein Auto, das sich nicht bewegt, und es macht keinen Sinn zu diskutieren, ob das Auto (Modell) gut funktioniert oder nicht, also nehmen wir an, dass sich ändert.x 1 , x 2 , . . . , x i y yyx1, x2, . . . , xichyy
Genau wie das Auto hat ein Modell mit guter Qualität eine gute Beziehung zwischen den Ergebnissen variierend und den Eingaben variierend. Im Gegensatz zu einem Auto bewirkt nicht notwendigerweise eine Änderung von , aber wenn das Modell nützlich sein soll, muss sich in enger Beziehung zu ändern . Mit anderen Worten, die erklären einen Großteil der Varianz in .x i x i y x i y x i yyxichxich yxichyxichy
PS Ich konnte keine Winnie The Pooh-Analogie finden, aber ich habe es versucht.
PPS [EDIT:] Beachten Sie, dass ich diese spezielle Frage anspreche. Denken Sie nicht, dass Ihr Modell eine hervorragende Leistung erbringt, wenn Sie 100% der Varianz ausmachen. Sie müssen auch über eine Überanpassung nachdenken, bei der Ihr Modell so flexibel ist, dass es sehr genau zu den Trainingsdaten passt - einschließlich der zufälligen Macken und Kuriositäten. Um die Analogie zu verwenden, möchten Sie ein Auto mit guter Lenkung und guten Bremsen, aber Sie möchten, dass es auch auf der Straße funktioniert, nicht nur auf der Teststrecke, die Sie benutzen.