Wenn man sich viele Berichte über die "vielfältige Annahme" ansieht, wird schnell klar, dass viele Schriftsteller in Bezug auf ihre Bedeutung besonders schlampig sind. Die vorsichtigeren definieren es mit einer subtilen, aber äußerst wichtigen Einschränkung : dass die Daten auf oder in der Nähe einer niedrigdimensionalen Mannigfaltigkeit liegen.
Selbst diejenigen, die die "oder nahe" -Klausel nicht enthalten, nehmen die Mannigfaltigkeitsannahme eindeutig als ungefähre Fiktion an, die für die Durchführung mathematischer Analysen geeignet ist , da ihre Anwendungen Abweichungen zwischen den Daten und der geschätzten Mannigfaltigkeit berücksichtigen müssen . In der Tat führen viele Autoren später einen expliziten Mechanismus für Abweichungen ein, beispielsweise die Betrachtung der Regression von gegen x, wobei x gezwungen ist, auf einer Mannigfaltigkeit M k ⊂ R d zu liegen , das y jedoch zufällige Abweichungen enthalten kann. Dies entspricht der Annahme, dass die Tupel ( x i ,yxxM.k⊂ R.d y nahean einer eingetauchten k- dimensionalen Mannigfaltigkeit der Formliegen, aber nicht unbedingt darauf( xich, yich)k
( x , f( x ) ) ∈ M.k× R ⊂ R.d× R ≈ R.d+ 1
für einige glatt (Regression) Funktion . Da wir sehen können alle gestörten Punkte ( x , y ) = ( x , f ( x ) + ε ) , die lediglich sind nahe an dem Graphen von f (a k dimensionalen Mannigfaltigkeit) als liegend auf dem k + 1 -dimensionalen Verteiler M k × R.f: R.d→ R.( x , y) = ( x , f( x ) + ε )fkk + 1M.k× R.Dies erklärt, warum eine solche Schlamperei bei der Unterscheidung zwischen "Ein" und "Nah" theoretisch unwichtig sein kann.
Der Unterschied zwischen "Ein" und "Nah an" ist für Anwendungen von enormer Bedeutung. "Nah an" ermöglicht, dass die Daten vom Verteiler abweichen können. Wenn Sie diesen Verteiler schätzen, kann der typische Betrag der Abweichung zwischen den Daten und dem Verteiler quantifiziert werden. Ein angepasster Verteiler ist besser als ein anderer, wenn die typische Abweichung geringer ist, ceteris paribus.
Die Abbildung zeigt zwei Versionen der Verteilerannahme für die Daten (große blaue Punkte): Der schwarze Verteiler ist relativ einfach (zur Beschreibung sind nur vier Parameter erforderlich), kommt jedoch den Daten nur "nahe", während der rot gepunktete Verteiler zu den Daten passt perfekt, aber kompliziert (17 Parameter werden benötigt).
R.d
Dies führt zu einer einfachen und praktischen Methode zur Bewertung der Mannigfaltigkeitsannahme: Wenn das aus der Mannigfaltigkeitsannahme entwickelte Modell / Prädiktor / Klassifikator akzeptabel gut funktioniert, war die Annahme gerechtfertigt. Die in der Frage angestrebten geeigneten Bedingungen werden daher sein, dass ein relevantes Maß für die Anpassungsgüte akzeptabel klein ist. (Welche Maßnahme? Sie hängt vom Problem ab und ist gleichbedeutend mit der Auswahl einer Verlustfunktion.)
Es ist möglich, dass Verteiler unterschiedlicher Dimension (mit unterschiedlichen Einschränkungen ihrer Krümmung) gleichermaßen gut zu den Daten passen - und durchgehaltene Daten vorhersagen. Über "die zugrunde liegende" Mannigfaltigkeit kann im Allgemeinen nichts "bewiesen" werden , insbesondere wenn mit großen, unordentlichen menschlichen Datensätzen gearbeitet wird. Wir können normalerweise nur hoffen, dass der eingebaute Verteiler ein gutes Modell ist.
Wenn Sie kein gutes Modell / Prädiktor / Klassifikator finden, ist entweder die Mannigfaltigkeitsannahme ungültig, Sie nehmen Mannigfaltigkeiten mit einer zu kleinen Dimension an oder Sie haben nicht genau genug oder nicht gut genug ausgesehen.