Obwohl alle Bilder im MNIST-Datensatz in einem ähnlichen Maßstab zentriert und ohne Rotation sichtbar sind, weisen sie eine signifikante Variation der Handschrift auf, die mich verblüfft, wie ein lineares Modell eine so hohe Klassifizierungsgenauigkeit erzielt.
Soweit ich in der Lage bin, angesichts der signifikanten Variation der Handschrift zu visualisieren, sollten die Ziffern in einem 784-dimensionalen Raum linear untrennbar sein, dh es sollte eine kleine komplexe (wenn auch nicht sehr komplexe) nichtlineare Grenze geben, die die verschiedenen Ziffern voneinander trennt ähnlich das gut zitierte Beispiel , in dem positiven und negativen Klassen können nicht durch eine lineare Klassifizierer getrennt werden. Es scheint mir verwirrend, wie die logistische Regression mehrerer Klassen eine so hohe Genauigkeit mit vollständig linearen Merkmalen (keine Polynommerkmale) erzeugt.
Beispielsweise können bei einem beliebigen Pixel im Bild verschiedene handschriftliche Variationen der Ziffern und bewirken, dass dieses Pixel beleuchtet wird oder nicht. Daher kann mit einem Satz von erlernten Gewichten jedes Pixel eine Ziffer sowohl als als auch als aussehen lassen . Nur mit einer Kombination von Pixelwerten sollte es möglich sein zu sagen, ob eine Ziffer eine oder eine . Dies gilt für die meisten Ziffernpaare. Wie kann also die logistische Regression, die ihre Entscheidung blind auf alle Pixelwerte stützt (ohne Berücksichtigung von Abhängigkeiten zwischen Pixeln), so hohe Genauigkeiten erzielen?
Ich weiß, dass ich irgendwo falsch liege oder die Abweichungen in den Bildern einfach zu hoch einschätze. Es wäre jedoch großartig, wenn mir jemand mit einer Intuition helfen könnte, wie die Ziffern "fast" linear trennbar sind.