Es ist eine bekannte Tatsache, dass ein 1-Schicht-Netzwerk die xor-Funktion nicht vorhersagen kann, da es nicht linear trennbar ist. Ich habe versucht, ein 2-Layer-Netzwerk mit der logistischen Sigmoid-Funktion und Backprop zu erstellen, um xor vorherzusagen. Mein Netzwerk hat 2 Neuronen (und eine Vorspannung) auf der Eingangsschicht, 2 Neuronen und 1 Vorspannung in der verborgenen Schicht und 1 Ausgangsneuron. Zu meiner Überraschung wird dies nicht konvergieren. Wenn ich eine neue Ebene hinzufüge, also ein 3-Ebenen-Netzwerk mit Eingabe (2 + 1), versteckt1 (2 + 1), versteckt2 (2 + 1) und Ausgabe habe, funktioniert es. Wenn ich ein 2-Schicht-Netzwerk behalte, aber die Größe der verborgenen Schicht auf 4 Neuronen + 1 Vorspannung erhöhe, konvergiert es ebenfalls. Gibt es einen Grund, warum ein 2-Schicht-Netzwerk mit 3 oder weniger versteckten Neuronen die xor-Funktion nicht modellieren kann?