Wie die Kommentare zu Ihrer Frage zeigen, arbeiten viele Menschen daran, etwas Besseres zu finden. Ich möchte diese Frage jedoch beantworten, indem ich den Kommentar von @josh erweitere
Alle Modelle sind falsch, aber einige sind nützlich (Wiki)
Die obige Aussage ist eine allgemeine Wahrheit, die verwendet wird, um die Natur statistischer Modelle zu beschreiben. Anhand der verfügbaren Daten können wir Modelle erstellen, mit denen wir nützliche Dinge tun können, z. B. einen prognostizierten Wert approximieren.
Nehmen Sie zum Beispiel lineare Regression
Unter Verwendung einer Reihe von Beobachtungen können wir ein Modell anpassen, um einen ungefähren Wert für eine abhängige Variable zu erhalten, wenn alle Werte für die unabhängige (n) Variable (n) gegeben sind.
Burnham, KP; Anderson, DR (2002), Modellauswahl und Multimodell> Inferenz: Ein praktischer informationstheoretischer Ansatz (2. Aufl.):
"Ein Modell ist eine Vereinfachung oder Annäherung an die Realität und wird daher nicht die gesamte Realität widerspiegeln." von sehr nützlich bis nützlich, von etwas nützlich bis letztendlich im Wesentlichen nutzlos eingestuft werden. "
Abweichungen von unserem Modell (wie im Bild oben zu sehen) erscheinen zufällig, einige Beobachtungen liegen unterhalb der Linie und einige oberhalb, aber unsere Regressionslinie zeigt eine allgemeine Korrelation. Während Abweichungen in unserem Modell zufällig erscheinen, spielen in realistischen Szenarien andere Faktoren eine Rolle, die diese Abweichung verursachen. Stellen Sie sich zum Beispiel vor, Sie beobachten Autos, wie sie durch eine Kreuzung fahren, an der sie entweder nach links oder rechts abbiegen müssen, um fortzufahren. Die Autos biegen in keinem bestimmten Muster ab. Während wir sagen können, dass die Richtung, in die die Autos abbiegen, völlig zufällig ist, erreicht jeder Fahrer die Kreuzung und trifft an diesem Punkt eine zufällige Entscheidung, in welche Richtung er abbiegen soll? In Wirklichkeit steuern sie wahrscheinlich aus einem bestimmten Grund an einen bestimmten Ort, und ohne zu versuchen, jedes Auto anzuhalten, um sie nach ihrer Begründung zu fragen, können wir ihre Handlungen nur als zufällig bezeichnen.
Wo wir in der Lage sind, ein Modell mit minimaler Abweichung anzupassen, wie sicher können wir dann sein, dass eine unbekannte, unbemerkte oder nicht messbare Variable unser Modell irgendwann nicht mehr wirft? Löst der Flügelschlag eines Schmetterlings in Brasilien einen Tornado in Texas aus?
Das Problem bei der Verwendung der von Ihnen erwähnten linearen und SVN-Modelle besteht darin, dass wir unsere Variablen manuell beobachten müssen und wie sie sich gegenseitig beeinflussen. Wir müssen dann entscheiden, welche Variablen wichtig sind, und einen aufgabenspezifischen Algorithmus schreiben. Dies kann einfach sein, wenn wir nur ein paar Variablen haben, aber was ist, wenn wir Tausende hatten? Was wäre, wenn wir ein verallgemeinertes Bilderkennungsmodell erstellen wollten, könnte dies mit diesem Ansatz realistisch erreicht werden?
Deep Learning und künstliche neuronale Netze (ANNs) können uns dabei helfen, nützliche Modelle für große Datenmengen mit einer großen Anzahl von Variablen (z. B. Bildbibliotheken) zu erstellen. Wie Sie bereits erwähnt haben, gibt es eine unverständliche Anzahl von Lösungen, die mit ANNs in die Daten passen könnten. Unterscheidet sich diese Anzahl jedoch wirklich von der Anzahl der Lösungen, die wir selbst durch Ausprobieren entwickeln müssten?
Die Anwendung von ANNs erledigt einen Großteil der Arbeit für uns. Wir können unsere Eingaben und gewünschten Ausgaben spezifizieren (und sie später optimieren, um Verbesserungen vorzunehmen) und es der ANN überlassen, die Lösung zu finden. Aus diesem Grund werden ANNs oft als "Black Boxes" bezeichnet . Ausgehend von einer bestimmten Eingabe geben sie eine Annäherung aus, jedoch enthalten diese Annäherungen (im Allgemeinen) keine Details darüber, wie sie angenähert wurden.
Es kommt also wirklich darauf an, welches Problem Sie lösen möchten, da das Problem bestimmt, welcher Modellansatz sinnvoller ist. Modelle sind nicht absolut genau und daher gibt es immer ein Element, bei dem man sich irrt. Je genauer Ihre Ergebnisse sind, desto nützlicher sind sie. Je nach Problem kann es sogar nützlicher sein, detailliertere Ergebnisse zu erhalten, als eine höhere Genauigkeit zu erzielen.
Wenn Sie beispielsweise einen Personenkredit-Score berechnen, können Sie mithilfe von Regression und SVMs Berechnungen durchführen, die besser untersucht werden können. Es ist sehr nützlich, das Modell direkt zu optimieren und den Kunden zu erklären, welche Auswirkungen separate unabhängige Variablen auf ihre Gesamtpunktzahl haben. Eine ANN kann bei der Verarbeitung größerer Mengen von Variablen helfen, um eine genauere Bewertung zu erzielen. Wäre diese Genauigkeit jedoch nützlicher?