Stellen Sie sich vor, Sie sind ein Arzt auf einer Intensivstation. Sie haben einen Patienten mit starkem Fieber, einer bestimmten Anzahl von Blutzellen, einem bestimmten Körpergewicht und hundert verschiedenen Daten und möchten vorhersagen, ob er oder sie überleben wird. Wenn ja, wird er seiner Frau diese Geschichte über sein anderes Kind verheimlichen, wenn nicht, ist es wichtig, dass er sie preisgibt, solange er kann.
Der Arzt kann diese Vorhersage auf der Grundlage der Daten früherer Patienten vornehmen, die er in seiner Abteilung hatte. Basierend auf seinen Software-Kenntnissen kann er entweder eine generalisierte lineare Regression (glm) oder ein neuronales Netz (nn) vorhersagen.
1. Verallgemeinertes lineares Modell
Es gibt viel zu viele korrelierte Parameter für den GLM. Um zu einem Ergebnis zu gelangen, muss der Arzt Annahmen treffen (Linearität usw.) und entscheiden, welche Parameter wahrscheinlich einen Einfluss haben. Der GLM wird ihn mit einem T-Test der Signifikanz für jeden seiner Parameter belohnen, damit er starke Beweise dafür sammeln kann, dass Geschlecht und Fieber einen signifikanten Einfluss haben, das Körpergewicht nicht unbedingt.
2. Neuronales Netz
Das neuronale Netz schluckt und verdaut alle Informationen, die in der Stichprobe ehemaliger Patienten enthalten sind. Es ist unerheblich, ob Prädiktoren korreliert sind und ob der Einfluss des Körpergewichts nur in der vorliegenden Stichprobe oder im Allgemeinen von Bedeutung zu sein scheint (zumindest nicht in Bezug auf das Fachwissen des Arztes) hat anzubieten). Es wird nur ein Ergebnis berechnet.
Was ist besser
Welche Methode zu wählen ist, hängt von dem Blickwinkel ab, aus dem Sie das Problem betrachten: Als Patient würde ich das neuronale Netz bevorzugen, das alle verfügbaren Daten verwendet, um zu erraten, was mit mir ohne starke und offensichtlich falsche Annahmen wie Linearität passieren wird. Als Arzt, der einige Daten in einem Journal darstellen möchte, benötigt er p-Werte. Die Medizin ist sehr konservativ: Sie werden nach p-Werten fragen. Der Arzt möchte daher mitteilen, dass in einer solchen Situation das Geschlecht einen wesentlichen Einfluss hat. Für den Patienten spielt das keine Rolle. Verwenden Sie einfach den Einfluss, den die Stichprobe für am wahrscheinlichsten hält.
In diesem Beispiel möchte der Patient eine Vorhersage, die wissenschaftliche Seite des Arztes möchte eine Schlussfolgerung. Wenn Sie ein System verstehen wollen, ist Inferenz meistens gut. Wenn Sie eine Entscheidung treffen müssen, bei der Sie das System nicht verstehen können, muss die Vorhersage ausreichen.