Predictive Modeling - Sollten wir uns für gemischte Modelle interessieren?

Müssen wir uns für die prädiktive Modellierung mit statistischen Konzepten wie zufälligen Effekten und der Nichtunabhängigkeit von Beobachtungen (wiederholte Messungen) befassen? Beispielsweise....

Ich habe Daten aus 5 Direktmailing-Kampagnen (die im Laufe eines Jahres durchgeführt wurden) mit verschiedenen Attributen und einer Kaufmarkierung. Idealerweise würde ich all diese Daten zusammen verwenden, um ein Modell für den Kauf bestimmter Kundenattribute zum Zeitpunkt der Kampagne zu erstellen. Der Grund ist, dass das Ereignis des Kaufs selten ist und ich so viele Informationen wie möglich verwenden möchte. Es besteht die Möglichkeit, dass ein bestimmter Kunde an 1 bis 5 Kampagnen teilnimmt. Dies bedeutet, dass die Datensätze nicht unabhängig voneinander sind.

Ist dies wichtig bei der Verwendung von:

1) Ein Ansatz für maschinelles Lernen (z. B. Baum, MLP, SVM)

2) Ein statistischer Ansatz (logistische Regression)?

**ADD:**

Wenn das Modell funktioniert, sollten Sie es verwenden. Damit habe ich die Wichtigkeit von Annahmen nie wirklich bedacht. Wenn ich an den oben beschriebenen Fall denke, wundere ich mich.

Nehmen Sie maschinelles Lernen Algorithmen wie a MLP and SVM. Diese werden erfolgreich verwendet, um ein binäres Ereignis wie das obige Beispiel, aber auch Zeitreihendaten, die eindeutig korrelieren, zu modellieren. Viele verwenden jedoch Verlustfunktionen, die Wahrscheinlichkeiten sind und unter der Annahme, dass die Fehler vorliegen, abgeleitet werden. Beispielsweise verwenden gradientenverstärkte Bäume in R gbmAbweichungsverlustfunktionen, die vom Binomial abgeleitet sind ( Seite 10 ).

— B_Miner
quelle

Es ist wichtig für statistische Ansätze, die die Unabhängigkeit zwischen den Datensätzen voraussetzen, da Sie dann mit wiederholten Messungen zu tun haben.

— Michelle

Mir scheint, einer der Hauptunterschiede zwischen maschinellem Lernen, das sich auf Vorhersage konzentriert, und Statistiken, die sich auf Inferenz konzentriert, ist genau das, was Sie sagen, B_Miner. Maschinelles Lernen beschäftigt sich mehr mit dem, was funktioniert, während traditionelle Statistiken Annahmen besondere Aufmerksamkeit schenken. In beiden Fällen müssen Sie die Annahmen / Eigenschaften Ihrer Ansätze kennen und dann eine fundierte Entscheidung treffen, ob sie wichtig sind oder nicht. Möglicherweise täuschen Sie sich bei der prädiktiven Modellierung darüber, ob Ihr Modell funktioniert, wenn Sie die Annahmen / Eigenschaften des Ansatzes nicht verstehen.

— Anne Z.

@ AnneZ.Wenn Sie den empfohlenen Validierungsansatz von Trainings-, Test- und Validierungssatz (alle Stichproben groß genug) bei der Vorhersagemodellierung befolgen und etwas finden, das funktioniert, muss man sich dann noch die Mühe machen, wenn die zugrunde liegenden Annahmen erfüllt werden? Ich empfehle keine sinnlose Anwendung von ML, ich habe mich nur gefragt ...

— steffen

In diesem Zusammenhang könnte der Artikel "Statistical Modeling: The Two Cultures" (Statistische Modellierung: Die zwei Kulturen) von Interesse sein, der im dritten crossvalidierten Journal Club

— steffen

Ich habe mich selbst gefragt , und hier sind meine vorläufigen Schlussfolgerungen. Ich würde mich freuen, wenn jemand dies mit seinem Wissen und eventuellen Hinweisen zu diesem Thema ergänzen / korrigieren könnte.

Wenn Sie Hypothesen über logistische Regressionskoeffizienten durch Überprüfen der statistischen Signifikanz testen möchten, müssen Sie die Korrelation zwischen Beobachtungen modellieren (oder auf andere Weise die Nichtunabhängigkeit korrigieren), da sonst Ihre Standardfehler zu klein sind, zumindest wenn Sie die Cluster-Effekte. Regressionskoeffizienten sind jedoch auch bei korrelierten Beobachtungen unverzerrt. Daher sollte es in Ordnung sein, ein solches Modell für die Vorhersage zu verwenden.

Bei der prädiktiven Modellierung sollten Sie die Korrelation beim Trainieren Ihres Modells nicht explizit berücksichtigen müssen, unabhängig davon, ob Sie eine logistische Regression oder einen anderen Ansatz verwenden. Wenn Sie jedoch ein Holdout-Set zur Validierung oder Berechnung von Fehlern außerhalb der Stichprobe verwenden möchten, sollten Sie sicherstellen, dass die Beobachtungen für jede Person nur in einem Set angezeigt werden, entweder im Training oder in der Validierung, jedoch nicht in beiden. Andernfalls wird Ihr Modell für Einzelpersonen Vorhersagen treffen, für die es bereits Informationen enthält, und Sie erhalten keinen genauen Überblick über die Fähigkeit zur Klassifizierung außerhalb der Stichprobe.

— Anne Z.
quelle