Müssen wir uns für die prädiktive Modellierung mit statistischen Konzepten wie zufälligen Effekten und der Nichtunabhängigkeit von Beobachtungen (wiederholte Messungen) befassen? Beispielsweise....
Ich habe Daten aus 5 Direktmailing-Kampagnen (die im Laufe eines Jahres durchgeführt wurden) mit verschiedenen Attributen und einer Kaufmarkierung. Idealerweise würde ich all diese Daten zusammen verwenden, um ein Modell für den Kauf bestimmter Kundenattribute zum Zeitpunkt der Kampagne zu erstellen. Der Grund ist, dass das Ereignis des Kaufs selten ist und ich so viele Informationen wie möglich verwenden möchte. Es besteht die Möglichkeit, dass ein bestimmter Kunde an 1 bis 5 Kampagnen teilnimmt. Dies bedeutet, dass die Datensätze nicht unabhängig voneinander sind.
Ist dies wichtig bei der Verwendung von:
1) Ein Ansatz für maschinelles Lernen (z. B. Baum, MLP, SVM)
2) Ein statistischer Ansatz (logistische Regression)?
**ADD:**
Wenn das Modell funktioniert, sollten Sie es verwenden. Damit habe ich die Wichtigkeit von Annahmen nie wirklich bedacht. Wenn ich an den oben beschriebenen Fall denke, wundere ich mich.
Nehmen Sie maschinelles Lernen Algorithmen wie a MLP and SVM
. Diese werden erfolgreich verwendet, um ein binäres Ereignis wie das obige Beispiel, aber auch Zeitreihendaten, die eindeutig korrelieren, zu modellieren. Viele verwenden jedoch Verlustfunktionen, die Wahrscheinlichkeiten sind und unter der Annahme, dass die Fehler vorliegen, abgeleitet werden. Beispielsweise verwenden gradientenverstärkte Bäume in R gbm
Abweichungsverlustfunktionen, die vom Binomial abgeleitet sind ( Seite 10 ).