Ist es rational (theoretisch, substanziell, statistisch), sich bei der Modellierung der Kundenabwanderung (oder allgemeiner Ereignisse) entweder für maschinelles Lernen oder für Gefahrenmodelle zu entscheiden ?
Ist es rational (theoretisch, substanziell, statistisch), sich bei der Modellierung der Kundenabwanderung (oder allgemeiner Ereignisse) entweder für maschinelles Lernen oder für Gefahrenmodelle zu entscheiden ?
Antworten:
Ich denke, Ihre Frage könnte weiter definiert werden. Die erste Unterscheidung für Abwanderungsmodelle besteht zwischen dem Erstellen
(1) ein binäres Modell (oder ein Modell mit mehreren Klassen, wenn es mehrere Arten von Abwanderung gibt), um die Wahrscheinlichkeit zu schätzen, dass ein Kunde innerhalb oder um einen bestimmten zukünftigen Punkt (z. B. die nächsten 3 Monate) abwandert.
(2) ein Überlebensmodell, das eine Schätzung des Abnutzungsrisikos in jedem Zeitraum erstellt (etwa jeden Monat für das nächste Jahr)
Welche der beiden für Ihre Situation geeignet ist, hängt von der Verwendung des Modells ab. Wenn Sie das Abnutzungsrisiko im Laufe der Zeit wirklich verstehen und vielleicht verstehen möchten, wie (möglicherweise zeitlich variierende) Variablen mit der Zeit interagieren, ist ein Überlebensmodell geeignet. Für viele Kundenmodelle bevorzuge ich die Verwendung diskreter Zeitrisikomodelle für diesen Zweck, da die Zeit in Datenbanken häufig diskret ist und die Gefahrenschätzung eine Wahrscheinlichkeit des Ereignisses darstellt. Die Cox-Regression ist eine weitere beliebte Wahl, aber die Zeit wird als kontinuierlich (oder durch Anpassung der Bindungen) behandelt, aber die Gefahr ist technisch gesehen keine Wahrscheinlichkeit.
Bei den meisten Abwanderungsmodellen, bei denen ein Unternehmen daran interessiert ist, die x% der am stärksten gefährdeten Kunden anzusprechen, und die Datenbank bei jedem Start einer Targeting-Kampagne bewertet wird, ist normalerweise die binäre Option (oder die Option für mehrere Klassen) erforderlich.
Die zweite Wahl ist, wie die Modelle geschätzt werden. Verwenden Sie ein traditionelles statistisches Modell wie die logistische Regression für das binäre Modell (Mehrklassenmodell) oder einen Algorithmus für maschinelles Lernen (z. B. zufällige Gesamtstruktur). Die Auswahl basiert darauf, welches Modell das genaueste ist und welches Maß an Interpretierbarkeit erforderlich ist. Bei diskreten Zeitrisikomodellen wird normalerweise eine logistische Regression mit Splines verwendet, um nichtlineare Zeiteffekte einzuführen. Dies kann auch mit neuronalen Netzen und vielen anderen Arten von ML-Algorithmen erfolgen, da der Aufbau einfach das Lernen mit einem "Personenperioden" -Datensatz überwacht. Darüber hinaus kann die Cox-Regression mit herkömmlichen Algorithmen wie SAS proc phreg oder R coxph () angepasst werden. Der Algorithmus für maschinelles Lernen GBM passt auch die Cox-Regression an eine ausgewählte Verlustfunktion an. Wie bereits erwähnt,
Zunächst möchte ich klarstellen, wo genau Sie zwischen maschinellem Lernen und Gefahrenmodellen unterscheiden. Nach meinem Verständnis unterscheidet die ml-Literatur (unter anderem) zwischen parametrischen und nicht parametrischen Modellen.
Und zweitens, wofür brauchen Sie das Modell? Ist es für wissenschaftliche Forschung oder etwas anderes? In jedem Fall hängt die Auswahl des geeigneten Modells zur Beschreibung Ihrer Daten in erster Linie davon ab, wofür Sie das Modell benötigen.
Zu Ihrer Frage: Es hängt davon ab, wie viel Sie über den Datengenerierungsprozess wissen.
Wenn Sie zum Beispiel den berühmten Münzwurf oder Würfelwurf nehmen, haben Sie eine sehr gute Vorstellung von dem Prozess, der das erwartete Ergebnis eines Experiments generiert.
In diesem Fall möchten Sie wirklich eine parametrische (bayesianische oder frequentistische) Schätzung verwenden, da diese Ihnen eine sehr gute Schätzung des unbekannten Parameters liefert. Darüber hinaus sind diese Modelle sehr gut verstanden, was viele Vorteile hat.
Wenn Sie den Datengenerierungsprozess nicht kennen oder sich nicht sicher sind, haben Sie keine große Auswahl. Sie müssen die Parameter schätzen, die die Daten aus den Daten selbst beschreiben. Wenn Sie sich für einen solchen Ansatz entscheiden, müssen Sie akzeptieren, dass diese Modelle Nachteile haben (abhängig vom spezifischen Modell usw.).
Je weniger Sie über einen Prozess wissen, desto mehr müssen Sie nach meinem Verständnis anhand der Daten selbst schätzen, was sicherlich zu einem Preis führen wird.