Sagen Sie die beste Anrufzeit voraus

Ich habe einen Datensatz mit einer Reihe von Kunden in verschiedenen Städten Kaliforniens, dem Zeitpunkt des Anrufs für jeden Kunden und dem Status des Anrufs (Richtig, wenn der Kunde den Anruf entgegennimmt, und Falsch, wenn der Kunde nicht antwortet).

Ich muss einen geeigneten Zeitpunkt finden, um zukünftige Kunden anzurufen, sodass die Wahrscheinlichkeit, den Anruf anzunehmen, hoch ist. Was ist die beste Strategie für dieses Problem? Sollte ich es als Klassifizierungsproblem betrachten, bei dem die Stunden (0,1,2, ... 23) die Klassen sind? Oder sollte ich es als eine Regressionsaufgabe betrachten, bei der die Zeit eine kontinuierliche Variable ist? Wie kann ich sicherstellen, dass die Wahrscheinlichkeit, den Anruf anzunehmen, hoch ist?

Jede Hilfe wäre dankbar. Es wäre auch toll, wenn Sie mich auf ähnliche Probleme verweisen würden.

Unten finden Sie eine Momentaufnahme der Daten.

— Hamid Mahdavian
quelle

Sean Owen, wie ist die Aufgabe gelaufen? Ich versuche jetzt, ein ähnliches Problem zu lösen und würde gerne Ihre Erfahrungen hören - nicht viele Ressourcen in diesem Thema im Web. Danke im Voraus!

— Dominika

Antworten:

Sie könnten tatsächlich auf Probleme stoßen, wenn Sie dies als Regressionsproblem ohne geeignete Transformation modellieren. Zum Beispiel wissen wir, dass die meisten Anrufe wahrscheinlich tagsüber und weniger nachts und am frühen Morgen beantwortet werden. Eine lineare Regression hätte Schwierigkeiten, da die Beziehung wahrscheinlich krummlinig und nicht linear ist. Aus dem gleichen Grund wäre es auch problematisch, dies als Klassifizierungsaufgabe mit logistischer Regression zu behandeln.

Wie von anderen Befragten vorgeschlagen, hilft es, Ihre Daten in Zeiträume umzuklassifizieren, und ich würde vorschlagen, dass Sie zuerst etwas wie einen Entscheidungsbaum oder eine zufällige Gesamtstruktur ausprobieren.

Dies alles könnte ein Fall für einfache beschreibende Statistiken sein. Wenn Sie den Anteil der beantworteten Anrufe nach Tageszeit (aufgeteilt nach Stadt oder einer anderen demografischen Gruppe) darstellen, gibt es eine eindeutige Bestzeit ? Wenn ja, warum sollte man ein Modell komplizieren?

— HEITZ
quelle

Sie könnten Folgendes versuchen:

Teilen Sie den Tag in verschiedene Teile auf - am frühen Morgen, am Morgen, am Mittag, am Nachmittag, am Abend, am späten Abend, in der Nacht usw.
Weisen Sie jedem Teil des Tages Zeitgrenzen zu, z. B. kann der Mittag zwischen 12 und 13 Uhr liegen.
Erstellen Sie 3 neue Etiketten - "Teil des Tages, um den Kunden anzurufen". Weisen Sie jedem positiven Fall (Status des Anrufs = wahr) das entsprechende Etikett zu (morgens / mittags / abends). Diese Etiketten werden in einem Hot-Coded-Format vorliegen, z. B. Prefer_Morning = 0/1, Prefer_Noon, Prefer_Evening usw.
Erstellen Sie 3 Modelle, um vorherzusagen, ob der Lead die Tageszeit morgens / mittags / abends bevorzugt, damit ein Anruf erfolgreich ist.

Darüber hinaus empfehle ich, zusätzliche Funktionen wie Beruf, Geschlecht usw. hinzuzufügen, da die in der Tabelle aufgeführten Funktionen (Stadt usw.) zu mehrdeutig sind und nicht viele Informationen enthalten, um zwischen Kunden zu unterscheiden.

BEARBEITET gemäß Vorschlag in den Kommentaren:

Bei Verwendung des Modells wird jeder Lead als prefers_morning = yes / no, prefers_noon = yes / no und prefers_evening = yes / no klassifiziert. Basierend auf der Tageszeit, beispielsweise am Morgen, kann der Call-Center-Agent (oder die Software) Leads abholen und anrufen, die in der Voreinstellung für den Morgen klassifiziert sind. Wenn es Mittag ist, nimmt die Anrufsoftware die Liste der bevorzugten Mittagsstunden auf und so weiter.

— Sandeep S. Sandhu
quelle

@ sandeep-s-sandhu Dies ist eine einfache Möglichkeit, das Problem in ein datenwissenschaftliches Klassifizierungsproblem umzuwandeln. Es scheint jedoch, dass dieser Ansatz einige Nachteile haben kann: 1. Etiketteninformationen umfassen nur positive Fälle, Verlust der Informationen von negativen Fällen 2. Ein Kunde kann nur eines der Etiketten haben. In der Praxis kann ein Kunde mehr als ein Etikett haben (dh ich bevorzuge es, wenn mich jemand am späten Abend oder in der Nacht anruft). Was denken Sie?

— Nkhuyu

@nkhuyu, 1) das Etikett enthält auch einen negativen Fall. Ich denke, Sie haben die Aussage "Erstellen Sie ein neues Etikett -" Teil des Tages, um den Kunden anzurufen "für jeden positiven Fall (Status des Anrufs = wahr)" falsch verstanden. Mit diesem Schritt soll eine zusätzliche Bezeichnung erstellt werden. Die ursprüngliche Bezeichnung, ob der Anruf erfolgreich war oder nicht, bleibt unverändert. 2) Ja, Sie haben Recht, haben die Antwort bearbeitet, um dies widerzuspiegeln.

— Sandeep S. Sandhu

@ Sandeep-s-Sabdhu Vielen Dank für die Antwort. Ja, ich habe es falsch verstanden. OKAY. Dann haben Sie zwei Etiketten (Anrufstatus, Ihr neues Etikett). Wie können Sie dann dieses Problem lösen? Es ist kein reguläres Klassifizierungsproblem.

— Nkhuyu

@nkhuyu, danke, dass du das bemerkt hast. Ich habe dies jetzt in Schritt 4 bearbeitet und geklärt. Jedes der drei Modelle gibt eine Reihe von Leads an, die den Anruf für diese bestimmte Tageszeit entgegennehmen. Das Call Center verwendet dies, um ihre Anrufe zu priorisieren.

— Sandeep S. Sandhu

Auf Schritt 1 folgt Schritt 3, und ich habe diese vorgeschlagen, um geeignete Etiketten für das Training zu erstellen. Die Hauptabfrage lautete: "Ich muss einen geeigneten Zeitpunkt für den Anruf finden ...". Es ist Sache des OP, zu entscheiden, ob diese morgens / mittags / abends oder detaillierter sein sollen, beispielsweise stundenweise.

— Sandeep S. Sandhu

Ich würde eine logistische Regression verwenden - Sie benötigen Stichproben, bei denen sie nicht erfasst wurden. Dann würde ich die Stunde als saisonalen Dummy-Regressor behandeln (23 Stunden als Dummy-Variablen und einen zum Achsenabschnitt fließen lassen).

Wenn Sie es nicht als saisonalen Dummy-Regressor behandeln, müssen Sie eine Art Transformation durchführen, da die Beziehung nicht linear sein wird.

Jemand schlug zuvor vor, den Nachmittag usw. als kategoriale Variable zu ersetzen. Das ist eine schlechte Idee, weil Sie das Detail haben und dort Details verlieren. Das hätte einen ähnlichen Effekt wie die Verwendung eines optimalen Binning, um die Beziehung linear zu machen, aber ich denke immer noch nicht, dass das funktionieren würde. Probieren Sie die saisonalen Dummy-Regressoren aus.

— Michael Corley MBA LSSBB
quelle