Maßnahme im Data Mining aufheben


36

Ich habe viele Websites durchsucht, um zu wissen, was Lift genau bewirkt. Die Ergebnisse, die ich gefunden habe, handelten von der Verwendung in Anwendungen, die sich nicht von selbst unterscheiden.

Ich kenne die Unterstützungs- und Vertrauensfunktion. Laut Wikipedia ist Lift beim Data Mining ein Maß für die Leistung eines Modells bei der Vorhersage oder Klassifizierung von Fällen, gemessen an einem Zufallsauswahlmodell. Aber wie? Vertrauen * Unterstützung ist der Wert des Auftriebs Ich habe auch nach anderen Formeln gesucht, kann aber nicht verstehen, warum die Auftriebsdiagramme für die Genauigkeit der vorhergesagten Werte wichtig sind. Ich möchte wissen, welche Richtlinien und Gründe hinter dem Auftrieb stehen.


2
Brauchen Kontext hier. Im Marketing wäre dies ein Diagramm, das die prozentuale Umsatzsteigerung anzeigt, die von verschiedenen Marketingaktivitäten erwartet wird, aber Sie haben wahrscheinlich einen anderen Kontext im Auge.
Radfahrer

Antworten:


59

Ich werde ein Beispiel geben, wie "heben" nützlich ist ...

Stellen Sie sich vor, Sie führen eine Direktwerbungskampagne durch, in der Sie den Kunden ein Angebot zusenden, in der Hoffnung, dass sie darauf antworten. Historische Daten zeigen, dass, wenn Sie Ihren Kundenstamm völlig zufällig mailen, ungefähr 8% von ihnen auf das Mailing antworten (dh sie kommen herein und kaufen mit dem Angebot ein). Wenn Sie also 1.000 Kunden mailen, können Sie mit 80 Respondern rechnen.

Nun entscheiden Sie sich, ein logistisches Regressionsmodell an Ihre historischen Daten anzupassen, um Muster zu finden, die vorhersagen, ob ein Kunde wahrscheinlich auf ein Mailing antwortet. Mit dem logistischen Regressionsmodell wird jedem Kunden eine Reaktionswahrscheinlichkeit zugewiesen, und Sie können die Genauigkeit bewerten, da Sie wissen, ob er tatsächlich reagiert hat. Sobald jedem Kunden seine Wahrscheinlichkeit zugewiesen wurde, ordnen Sie ihn dem Kunden mit der höchsten bis zur niedrigsten Punktzahl zu. Dann könnten Sie einige "Lift" -Grafiken wie diese erzeugen:

Bildbeschreibung hier eingeben

Ignorieren Sie das Top-Chart vorerst. Die untere Tabelle besagt, dass nach dem Sortieren der Kunden nach ihrer Reaktionswahrscheinlichkeit (hoch nach niedrig) und dem Aufteilen in zehn gleiche Fächer die Antwortrate in Fach 1 (die oberen 10% der Kunden) 29 beträgt % versus 8% der zufälligen Kunden, bei einem Lift von 29/8 = 3,63. Bis wir Kunden in der 4. Klasse erreichen, haben wir so viele der vorherigen drei Kunden erfasst, dass die Rücklaufquote unter der erwarteten Zufallsrate liegt.

In der oberen Tabelle ist zu sehen, dass wir bei Verwendung der Wahrscheinlichkeitswerte für Kunden 60% der gesamten Antworten erhalten, die wir zufällig erhalten, wenn wir nur die besten 30% der bewerteten Kunden versenden. Das heißt, mit dem Modell können wir 60% des erwarteten Gewinns für 30% der Postkosten erzielen, indem wir nur die besten 30% der bewerteten Kunden verschicken, worauf sich Lift wirklich bezieht.


Nette Erklärung, vielen Dank. Bitte sagen Sie mir in der Lifttabelle, warum wir eine Zufallsstichprobe benötigen. Ich habe verstanden, dass 8% zufällig sind, aber warum wird es benötigt, um zufällig zurückzuverfolgen? Ich habe ein anderes Diagramm gesehen, das den Durchschnitt der Werte nachzeichnet, und ich kenne auch nicht den Grund für die Existenz des Durchschnitts
Nickool,

Das, was ich bekam, ist, dass lift = 3.63 besagt, dass wir bis Spalte 4 bessere Rücklaufquoten als 8% haben. Dann nehmen Sie einfach Spalte 1 an und wenn Sie 29% (30% in der Schätzung) in Betracht ziehen, haben Sie nur Spalte 1 in Betracht gezogen was hat der lift dann mit 3.63 gemacht?
Nickool

1
Ach du lieber Gott! Ich habe meinen Fehler verstanden, die 30% beziehen sich nicht auf die 29%, die 30% bedeuten 3/10 3 erste Datenspalten! Jetzt habe ich es ganz verstanden: DI bin so glücklich !!!!! danke>: D <
Nickool

1
@nik: Angenommen, es kostet 1 US-Dollar in Papierform und Porto, um jeden Kunden zu mailen. Naiv könnten wir ausgeben, 1 = Postkosten jetzt 300 und wir erwarten 48 Kunden. Als nächstes schätzen wir, wie viel Gewinn von jedem Kunden zu erwarten ist. Wir haben 300-get-48-Kunden und welche wir wählen, hängt vom Gewinn pro Kunde ab. 1000mailingall1000customersandweexpect8300)thenweexpecttoget601000get80customersvsSpend
Josh Hemann

1
@ user1700890 Das obere Diagramm wird häufig als kumulatives Gewinndiagramm bezeichnet, während das untere Diagramm nicht mit einem kumulativen Liftdiagramm identisch ist (bei dem der Lift niemals niedriger als 1 sein kann), sondern die Daten in zehn separate Bins unterteilt.
RobertF

3

Lift-Diagramme stellen das Verhältnis zwischen der Reaktion eines Modells und der Abwesenheit dieses Modells dar. Typischerweise wird dies durch den Prozentsatz der Fälle in der X-Achse und die Häufigkeit, mit der die Reaktion in der Y-Achse besser ist, dargestellt. Zum Beispiel bedeutet ein Modell mit Lift = 2 am Punkt 10%:

  • Ohne ein Modell mit 10% der Bevölkerung (ohne Ordnung, weil kein Modell) wäre der Anteil von y = 1 10% der Gesamtbevölkerung mit y = 1.

  • Mit dem Modell erhalten wir das 2-fache dieses Anteils, dh wir erwarten, dass 20% der Gesamtpopulation mit y = 1 erhalten werden. Die ersten 10% sind die Top-10% -Vorhersagen


3

Lift ist nichts anderes als das Verhältnis von Vertrauen zu erwartetem Vertrauen. Im Bereich der Assoziationsregeln - "Ein Liftverhältnis von mehr als 1,0 impliziert, dass die Beziehung zwischen dem Antezedenten und dem Konsequenten signifikanter ist als erwartet, wenn die beiden Sätze unabhängig wären. Je größer das Liftverhältnis, desto signifikanter ist die Assoziation. " Beispielsweise-

Wenn in einer Supermarktdatenbank 100.000 Kassentransaktionen vorhanden sind, von denen 2.000 die Artikel A und B und 800 den Artikel C enthalten, gilt die Zuordnungsregel "Wenn A und B gekauft werden, wird C auf demselben gekauft trip "hat eine Unterstützung von 800 Transaktionen (alternativ 0,8% = 800 / 100.000) und ein Vertrauen von 40% (= 800 / 2.000). Eine Möglichkeit, sich Unterstützung vorzustellen, besteht darin, dass es wahrscheinlich ist, dass eine zufällig ausgewählte Transaktion aus der Datenbank alle Elemente im Vorgänger und die Konsequenz enthält, während das Vertrauen die bedingte Wahrscheinlichkeit ist, dass eine zufällig ausgewählte Transaktion alle Elemente im Vorgänger enthält infolgedessen, vorausgesetzt, dass die Transaktion alle Elemente in der Vorgeschichte enthält.

Unter Verwendung des obigen Beispiels bedeutet das erwartete Vertrauen in diesem Fall "Vertrauen, wenn der Kauf von A und B die Wahrscheinlichkeit des Kaufs von C nicht erhöht". Es ist die Anzahl der Transaktionen, die das Ergebnis dividiert durch die Gesamtzahl der Transaktionen enthält. Angenommen, die Gesamtzahl der Transaktionen für C beträgt 5.000. Das erwartete Vertrauen beträgt somit 5.000 / 1.00.000 = 5%. Für das Supermarkt-Beispiel ist Lift = Confidence / Expected Confidence = 40% / 5% = 8. Lift ist also ein Wert, der Aufschluss über die Wahrscheinlichkeitszunahme des dann (konsequenten) gegebenen if-Teils gibt. Hier ist der Link zum Quellartikel


2

Der Aufzug ist nur ein Maß, um die Wichtigkeit der Regel zu messen

Es ist ein Maß, mit dem überprüft werden kann, ob diese Regel zufällig in der Liste enthalten ist oder von uns erwartet wird

Aufzug = Vertrauen / erwartetes Vertrauen


0

Angenommen, wir verwenden das Beispiel eines Lebensmittelgeschäfts, das die Gültigkeit einer Zuordnungsregel prüft, die eine Vorgeschichte und eine Konsequenz hat (zum Beispiel: "Wenn ein Kunde Brot kauft, kauft er auch Butter").

Wenn Sie sich alle Transaktionen ansehen und eine nach dem Zufallsprinzip untersuchen, ist die Wahrscheinlichkeit, dass diese Transaktion die Konsequenz enthält, "Erwartete Zuverlässigkeit". Wenn Sie sich alle Transaktionen ansehen, die das Antezedens enthalten, und eine zufällige Transaktion aus diesen auswählen, ist die Wahrscheinlichkeit, dass diese Transaktion die Konsequenz enthält, "Vertrauen". "Lift" ist im Wesentlichen der Unterschied zwischen diesen beiden. Mit lift können wir die Beziehung zwischen zwei Elementen mit hohem Vertrauen untersuchen (wenn das Vertrauen niedrig ist, ist das Heben im Wesentlichen irrelevant).

Wenn sie ein hohes Vertrauen und einen geringen Auftrieb haben, wissen wir immer noch, dass die Artikel häufig zusammen gekauft werden, aber wir wissen nicht, ob die Konsequenz aufgrund der Vorgeschichte eintrifft oder ob es nur ein Zufall ist (vielleicht werden sie beide oft zusammen gekauft, weil sie es sind) sind beide sehr beliebte Produkte, haben aber keinerlei Beziehung zueinander.

Wenn jedoch das Vertrauen und der Auftrieb beide hoch sind, können wir vernünftigerweise davon ausgehen, dass die Konsequenz aufgrund des vorangegangenen Ereignisses eintritt. Je höher der Auftrieb, desto geringer ist die Wahrscheinlichkeit, dass die Beziehung zwischen den beiden Elementen nur ein Zufall ist. In mathematischen Begriffen:

Aufzug = Vertrauen / erwartetes Vertrauen

Wenn in unserem Beispiel das Vertrauen in unsere Regel hoch und der Lift niedrig war, würde dies bedeuten, dass viele Kunden Brot und Butter kaufen, aber wir wissen nicht, ob dies auf eine besondere Beziehung zwischen Brot und Butter zurückzuführen ist oder nicht brot und butter sind einfach beliebte einzelteile und die tatsache, dass sie oft zusammen in einkaufswagen auftauchen, ist nur ein zufall. Wenn das Vertrauen in unsere Regel hoch und der Auftrieb hoch ist, deutet dies auf eine ziemlich starke Korrelation zwischen der Vorgeschichte und der Konsequenz hin, was bedeutet, dass wir davon ausgehen können, dass Kunden Butter kaufen, weil sie Brot kaufen. Je höher der Lift ist, desto sicherer können wir in dieser Assoziation sein.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.