Inwieweit ist der Unterschied zwischen Korrelation und Kausalität für Google relevant?


21

Kontext

Eine beliebte Frage auf dieser Website lautet " Was sind häufige statistische Sünden? ". Eine der genannten Sünden ist die Annahme, dass "Korrelation Kausalität impliziert ..." ein Zusammenhang ist

In den Kommentaren mit 5 positiven Stimmen heißt es dann: "Google verdient 65 Milliarden Dollar pro Jahr, ohne sich um den Unterschied zu kümmern."

Ich war der Meinung, dass dies ein nützlicher Diskussionspunkt sein könnte, um die Unterscheidung zwischen Korrelation und Kausalität und die praktische Relevanz der Unterscheidung zu verdeutlichen. und vielleicht könnte es etwas über die Beziehung zwischen maschinellem Lernen und der Unterscheidung zwischen Korrelation und Kausalität hervorheben.

Ich gehe davon aus, dass sich der Kommentar auf Technologien bezieht, die der Generierung von Suchmaschinenergebnissen und Technologien zur Anzeige von Werbung zugrunde liegen.

Frage

  • Inwieweit ist die Unterscheidung zwischen Korrelation und Kausalität für die Einkommensgenerierung von Google relevant, wobei der Schwerpunkt möglicherweise auf der Einkommensgenerierung durch Technologien zur Anzeige von Werbung und hochwertigen Suchergebnissen liegt?

Das ist lustig, ich habe mir diesen Kommentar etwas früher angesehen.
Iterator

2
Der Revolutions-Blog hatte letzte Woche einen Beitrag darüber veröffentlicht, wie Google R verwendet, um Online-Werbung effektiver zu machen . Leider gehen sie nicht zu sehr ins Detail ...
nico

Antworten:


13

Die einfache Antwort lautet, dass sich Google (oder jeder andere) für die Unterscheidung interessieren sollte, sofern er beabsichtigt, einzugreifen . Kausales Wissen informiert Sie über die Auswirkungen von Interventionen (Aktionen) in einem bestimmten Bereich.

Wenn Google beispielsweise die Klickraten für Anzeigen erhöhen, die Anzahl der Nutzer von GMail oder Google+ erhöhen oder Nutzer dazu veranlassen möchte, Google anstelle von Bing zu verwenden, müssen sie die Auswirkungen potenzieller Aktionen kennen (z. B. Erhöhung der Klickraten) die Schriftgröße von Anzeigen, die Werbung für Google+ in Printmagazinen oder die Veröffentlichung von Unterschieden zwischen den Google- und Bing-Suchergebnissen. Die Korrelation ist gut genug, damit Googles Suchmaschine gut funktioniert, aber für ihre anderen Systeme (und ihr Geschäft insgesamt) ist die Unterscheidung oft von Bedeutung.

Es ist erwähnenswert, dass Google (und viele Unternehmen mit webbasierten Unternehmen) ständig Online-Experimente durchführen. Dies ist die einfachste und beste Möglichkeit, kausale Abhängigkeiten zu identifizieren und abzuschätzen.


(+1) Solange die Prädiktoren a) korrelieren und b) es erlauben, zukünftige Ergebnisse korrekt vorherzusagen, sollte man sich nicht um die Ursache kümmern.
Steffen

2
Wir treten in eine Ära der Wiederbelebung der experimentellen Forschung in den Verhaltenswissenschaften ein. In den 1950er Jahren war fast die gesamte Statistik experimentelle Forschung mit Anwendungen in der Landwirtschaft. Aber um die 1980er Jahre haben die Leute erkannt, dass diese Techniken bei Beobachtungsdaten nicht viel helfen, was alles ist, was man in den meisten Sozialwissenschaften tun kann. Zumindest in den Nischen der Online-Marketingforschung, wenn Sie Amazon, Google oder Bing sind, können Sie jetzt Experimente durchführen und die sauberste Form der kausalen Folgerung erhalten, die möglich ist.
StasK

@StasK, In Anbetracht der Stichprobengrößen, mit denen sie wahrscheinlich sogar bei einem "kurzen" Experiment zu tun haben, werden sie wahrscheinlich sehr nützliche Ergebnisse liefern. Was für eine Schatzkammer das sein muss.
Brandon Bertelsen

Es ist interessant festzustellen, dass Googles "Gruppen" -Funktion wirklich sehr, sehr schlecht ist. Es ist so, als hätten sie eine Gruppendiskussionsfazilität aufgebaut, die mit Gut korreliert, aber sie haben nicht herausgefunden, warum eine Gruppendiskussionsfazilität gut ist. Dies ist jedoch ein häufiges Problem im Marketing - Merkmale von Konkurrenzprodukten werden nur allzu oft kopiert, ohne die zugrunde liegende Motivation für die Merkmale zu verstehen.
Daniel R Hicks

1
@StasK: Die reale Welt ist wahrscheinlich nicht so ideal, wie Sie hier vortäuschen. Ich stimme zu, dass Experimente ein großartiges Werkzeug sind, um kausale Schlussfolgerungen zu ziehen. Experimente werfen jedoch auch spezifische Probleme auf. Manchmal ist es besser, kausale Schlussfolgerungen mit einer Beobachtungsstudie zu ziehen, als mit einem Experiment. Ein Kritikpunkt könnte sein, inwiefern Ergebnisse von kontrollierten Experimenten auf eine "reale" Umgebung verallgemeinert werden können. Einige Autoren nennen dies "externe Gültigkeit".

6

Erstens ist es nur ein Witz und falsch. Google hat viele sehr talentierte Statistiker, Experten für Informationsbeschaffung, Linguisten, Ökonomen, einige Psychologen und andere. Diese Leute verbringen viel Zeit damit, Nicht-Statistiker über den Unterschied zwischen Korrelation und Kausalität aufzuklären. Angesichts der Tatsache, dass es sich um eine große Organisation handelt, kann es Taschen oder sogar große Taschen von Unwissenheit geben, aber die Behauptung ist definitiv falsch. Darüber hinaus steht ein Großteil dieser Ausbildung Kunden, insbesondere Werbetreibenden, gegenüber.

Tiefere Antwort: Der Unterschied ist extrem wichtig. Schauen Sie sich einfach das Ranking der Suchergebnisse an und lassen Sie mich über die "Korrelation" hinausgehen, um Ähnlichkeitsmaße, Bewertungsfunktionen usw. einzuschließen. Einige Seiten werden als gute Ergebnisse für bestimmte Suchanfragen bewertet. Diese haben eine Vielzahl von Prädiktorfunktionen, die für ihr Ranking wichtig sind. Im Gegensatz zu diesen guten Seiten, die gute Ergebnisse für Abfragen darstellen, handelt es sich bei einer Gruppe von Webseiten um Seiten, die für dieselben Abfragen sehr schlechte Ergebnisse aufweisen. Die Ersteller dieser Seiten geben sich jedoch viel Mühe, damit sie aus numerischer Sicht wie gute Seiten aussehen, wie z. B. Textübereinstimmungen, Internetverknüpfungen und mehr. Nur weil diese Seiten numerisch "ähnlich" zu guten Seiten sind, bedeutet dies nicht, dass es sich tatsächlich um gute Seiten handelt. Aus diesem Grund hat Google viel investiert und wird auch weiterhin große Anstrengungen unternehmen, um festzustellen, welche vernünftigen Funktionen gute und schlechte Seiten voneinander unterscheiden.

Dies ist keine wirkliche Korrelation und Kausalität, aber es ist tiefer als das. Gute Seiten für bestimmte Abfragen werden möglicherweise in einen numerischen Bereich abgebildet, in dem sie ähnlich und von vielen irrelevanten oder schlechten Seiten verschieden erscheinen. Dies bedeutet jedoch nicht, dass die Ergebnisse aus derselben Teilmenge "hoher Qualität" stammen, da sie sich im selben Bereich des Featurebereichs befinden des Webs.

Einfachere Antwort: Eine sehr einfache Perspektive besteht darin, sich mit der Rangfolge der Ergebnisse zu befassen. Das beste Ergebnis sollte zuerst sein, aber nur weil etwas an erster Stelle steht, heißt das noch lange nicht, dass es das beste Ergebnis ist. Anhand einiger Bewertungsmaßstäbe können Sie feststellen, dass das Ranking von Google mit einem goldenen Standard für Qualitätsbewertungen korreliert. Dies bedeutet jedoch nicht, dass das Ranking besagt, dass die Ergebnisse in Bezug auf Qualität und Relevanz wirklich in dieser Reihenfolge sind.

Update (dritte Antwort): Im Laufe der Zeit gibt es einen weiteren Aspekt, der uns alle betrifft: Das beste Google-Ergebnis kann als maßgeblich eingestuft werden, da es das beste Ergebnis bei Google ist. Obwohl die Linkanalyse (z. B. "PageRank" - eine Methode zur Linkanalyse) den Versuch darstellt, die wahrgenommene Autorität widerzuspiegeln, können mit der Zeit neue Seiten zu einem Thema diese Linkstruktur einfach durch Verlinken auf das Top-Ergebnis bei Google verstärken. Eine neuere Seite, die maßgeblicher ist, hat ein Problem mit dem Vorsprung im Vergleich zum ersten Ergebnis. Wie Google will die relevanteste Seite liefern derzeit eine Vielzahl von Faktoren, einschließlich einem sogenannten „Rich-get-reicher“ Phänomen, entsteht aufgrund einer impliziten Wirkung von Korrelation auf wahrgenommen Verursachung.

Update (vierte Antwort): Ich erkannte (für einen Kommentar unten), dass es nützlich sein könnte, Platons Allegorie der Höhle zu lesen, um ein Gefühl dafür zu bekommen, wie Korrelation und Kausalität als Ergebnis von "Reflexionen / Projektionen" der Realität und wie interpretiert werden wir (oder unsere maschinen) nehmen es wahr. Die Korrelation, die streng auf Pearsons Korrelation beschränkt ist, ist als Interpretation des Problems des Missverständnisses von Assoziation (weiter als nur Korrelation) und Kausalität viel zu begrenzt.


Ich stimme dir nicht zu. Wenn jemand die Prädiktoren missbraucht, um einen künstlichen hohen Seitenrang zu erstellen, impliziert das Ziel die Prädiktoren, im Gegensatz zu dem, was Google beim Erstellen des Algorithmus für den Seitenrang beabsichtigt hat. Da die wahre Metrik dieselbe bleibt ("die richtige Seite", zu der der Seitenrang nur eine Annäherung ist), verlieren die Prädiktoren ihre Korrelation und müssen daher geändert werden. Daher kümmert sich Google nicht um die Kausalität in Bezug auf die wahre Metrik "die richtige Seite", sondern um die ungefähre, als Page-Rank bezeichnete.
Steffen

Keine Beleidigung, aber Sie scheinen ein wenig verwirrt über verschiedene Probleme zu sein. "PageRank" ist ein klar definiertes Konzept und nur ein Prädiktor. Das Hauptproblem, das Sie übersehen, ist der industrielle Prozess, der mit der Definition und Erstellung eines Schulungssatzes sowie der Anpassung der Benutzererwartungen verbunden ist. Leider sind die Kommentare ein schrecklicher Ort, um eine lange Einführung in das angewandte maschinelle Lernen zu beginnen.
Iterator

Meinen Sie damit, dass im Prozess der Prädiktorgenerierung und -evaluierung durch Expertenwissen nur "Kausalprädiktoren" generiert werden? Solange man einem solchen Prozess folgt und nicht auf einen Trial-and-Error-Ansatz zurückgreift, hat man recht, google cares;).
steffen 10.08.11

Du bist ganz richtig. Das Problem ist, dass es mit der Zeit immens schwierig wird, Prädiktoren zu finden, die die Kausalität widerspiegeln, wenn Sie von Gegnern vereitelt werden. Wenn ein Prädiktor keine kausale Erklärung hat (weil sie in der Natur selten wirklich kausal sind), ist es schwer zu rechtfertigen, wann sich die Bösewichte entwickeln und diese Region des Prädiktorraums durcheinander bringen.
Iterator

2
@ Brandon: Kein Scherz. Dies lässt sich am besten veranschaulichen, wenn ich nach aktuellen oder bevorstehenden Ereignissen suche. Immer häufiger muss ich das aktuelle Jahr oder sogar das aktuelle MM-JJJJ eingeben (oder eine erweiterte Suche durchführen), um die relevanten Seiten zu erhalten. Es ist ein Kompromiss zwischen Linkstruktur und Aktualität und Google macht es falsch, ohne mehr Hilfe von mir. Tatsächlich hat mich das ein paar Mal zu Bing geführt, nur aus Verärgerung, weil ich versucht habe, alte Seiten zu ignorieren. Das Gleiche gilt für SO: Erste Antworten scheinen häufig mehr positive Stimmen zu erhalten als spätere Antworten, was möglicherweise zutreffender ist. :)
Iterator

5

Autor des Witzes hier.

Der Kommentar wurde teilweise durch einen Vortrag von David Mease (bei Google) inspiriert, in dem er sagte, und ich paraphrasieren, Unternehmen Kfz - Versicherung egal , ob männlich sein Ursachen mehr Unfälle, solange sie korreliert ist, sie mehr in Rechnung stellen müssen. Tatsächlich ist es unmöglich, das Geschlecht einer Person in einem Experiment zu ändern, sodass die Ursache niemals aufgezeigt werden konnte.

Auf die gleiche Weise muss sich Google nicht wirklich darum kümmern, ob die Farbe Rot jemanden dazu bringt , auf eine Anzeige zu klicken. Wenn sie mit mehr Klicks korreliert, kann Google mehr für diese Anzeige verlangen.

Es wurde auch von diesem Artikel in Wired inspiriert: Das Ende der Theorie: Die Datenflut macht die wissenschaftliche Methode überflüssig . Ein Zitat:

"Die Gründungsphilosophie von Google lautet, dass wir nicht wissen, warum diese Seite besser ist als diese: Wenn die Statistiken eingehender Links dies bestätigen, ist das gut genug."

Offensichtlich hat Google viele sehr kluge Leute, die den Unterschied zwischen Kausalität und Korrelation kennen, aber in ihrem Fall können sie viel Geld verdienen, ohne sich darum zu kümmern.


1
Wie ich bereits erwähnte, gibt es bei Google eine Menge Leute, die sich tatsächlich darum kümmern, ebenso wie David Mease. (Übrigens ist er nicht in Stanford, es sei denn, ich habe Neuigkeiten verpasst. Vielleicht haben Sie an seinem Kurs 2007 teilgenommen?) Aber Sie haben Recht, genau wie viele Leute nicht wissen, wie Verbrennungsmotoren funktionieren, es hat keinen Einfluss ihre Fähigkeit zu fahren. Gute Autoingenieure und -forscher sorgen jedoch dafür, dass es besser funktioniert, weil sie es tun. Gleiches gilt für die Ingenieure und Forscher bei Google. Leider ist dieser Artikel von Wired nicht die präziseste Präsentation von Norvigs These.
Iterator

Danke Neil für den Zusammenhang. Ich hoffe, es macht Ihnen nichts aus, wenn ich Ihren Kommentar als Anregung für eine Frage verwende.
Jeromy Anglim

@Jeromy, überhaupt nicht
Neil McGuigan

1

Ich stimme David zu : Der Unterschied ist wichtig, wenn Sie eingreifen möchten, und Google kann die Ergebnisse von Eingriffen testen, indem es kontrollierte Experimente durchführt. (Der optimale Zeitplan für solche Experimente hängt von Ihren Kausalhypothesen ab, die Sie aus früheren Experimenten sowie Beobachtungsdaten gelernt haben. Korrelationen sind also immer noch nützlich!)

Es gibt einen zweiten Grund, warum Google möglicherweise Kausalzusammenhänge lernen möchte. Kausale Beziehungen sind robuster gegenüber Interventionen anderer Spieler. Interventionen sind in der Regel lokal, daher können sie einen Teil des Kausalnetzwerks verändern, alle anderen Kausalmechanismen jedoch unverändert lassen. Im Gegensatz dazu können prädiktive Beziehungen fehlschlagen, wenn ein entfernter Kausalzusammenhang unterbrochen wird. Das Internet ändert sich ständig, und Google sollte sich dafür interessieren, welche Funktionen der Online-Umgebung für diese Änderungen robuster sind.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.