Erstens ist es nur ein Witz und falsch. Google hat viele sehr talentierte Statistiker, Experten für Informationsbeschaffung, Linguisten, Ökonomen, einige Psychologen und andere. Diese Leute verbringen viel Zeit damit, Nicht-Statistiker über den Unterschied zwischen Korrelation und Kausalität aufzuklären. Angesichts der Tatsache, dass es sich um eine große Organisation handelt, kann es Taschen oder sogar große Taschen von Unwissenheit geben, aber die Behauptung ist definitiv falsch. Darüber hinaus steht ein Großteil dieser Ausbildung Kunden, insbesondere Werbetreibenden, gegenüber.
Tiefere Antwort: Der Unterschied ist extrem wichtig. Schauen Sie sich einfach das Ranking der Suchergebnisse an und lassen Sie mich über die "Korrelation" hinausgehen, um Ähnlichkeitsmaße, Bewertungsfunktionen usw. einzuschließen. Einige Seiten werden als gute Ergebnisse für bestimmte Suchanfragen bewertet. Diese haben eine Vielzahl von Prädiktorfunktionen, die für ihr Ranking wichtig sind. Im Gegensatz zu diesen guten Seiten, die gute Ergebnisse für Abfragen darstellen, handelt es sich bei einer Gruppe von Webseiten um Seiten, die für dieselben Abfragen sehr schlechte Ergebnisse aufweisen. Die Ersteller dieser Seiten geben sich jedoch viel Mühe, damit sie aus numerischer Sicht wie gute Seiten aussehen, wie z. B. Textübereinstimmungen, Internetverknüpfungen und mehr. Nur weil diese Seiten numerisch "ähnlich" zu guten Seiten sind, bedeutet dies nicht, dass es sich tatsächlich um gute Seiten handelt. Aus diesem Grund hat Google viel investiert und wird auch weiterhin große Anstrengungen unternehmen, um festzustellen, welche vernünftigen Funktionen gute und schlechte Seiten voneinander unterscheiden.
Dies ist keine wirkliche Korrelation und Kausalität, aber es ist tiefer als das. Gute Seiten für bestimmte Abfragen werden möglicherweise in einen numerischen Bereich abgebildet, in dem sie ähnlich und von vielen irrelevanten oder schlechten Seiten verschieden erscheinen. Dies bedeutet jedoch nicht, dass die Ergebnisse aus derselben Teilmenge "hoher Qualität" stammen, da sie sich im selben Bereich des Featurebereichs befinden des Webs.
Einfachere Antwort: Eine sehr einfache Perspektive besteht darin, sich mit der Rangfolge der Ergebnisse zu befassen. Das beste Ergebnis sollte zuerst sein, aber nur weil etwas an erster Stelle steht, heißt das noch lange nicht, dass es das beste Ergebnis ist. Anhand einiger Bewertungsmaßstäbe können Sie feststellen, dass das Ranking von Google mit einem goldenen Standard für Qualitätsbewertungen korreliert. Dies bedeutet jedoch nicht, dass das Ranking besagt, dass die Ergebnisse in Bezug auf Qualität und Relevanz wirklich in dieser Reihenfolge sind.
Update (dritte Antwort): Im Laufe der Zeit gibt es einen weiteren Aspekt, der uns alle betrifft: Das beste Google-Ergebnis kann als maßgeblich eingestuft werden, da es das beste Ergebnis bei Google ist. Obwohl die Linkanalyse (z. B. "PageRank" - eine Methode zur Linkanalyse) den Versuch darstellt, die wahrgenommene Autorität widerzuspiegeln, können mit der Zeit neue Seiten zu einem Thema diese Linkstruktur einfach durch Verlinken auf das Top-Ergebnis bei Google verstärken. Eine neuere Seite, die maßgeblicher ist, hat ein Problem mit dem Vorsprung im Vergleich zum ersten Ergebnis. Wie Google will die relevanteste Seite liefern derzeit eine Vielzahl von Faktoren, einschließlich einem sogenannten „Rich-get-reicher“ Phänomen, entsteht aufgrund einer impliziten Wirkung von Korrelation auf wahrgenommen Verursachung.
Update (vierte Antwort): Ich erkannte (für einen Kommentar unten), dass es nützlich sein könnte, Platons Allegorie der Höhle zu lesen, um ein Gefühl dafür zu bekommen, wie Korrelation und Kausalität als Ergebnis von "Reflexionen / Projektionen" der Realität und wie interpretiert werden wir (oder unsere maschinen) nehmen es wahr. Die Korrelation, die streng auf Pearsons Korrelation beschränkt ist, ist als Interpretation des Problems des Missverständnisses von Assoziation (weiter als nur Korrelation) und Kausalität viel zu begrenzt.