Es gibt seit Jahren Gerüchte, dass Google alle verfügbaren Funktionen für die Erstellung seiner Vorhersagealgorithmen nutzt. Bisher sind jedoch keine Haftungsausschlüsse, Erklärungen oder Whitepapers aufgetaucht, die dieses Gerücht klarstellen und / oder bestreiten. Nicht einmal ihre veröffentlichten Patente tragen zum Verständnis bei. Daher weiß nach meinem besten Wissen niemand außerhalb von Google, was er tut.
/ * Update im September 2019, ein Google Tensorflow-Evangelist hat in einer Präsentation berichtet, dass Google-Ingenieure regelmäßig über 5 Milliarden Parameter für die aktuelle Version von PageRank auswerten . * /
Wie das OP feststellt, besteht eines der größten Probleme bei der prädiktiven Modellierung in der Verknüpfung von klassischem Hypothesentest und sorgfältiger Modellspezifikation mit reinem Data Mining. Der klassisch Ausgebildete kann ziemlich dogmatisch über die Notwendigkeit von "Strenge" in der Modellgestaltung und -entwicklung werden. Tatsache ist, dass das klassische Framework, wenn es mit einer großen Anzahl von Kandidaten-Prädiktoren und mehreren möglichen Zielen oder abhängigen Variablen konfrontiert wird, weder funktioniert, noch eine nützliche Anleitung bietet. Zahlreiche neuere Veröffentlichungen beschreiben dieses Dilemma aus Chattopadhyay und Lipsons brillantem Papier Data Smashing: Aufdecken der lauernden Reihenfolge in Daten http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Der entscheidende Engpass besteht darin, dass die meisten Datenvergleichsalgorithmen heutzutage von einem Experten ausgeführt werden, um die für den Vergleich relevanten "Merkmale" der Daten zu bestimmen. Hier schlagen wir ein neues Prinzip zur Schätzung der Ähnlichkeit zwischen den Quellen beliebiger Datenströme vor, bei dem weder Domänenwissen noch Lernen zum Einsatz kommen.
Zum letztjährigen VRE-Papier über Probleme der Vorhersagepolitik von Kleinberg et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 Dies macht Data Mining und Prognosen zu nützlichen Instrumenten für die wirtschaftspolitische Entscheidungsfindung. "
Tatsache ist, dass die größere Frage in Höhe von 64.000 US-Dollar die weitreichende Veränderung des Denkens und der Herausforderungen gegenüber dem klassischen Rahmen für Hypothesentests ist, die zum Beispiel in diesem Edge.org- Symposium über "veraltetes" wissenschaftliches Denken enthalten sind. Https://www.edge.org/ responses / what-scientific-idea-is-ready-for-pensioned sowie dieser kürzlich erschienene Artikel von Eric Beinhocker über die "New Economics", der einige radikale Vorschläge zur Integration verschiedenster Disziplinen wie Verhaltensökonomie, Komplexitätstheorie und Vorhersagemodell enthält Entwicklung, Netzwerk- und Portfoliotheorie als Plattform für die Implementierung und Umsetzung von Richtlinien https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Selbstverständlich gehen diese Fragen weit über rein wirtschaftliche Belange hinaus und legen den Schluss nahe, dass sich die wissenschaftlichen Paradigmen grundlegend ändern. Die sich wandelnden Ansichten sind ebenso grundlegend wie die Unterscheidung zwischen reduktionistischen, Occam's Razor-like-model-building und Epicurus 'expansivem Prinzip der Fülle oder mehrere Erklärungen, die ungefähr besagen, dass, wenn mehrere Ergebnisse etwas erklären, sie alle beibehalten ... https: // de. wikipedia.org/wiki/Principle_of_plenitude
Natürlich sind Leute wie Beinhocker völlig frei von praktischen Bedenken hinsichtlich angewandter statistischer Lösungen für dieses sich weiterentwickelnde Paradigma. Für die kniffligen Fragen der Auswahl ultrahoher dimensionaler Variablen ist das OP relativ unspezifisch in Bezug auf praktikable Ansätze zur Modellbildung, bei denen möglicherweise Lasso, LAR, schrittweise Algorithmen oder "Elefantenmodelle" zum Einsatz kommen, die alle verfügbaren Informationen verwenden. Die Realität ist, dass Sie selbst mit AWS oder einem Supercomputer nicht alle verfügbaren Informationen gleichzeitig nutzen können - es ist einfach nicht genug RAM vorhanden, um alles zu laden. zB die Entdeckung des NSF in komplexen oder massiven Datensätzen: Gemeinsame statistische ThemenAlgorithmen für massives Data Mining zu "teilen und zu erobern", z. B. Wang et al., A Survey of Statistical Methods und Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf sowie Leskovec et al Buch Mining von massiven Datensätzen http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Inzwischen gibt es buchstäblich Hunderte, wenn nicht Tausende von Artikeln, die sich mit verschiedenen Aspekten dieser Herausforderungen befassen, und die alle ganz unterschiedliche Analyse-Engines als Kern der Divide-and-Conquer-Algorithmen vorschlagen. unbeaufsichtigte "Deep Learning" -Modelle; Zufallsmatrixtheorie angewendet auf massive Kovarianzkonstruktion; Bayes'sche Tensormodelle für die klassische, überwachte logistische Regression und mehr. Vor ungefähr fünfzehn Jahren konzentrierte sich die Debatte hauptsächlich auf Fragen nach den relativen Vorzügen hierarchischer Bayes'scher Lösungen im Vergleich zu häufig auftretenden endlichen Mischungsmodellen. In einem Artikel, der sich mit diesen Problemen befasst, haben Ainslie et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfkamen zu dem Schluss, dass die unterschiedlichen theoretischen Ansätze in der Praxis weitgehend gleichwertige Ergebnisse erbrachten, mit Ausnahme von Problemen mit spärlichen und / oder hochdimensionalen Daten, bei denen HB-Modelle den Vorteil hatten. Mit dem Aufkommen von D & C-Problemumgehungen werden heute alle Arbitrage-HB-Modelle eliminiert, die in der Vergangenheit möglicherweise verwendet wurden.
Die Grundlogik dieser D & C-Problemumgehungen sind im Großen und Ganzen Erweiterungen von Breimans berühmter Zufallsforsttechnik, die sich auf das bootstrapped Resampling von Beobachtungen und Merkmalen stützte. Breiman arbeitete Ende der 90er Jahre auf einer einzigen CPU, als massive Daten ein paar Dutzend Auftritte und ein paar tausend Features bedeuteten. Auf den heutigen massiv parallelen Multi-Core-Plattformen können Algorithmen ausgeführt werden, die Terabytes an Daten analysieren, die zig Millionen Features enthalten, und in wenigen Stunden Millionen von "RF" -Minimodellen erstellen.
Daraus ergeben sich viele wichtige Fragen. Es ist zu befürchten, dass die Genauigkeit aufgrund der Annäherung dieser Problemumgehungen abnimmt. Dieses Problem wurde von Chen und Xie in ihrem Papier, adressiert ein Split-and-Conquer Ansatz zur Analyse von Außerordentlich großen Daten http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf wo sie zu dem Schluss dass die Annäherungen sich nicht von den "Vollinformations" -Modellen unterscheiden.
Ein zweites Problem, das meines Wissens in der Literatur nicht ausreichend behandelt wurde, hat damit zu tun, was mit den Ergebnissen (dh den "Parametern") von potenziell Millionen prädiktiver Minimodelle nach der Umgehung des Problems gemacht wird wurden aufgerollt und zusammengefasst. Mit anderen Worten, wie kann man mit diesen Ergebnissen etwas so Einfaches wie das "Scoring" neuer Daten ausführen? Sollen die Mini-Modell-Koeffizienten gespeichert und gespeichert werden oder wird der Algorithmus für neue Daten einfach erneut ausgeführt?
In seinem Buch " Numbers Rule Your World" beschreibt Kaiser Fung das Dilemma, dem sich Netflix gegenübersieht, wenn ein Ensemble von nur 104 Modellen von den Gewinnern ihres Wettbewerbs übergeben wird. Zwar hatten die Gewinner die MSE im Vergleich zu allen anderen Wettbewerbern auf ein Minimum reduziert, dies führte jedoch nur zu einer Verbesserung der Genauigkeit um einige Dezimalstellen in der 5-Punkte-Likert-Bewertungsskala, die von ihrem Filmempfehlungssystem verwendet wurde. Darüber hinaus kostet die für dieses Modellensemble erforderliche IT-Wartung viel mehr als die Einsparungen, die sich aus der "Verbesserung" der Modellgenauigkeit ergeben.
Dann stellt sich die Frage, ob mit Informationen dieser Größenordnung überhaupt eine "Optimierung" möglich ist. Zum Beispiel schlägt Emmanuel Derman, der Physiker und Finanzingenieur, in seinem Buch My Life as a Quant vor, dass Optimierung ein unhaltbarer Mythos ist, zumindest im Finanzingenieurwesen.
Schließlich müssen wichtige Fragen zur relativen Merkmalsbedeutung mit einer großen Anzahl von Merkmalen noch beantwortet werden.
Es gibt keine einfachen Antworten auf Fragen, die die Notwendigkeit einer variablen Auswahl betreffen, und die neuen Herausforderungen, die sich aus den gegenwärtigen, epikureischen Problemumgehungen ergeben, müssen noch gelöst werden. Das Fazit ist, dass wir jetzt alle Datenwissenschaftler sind.
**** BEARBEITEN ***
Referenzen
Chattopadhyay I, Lipson H. 2014 Data Smashing: Aufdecken der lauernden Reihenfolge in Daten. JR Soc. Schnittstelle 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan und Ziad Obermeyer. 2015. "Vorhersagepolitik Probleme." American Economic Review, 105 (5): 491–95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Jahresfrage: WELCHE WISSENSCHAFTLICHE IDEE IST BEREIT FÜR DEN RUHESTAND?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-rentirement
Eric Beinhocker, Wie die tiefgreifenden Veränderungen in der Wirtschaft die Debatten zwischen links und rechts irrelevant machen, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Epicurus-Prinzip mit mehreren Erklärungen: Behalten Sie alle Modelle bei. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Discovery in Complex oder Massive Datasets: Common Statistical Themes, Ein von der National Science Foundation finanzierter Workshop, 16.-17. Oktober 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Statistische Methoden und Berechnen für Big Data, Arbeitspapier von Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu und Jun Yan, 29. Oktober 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Bergbau von massiven Datensätzen, Cambridge University Press; 2 edition (29. Dezember 2014) ISBN: 978-1107077232
Kovarianzmatrizen mit großer Stichprobe und hochdimensionale Datenanalyse (Cambridge Series in Statistical and Probabilistic Mathematics), von Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 Ausgabe (30. März 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE und IMRAN S. CURRIM, Ein empirischer Vergleich von Logit-Choice-Modellen mit diskreten versus kontinuierlichen Darstellungen von Heterogenität, Journal of Marketing Research, 479 Vol. XXXIX (November 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Ein Split-and-Conquer-Ansatz zur Analyse außergewöhnlich großer Datenmengen, Xueying Chen und Minge Xie, DIMACS Technical Report 2012-01, Januar 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Zahlen regieren Ihre Welt: Der verborgene Einfluss von Wahrscheinlichkeiten und Statistiken auf alles, was Sie tun, McGraw-Hill Education; 1 Ausgabe (15. Februar 2010) ISBN: 978-0071626538
Emmanuel Derman, Mein Leben als Quant: Reflexionen über Physik und Finanzen, Wiley; 1 Ausgabe (11. Januar 2016) ISBN: 978-0470192733
* Update im November 2017 *
Nathan Kutz '2013er Buch, Data-Driven Modeling & Scientific Computation: Methoden für komplexe Systeme und Big Data, ist ein mathematischer und PDE-fokussierter Exkurs in die Variablenauswahl sowie in Methoden und Werkzeuge zur Dimensionsreduktion. Eine exzellente, einstündige Einführung in sein Denken finden Sie in diesem Youtube-Video zur datengetriebenen Entdeckung dynamischer Systeme und PDEs vom Juni 2017 . Darin verweist er auf die neuesten Entwicklungen auf diesem Gebiet. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop