Variablenauswahl für prädiktive Modellierung im Jahr 2016 wirklich erforderlich?


67

Diese Frage wurde bereits vor einigen Jahren im Lebenslauf gestellt. Angesichts von 1) um Größenordnungen besserer Computertechnologie (z. B. Parallel Computing, HPC usw.) und 2) neuerer Techniken, z.

Erstens einen Kontext. Nehmen wir an, das Ziel ist nicht das Testen von Hypothesen, nicht das Schätzen von Effekten, sondern die Vorhersage eines nicht gesehenen Testsatzes. Daher wird keinem interpretierbaren Nutzen ein Gewicht beigemessen. Zweitens können Sie nicht ausschließen, dass ein Prädiktor für die Betrachtung des Themas relevant ist, d. H. Sie scheinen alle einzeln oder in Kombination mit anderen Prädiktoren plausibel. Drittens sind Sie mit (Hunderten von) Millionen von Prädiktoren konfrontiert. Viertens: Nehmen wir an, Sie haben mit unbegrenztem Budget Zugriff auf AWS, sodass die Rechenleistung keine Einschränkung darstellt.

Die üblichen Gründe für die variable Auswahl sind 1) Effizienz; Schnelleres Anpassen eines kleineren Modells und kostengünstigeres Sammeln weniger Prädiktoren. 2) Interpretation; Die Kenntnis der "wichtigen" Variablen gibt einen Einblick in den zugrunde liegenden Prozess [1].

Es ist mittlerweile allgemein bekannt, dass viele Variablenauswahlmethoden ineffektiv und oftmals geradezu gefährlich sind (z. B. schrittweise Vorwärtsregression) [2].

Zweitens sollte man die Liste der Prädiktoren nicht einschränken müssen, wenn das ausgewählte Modell ein gutes Modell ist. Das Model sollte es für Sie tun. Ein gutes Beispiel ist Lasso, das allen irrelevanten Variablen einen Nullkoeffizienten zuweist.

Mir ist bewusst, dass einige Leute die Verwendung eines "Elefanten" -Modells befürworten, dh. Wirf alle erdenklichen Prädiktoren in die Passung und laufe mit ihr [2].

Gibt es einen fundamentalen Grund für die Variablenauswahl, wenn das Ziel die Vorhersagegenauigkeit ist?

[1] Reunanen, J. (2003). Überanpassung beim Vergleichen von Variablenauswahlmethoden. The Journal of Machine Learning Research, 3, 1371-1382.

[2] Harrell, F. (2015). Regressionsmodellierungsstrategien: mit Anwendungen auf lineare Modelle, logistische und ordinale Regression und Überlebensanalyse. Springer.

[3] Taylor, J. & Tibshirani, RJ (2015). Statistisches Lernen und selektive Schlussfolgerung. Verfahren der National Academy of Sciences, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R. & Ungar, L. (2005, August). Auswahl der Streaming-Funktionen mithilfe von Alpha-Investing. In Proceedings der elften internationalen ACM SIGKDD-Konferenz zu Knowledge Discovery in Data Mining (S. 384-393). ACM.


6
Schöne erste Frage - es kann möglicherweise als Duplikat geschlossen werden, aber ich weiß zu schätzen, dass Sie sich Mühe gegeben haben, um herauszufinden, was es auszeichnet. Ich würde vorschlagen, den Titel zu bearbeiten, damit klarer wird, dass Sie sich nur auf die Vorhersage konzentrieren.
Silverfish

5
Wenn diese Frage bereits gestellt wurde, Sie es aber für wichtig halten, sie nach einiger Zeit erneut zu posten, können Sie dann möglicherweise einen Link zur vorherigen Frage erstellen? Es könnte interessant sein, die vorherigen Antworten vergleichen zu können.
Tim

1
@ qbert65536 Eine Ansicht ist, dass du es nicht tust. Die Funktionsauswahl ist von Natur aus unzuverlässig.
HoraceT

8
Methoden, die automatisch eine geringe Teilmenge von Merkmalen auswählen (z. B. 11 benachteiligte Modelle), führen auch die Merkmalauswahl durch. Die entscheidende Frage lautet also nicht "Ist die Merkmalsauswahl gut / schlecht?", Sondern "Welche Eigenschaften unterscheiden gute von schlechten Merkmalsauswahlmethoden?". Gemeinsam mit der Parameterschätzung (wie im Lasso) durchgeführt zu werden, ist eine Eigenschaft, und wir könnten uns fragen, ob dies wichtig ist (zusammen mit vielen anderen Eigenschaften).
user20160

2
@ToussaintLouverture Seitdem ich diese Frage vor einem Jahr gestellt habe, habe ich mir Gedanken darüber gemacht. Nun ist meiner Meinung nach die richtige Frage, wie wichtig es ist, die Bemühungen auf die Variablenauswahl zu lenken, anstatt die Modellauswahl zu treffen, um ein fähigeres Modell auszuwählen, das alle Merkmale eines Experiments verallgemeinert.
HoraceT

Antworten:


37

Es gibt seit Jahren Gerüchte, dass Google alle verfügbaren Funktionen für die Erstellung seiner Vorhersagealgorithmen nutzt. Bisher sind jedoch keine Haftungsausschlüsse, Erklärungen oder Whitepapers aufgetaucht, die dieses Gerücht klarstellen und / oder bestreiten. Nicht einmal ihre veröffentlichten Patente tragen zum Verständnis bei. Daher weiß nach meinem besten Wissen niemand außerhalb von Google, was er tut.

/ * Update im September 2019, ein Google Tensorflow-Evangelist hat in einer Präsentation berichtet, dass Google-Ingenieure regelmäßig über 5 Milliarden Parameter für die aktuelle Version von PageRank auswerten . * /

Wie das OP feststellt, besteht eines der größten Probleme bei der prädiktiven Modellierung in der Verknüpfung von klassischem Hypothesentest und sorgfältiger Modellspezifikation mit reinem Data Mining. Der klassisch Ausgebildete kann ziemlich dogmatisch über die Notwendigkeit von "Strenge" in der Modellgestaltung und -entwicklung werden. Tatsache ist, dass das klassische Framework, wenn es mit einer großen Anzahl von Kandidaten-Prädiktoren und mehreren möglichen Zielen oder abhängigen Variablen konfrontiert wird, weder funktioniert, noch eine nützliche Anleitung bietet. Zahlreiche neuere Veröffentlichungen beschreiben dieses Dilemma aus Chattopadhyay und Lipsons brillantem Papier Data Smashing: Aufdecken der lauernden Reihenfolge in Daten http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Der entscheidende Engpass besteht darin, dass die meisten Datenvergleichsalgorithmen heutzutage von einem Experten ausgeführt werden, um die für den Vergleich relevanten "Merkmale" der Daten zu bestimmen. Hier schlagen wir ein neues Prinzip zur Schätzung der Ähnlichkeit zwischen den Quellen beliebiger Datenströme vor, bei dem weder Domänenwissen noch Lernen zum Einsatz kommen.

Zum letztjährigen VRE-Papier über Probleme der Vorhersagepolitik von Kleinberg et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 Dies macht Data Mining und Prognosen zu nützlichen Instrumenten für die wirtschaftspolitische Entscheidungsfindung. "

Tatsache ist, dass die größere Frage in Höhe von 64.000 US-Dollar die weitreichende Veränderung des Denkens und der Herausforderungen gegenüber dem klassischen Rahmen für Hypothesentests ist, die zum Beispiel in diesem Edge.org- Symposium über "veraltetes" wissenschaftliches Denken enthalten sind. Https://www.edge.org/ responses / what-scientific-idea-is-ready-for-pensioned sowie dieser kürzlich erschienene Artikel von Eric Beinhocker über die "New Economics", der einige radikale Vorschläge zur Integration verschiedenster Disziplinen wie Verhaltensökonomie, Komplexitätstheorie und Vorhersagemodell enthält Entwicklung, Netzwerk- und Portfoliotheorie als Plattform für die Implementierung und Umsetzung von Richtlinien https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Selbstverständlich gehen diese Fragen weit über rein wirtschaftliche Belange hinaus und legen den Schluss nahe, dass sich die wissenschaftlichen Paradigmen grundlegend ändern. Die sich wandelnden Ansichten sind ebenso grundlegend wie die Unterscheidung zwischen reduktionistischen, Occam's Razor-like-model-building und Epicurus 'expansivem Prinzip der Fülle oder mehrere Erklärungen, die ungefähr besagen, dass, wenn mehrere Ergebnisse etwas erklären, sie alle beibehalten ... https: // de. wikipedia.org/wiki/Principle_of_plenitude

Natürlich sind Leute wie Beinhocker völlig frei von praktischen Bedenken hinsichtlich angewandter statistischer Lösungen für dieses sich weiterentwickelnde Paradigma. Für die kniffligen Fragen der Auswahl ultrahoher dimensionaler Variablen ist das OP relativ unspezifisch in Bezug auf praktikable Ansätze zur Modellbildung, bei denen möglicherweise Lasso, LAR, schrittweise Algorithmen oder "Elefantenmodelle" zum Einsatz kommen, die alle verfügbaren Informationen verwenden. Die Realität ist, dass Sie selbst mit AWS oder einem Supercomputer nicht alle verfügbaren Informationen gleichzeitig nutzen können - es ist einfach nicht genug RAM vorhanden, um alles zu laden. zB die Entdeckung des NSF in komplexen oder massiven Datensätzen: Gemeinsame statistische ThemenAlgorithmen für massives Data Mining zu "teilen und zu erobern", z. B. Wang et al., A Survey of Statistical Methods und Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf sowie Leskovec et al Buch Mining von massiven Datensätzen http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

Inzwischen gibt es buchstäblich Hunderte, wenn nicht Tausende von Artikeln, die sich mit verschiedenen Aspekten dieser Herausforderungen befassen, und die alle ganz unterschiedliche Analyse-Engines als Kern der Divide-and-Conquer-Algorithmen vorschlagen. unbeaufsichtigte "Deep Learning" -Modelle; Zufallsmatrixtheorie angewendet auf massive Kovarianzkonstruktion; Bayes'sche Tensormodelle für die klassische, überwachte logistische Regression und mehr. Vor ungefähr fünfzehn Jahren konzentrierte sich die Debatte hauptsächlich auf Fragen nach den relativen Vorzügen hierarchischer Bayes'scher Lösungen im Vergleich zu häufig auftretenden endlichen Mischungsmodellen. In einem Artikel, der sich mit diesen Problemen befasst, haben Ainslie et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfkamen zu dem Schluss, dass die unterschiedlichen theoretischen Ansätze in der Praxis weitgehend gleichwertige Ergebnisse erbrachten, mit Ausnahme von Problemen mit spärlichen und / oder hochdimensionalen Daten, bei denen HB-Modelle den Vorteil hatten. Mit dem Aufkommen von D & C-Problemumgehungen werden heute alle Arbitrage-HB-Modelle eliminiert, die in der Vergangenheit möglicherweise verwendet wurden.

Die Grundlogik dieser D & C-Problemumgehungen sind im Großen und Ganzen Erweiterungen von Breimans berühmter Zufallsforsttechnik, die sich auf das bootstrapped Resampling von Beobachtungen und Merkmalen stützte. Breiman arbeitete Ende der 90er Jahre auf einer einzigen CPU, als massive Daten ein paar Dutzend Auftritte und ein paar tausend Features bedeuteten. Auf den heutigen massiv parallelen Multi-Core-Plattformen können Algorithmen ausgeführt werden, die Terabytes an Daten analysieren, die zig Millionen Features enthalten, und in wenigen Stunden Millionen von "RF" -Minimodellen erstellen.

Daraus ergeben sich viele wichtige Fragen. Es ist zu befürchten, dass die Genauigkeit aufgrund der Annäherung dieser Problemumgehungen abnimmt. Dieses Problem wurde von Chen und Xie in ihrem Papier, adressiert ein Split-and-Conquer Ansatz zur Analyse von Außerordentlich großen Daten http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf wo sie zu dem Schluss dass die Annäherungen sich nicht von den "Vollinformations" -Modellen unterscheiden.

Ein zweites Problem, das meines Wissens in der Literatur nicht ausreichend behandelt wurde, hat damit zu tun, was mit den Ergebnissen (dh den "Parametern") von potenziell Millionen prädiktiver Minimodelle nach der Umgehung des Problems gemacht wird wurden aufgerollt und zusammengefasst. Mit anderen Worten, wie kann man mit diesen Ergebnissen etwas so Einfaches wie das "Scoring" neuer Daten ausführen? Sollen die Mini-Modell-Koeffizienten gespeichert und gespeichert werden oder wird der Algorithmus für neue Daten einfach erneut ausgeführt?

In seinem Buch " Numbers Rule Your World" beschreibt Kaiser Fung das Dilemma, dem sich Netflix gegenübersieht, wenn ein Ensemble von nur 104 Modellen von den Gewinnern ihres Wettbewerbs übergeben wird. Zwar hatten die Gewinner die MSE im Vergleich zu allen anderen Wettbewerbern auf ein Minimum reduziert, dies führte jedoch nur zu einer Verbesserung der Genauigkeit um einige Dezimalstellen in der 5-Punkte-Likert-Bewertungsskala, die von ihrem Filmempfehlungssystem verwendet wurde. Darüber hinaus kostet die für dieses Modellensemble erforderliche IT-Wartung viel mehr als die Einsparungen, die sich aus der "Verbesserung" der Modellgenauigkeit ergeben.

Dann stellt sich die Frage, ob mit Informationen dieser Größenordnung überhaupt eine "Optimierung" möglich ist. Zum Beispiel schlägt Emmanuel Derman, der Physiker und Finanzingenieur, in seinem Buch My Life as a Quant vor, dass Optimierung ein unhaltbarer Mythos ist, zumindest im Finanzingenieurwesen.

Schließlich müssen wichtige Fragen zur relativen Merkmalsbedeutung mit einer großen Anzahl von Merkmalen noch beantwortet werden.

Es gibt keine einfachen Antworten auf Fragen, die die Notwendigkeit einer variablen Auswahl betreffen, und die neuen Herausforderungen, die sich aus den gegenwärtigen, epikureischen Problemumgehungen ergeben, müssen noch gelöst werden. Das Fazit ist, dass wir jetzt alle Datenwissenschaftler sind.

**** BEARBEITEN *** Referenzen

  1. Chattopadhyay I, Lipson H. 2014 Data Smashing: Aufdecken der lauernden Reihenfolge in Daten. JR Soc. Schnittstelle 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan und Ziad Obermeyer. 2015. "Vorhersagepolitik Probleme." American Economic Review, 105 (5): 491–95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, 2014 Jahresfrage: WELCHE WISSENSCHAFTLICHE IDEE IST BEREIT FÜR DEN RUHESTAND? https://www.edge.org/responses/what-scientific-idea-is-ready-for-rentirement

  4. Eric Beinhocker, Wie die tiefgreifenden Veränderungen in der Wirtschaft die Debatten zwischen links und rechts irrelevant machen, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Epicurus-Prinzip mit mehreren Erklärungen: Behalten Sie alle Modelle bei. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Discovery in Complex oder Massive Datasets: Common Statistical Themes, Ein von der National Science Foundation finanzierter Workshop, 16.-17. Oktober 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Statistische Methoden und Berechnen für Big Data, Arbeitspapier von Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu und Jun Yan, 29. Oktober 2015 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Bergbau von massiven Datensätzen, Cambridge University Press; 2 edition (29. Dezember 2014) ISBN: 978-1107077232

  9. Kovarianzmatrizen mit großer Stichprobe und hochdimensionale Datenanalyse (Cambridge Series in Statistical and Probabilistic Mathematics), von Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 Ausgabe (30. März 2015) ISBN: 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE und IMRAN S. CURRIM, Ein empirischer Vergleich von Logit-Choice-Modellen mit diskreten versus kontinuierlichen Darstellungen von Heterogenität, Journal of Marketing Research, 479 Vol. XXXIX (November 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Ein Split-and-Conquer-Ansatz zur Analyse außergewöhnlich großer Datenmengen, Xueying Chen und Minge Xie, DIMACS Technical Report 2012-01, Januar 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung, Zahlen regieren Ihre Welt: Der verborgene Einfluss von Wahrscheinlichkeiten und Statistiken auf alles, was Sie tun, McGraw-Hill Education; 1 Ausgabe (15. Februar 2010) ISBN: 978-0071626538

  13. Emmanuel Derman, Mein Leben als Quant: Reflexionen über Physik und Finanzen, Wiley; 1 Ausgabe (11. Januar 2016) ISBN: 978-0470192733

* Update im November 2017 *

Nathan Kutz '2013er Buch, Data-Driven Modeling & Scientific Computation: Methoden für komplexe Systeme und Big Data, ist ein mathematischer und PDE-fokussierter Exkurs in die Variablenauswahl sowie in Methoden und Werkzeuge zur Dimensionsreduktion. Eine exzellente, einstündige Einführung in sein Denken finden Sie in diesem Youtube-Video zur datengetriebenen Entdeckung dynamischer Systeme und PDEs vom Juni 2017 . Darin verweist er auf die neuesten Entwicklungen auf diesem Gebiet. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
Vor ein paar Jahren hielt ein Mitarbeiter von Google auf der Sommerschule für maschinelles Lernen einen Vortrag (Name vergessen). Er erwähnte, dass einige (binäre Klassifizierungs-) Modelle in der Produktion ungefähr 200 Millionen Features enthalten, die auf 30 TB Datensätzen stapelweise trainiert wurden. Die meisten von ihnen sind wahrscheinlich binäre Features. Ich erinnere mich nicht, dass er jemals die Variablenauswahl erwähnt hat.
HoraceT

1
Tolle Kommentare (obwohl ein Teil davon tangential verlief). Mir gefällt besonders die Perspektive, dass viele altmodische Ideen im Zeitalter von Big Data überprüft werden müssen.
HoraceT

1
@horaceT Sehr interessant. Zumindest bestätigt das das Gerücht. Vielen Dank. Welches ML-Programm war das?
Mike Hunter

1
MLSS 2012 an der UC Santa Cruz. Der Sprecher war Tushar Chandra, hier sind die Folien, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@ Glen_b Danke für die Kommentare. Ich dachte, ich hätte Namen und Titel für die Verweise angegeben, gerade wegen der fehlerhaften Verknüpfung. Unabhängig davon werde ich am Ende einen Referenzabschnitt hinzufügen. Lassen Sie mich wissen, wenn etwas fehlt.
Mike Hunter

14

In Bezug auf die Vorhersage müssen Sie sich wahrscheinlich die Frage stellen, wie schnell das Modell die wichtigen Funktionen erlernt. Selbst wenn Sie an OLS denken, erhalten Sie bei ausreichenden Daten so etwas wie eine Modellauswahl. Wir wissen jedoch, dass es nicht schnell genug zu dieser Lösung kommt - deshalb suchen wir nach etwas Besserem.

Bei den meisten Methoden wird davon ausgegangen, welche Art von Betas / Koeffizienten auftreten werden (wie bei einer vorherigen Verteilung in einem Bayes'schen Modell). Sie funktionieren am besten, wenn diese Annahmen zutreffen. Bei der Ridge / Lasso-Regression wird beispielsweise davon ausgegangen, dass die meisten Betas auf derselben Skala liegen und die meisten nahe Null liegen. Sie funktionieren nicht so gut für die Regressionen "Nadeln im Heuhaufen", bei denen die meisten Betas Null sind und einige Betas sehr groß (dh die Skalen sind sehr unterschiedlich). Die Funktionsauswahl funktioniert hier möglicherweise besser - Lasso kann zwischen schrumpfendem Rauschen und unberührtem Signal hängen bleiben. Die Funktionsauswahl ist launischer - ein Effekt ist entweder "Signal" oder "Rauschen".

Für die Entscheidung müssen Sie eine Vorstellung davon haben, welche Art von Prädiktorvariablen Sie haben. Hast du ein paar wirklich gute? Oder sind alle Variablen schwach? Dies wird Ihr Betaprofil verbessern. Und welche Strafen / Auswahlmethoden Sie anwenden (Pferde für Kurse und so weiter).

Die Featureauswahl ist ebenfalls nicht schlecht, aber einige der älteren Näherungen sind aufgrund von Recheneinschränkungen nicht mehr gut (schrittweise, vorwärts). Die Modellmittelung mithilfe der Funktionsauswahl (alle 1-Var-Modelle, 2-Var-Modelle usw., gewichtet nach ihrer Leistung) leistet bei der Vorhersage gute Arbeit. Aber dies bestraft die Betas im Wesentlichen durch die Gewichtung von Modellen, bei denen diese Variable ausgeschlossen ist - nur nicht direkt - und in keiner konvexen Optimierungsproblematik.


12

Ich gebe Ihnen die Perspektive der Industrie.

Branchen geben nicht gerne Geld für Sensoren und Überwachungssysteme aus, von denen sie nicht wissen, wie viel sie davon profitieren werden.

Ich möchte zum Beispiel keinen Namen nennen. Stellen Sie sich also eine Komponente mit 10 Sensoren vor, die jede Minute Daten erfassen. Der Eigentümer der Anlage wendet sich an mich und fragt mich, wie gut Sie das Verhalten meiner Komponente mit diesen Daten von 10 Sensoren vorhersagen können. Anschließend führen sie eine Kosten-Nutzen-Analyse durch.

Dann haben sie die gleiche Komponente mit 20 Sensoren, sie fragen mich noch einmal, wie gut können Sie das Verhalten meiner Komponente mit diesen Daten von 20 Sensoren vorhersagen? Sie führen eine weitere Kosten-Nutzen-Analyse durch.

In jedem dieser Fälle vergleichen sie den Nutzen mit den Investitionskosten aufgrund von Sensorinstallationen. (Dies ist nicht nur das Hinzufügen eines 10-Dollar-Sensors zu einer Komponente. Viele Faktoren spielen eine Rolle). Hier kann eine Variablenauswahlanalyse hilfreich sein.


1
Guter Punkt. Aber Sie würden 10 Sensoren nicht gut genug kennen oder weitere 10 benötigen, bis Sie einige Daten vom 20.
HoraceT

Stimmt, und Sie können immer anhand einiger Studien spekulieren. Sie installieren jeden Sensor mit einem Ziel, um Ausfälle zu vermeiden. Wenn die Ausfallraten niedrig sind oder Sie bereits die wesentlichen Teile einer Komponente abgedeckt haben, wird die Hinzufügung von 1 Sensor keine große Rendite bringen. Sie müssen diese Sensoren also nicht installieren, keine Daten sammeln und keine Studie durchführen, um festzustellen, ob diese zusätzlichen Sensoren tatsächlich gut genug sind.
PeyM87

„Sensoren“ sind möglicherweise keine Sensoren. In meinem Unternehmen abonnieren wir alle unsere Daten, sodass die Möglichkeit besteht, Funktionen zu entdecken, die nichts bewirken, und die Kosten zu senken, indem sie aus dem Abonnementdienst entfernt werden (um genau zu sein, Abo-Preise werden auf einem höheren Niveau als einzelne Spalten berechnet, aber es ist durchaus plausibel, sich vorzustellen, dass ein Element des Abonnements ein Merkmal zu einem endgültigen Modell beiträgt und eingestellt werden kann, wenn es die Leistung nicht verbessert.)
Robert de Graaf

9

Als Teil eines Algorithmus zum Erlernen eines rein prädiktiven Modells ist die Variablenauswahl aus Sicht der Leistung nicht unbedingt schlecht und auch nicht automatisch gefährlich. Es gibt jedoch einige Punkte, die man beachten sollte.

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβ

k=1,,min(N,p)kk

Die Gefahr bei einem solchen Variablenauswahlverfahren besteht darin, dass viele Standardverteilungsergebnisse unter der Bedingung der Variablenauswahl ungültig sind. Dies gilt für Standardtests und Konfidenzintervalle und ist eines der Probleme, vor denen Harrell warnt. Breiman warnte auch vor einer Modellauswahl, die beispielsweise auf Mallows ' in The Little Bootstrap ... basiert . Mallows' oder AIC was das betrifft, nicht nicht - Konto für die Modellauswahl und sie geben zu optimistischen Vorhersagefehler.CpCp

Eine Kreuzvalidierung kann jedoch zum Schätzen des Vorhersagefehlers und zum Auswählen von , und eine Variablenauswahl kann ein gutes Gleichgewicht zwischen Vorspannung und Varianz erzielen. Dies trifft insbesondere dann zu, wenn einige große Koordinaten hat, wobei der Rest nahe Null liegt wie von @probabilityislogic erwähnt.kβ

Schrumpfungsmethoden wie Ridge Regression und Lasso können ohne explizite Variablenauswahl einen guten Kompromiss zwischen Bias und Varianz erzielen. Wie im OP erwähnt, impliziert Lasso jedoch die Auswahl von Variablen. Es ist nicht wirklich das Modell , sondern die Methode zum Anpassen des Modells, die die Variablenauswahl vornimmt. Aus dieser Perspektive ist die (implizite oder explizite) Variablenauswahl einfach Teil der Methode zum Anpassen des Modells an Daten und sollte als solche betrachtet werden.

Algorithmen zur Berechnung des Lasso-Schätzers können von der Variablenauswahl (oder dem Screening) profitieren. In Statistisches Lernen mit Sparsity: Das Lasso und Verallgemeinerungen , Abschnitt 5.10, wurde beschrieben, wie das Screening, wie es in implementiert glmnetist, nützlich ist. Dies kann zu einer wesentlich schnelleren Berechnung des Lasso-Schätzers führen.

Eine persönliche Erfahrung stammt aus einem Beispiel, in dem die Variablenauswahl es ermöglichte, ein komplizierteres Modell (ein verallgemeinertes additives Modell) unter Verwendung der ausgewählten Variablen anzupassen. Kreuzvalidierungsergebnisse zeigten, dass dieses Modell einer Reihe von Alternativen überlegen war allerdings nicht einer zufälligen Gesamtstruktur. Wenn es gamsel gegeben hätte das verallgemeinerte additive Modelle mit variabler Auswahl integriert ich vielleicht auch darüber nachgedacht, es auszuprobieren .

Bearbeiten: Seit ich diese Antwort geschrieben habe, gibt es ein Papier über die bestimmte Anwendung, die ich im Sinn hatte. R-Code zur Reproduktion der Ergebnisse auf dem Papier ist verfügbar.

Zusammenfassend möchte ich sagen, dass die Variablenauswahl (in der einen oder anderen Form) nützlich ist und bleiben wird auch für rein prädiktive Zwecke , um den Kompromiss zwischen Bias und Varianz zu steuern. Wenn nicht aus anderen Gründen, dann zumindest, weil kompliziertere Modelle möglicherweise nicht in der Lage sind, eine sehr große Anzahl von Variablen sofort zu verarbeiten. Mit der Zeit werden wir jedoch natürlich Entwicklungen wie Gamsel sehen, die die Variablenauswahl in die Schätzungsmethodik integrieren.

Es ist natürlich immer wichtig, dass wir die Variablenauswahl als Teil der Schätzmethode betrachten. Die Gefahr besteht darin, zu glauben, dass die Variablenauswahl wie ein Orakel funktioniert und den richtigen Satz von Variablen identifiziert. Wenn wir das glauben und so vorgehen, als wären Variablen nicht anhand der Daten ausgewählt worden, laufen wir Gefahr, Fehler zu machen.


1
Mir ist nicht klar, wie die variable Auswahl es ermöglicht hat, ein komplizierteres Modell anzupassen. Mit der Variablenauswahl schätzen Sie immer noch die gleiche große Anzahl von Parametern. Sie schätzen nur einige von ihnen als Null. Die Stabilität eines nach variabler Auswahl angepassten bedingten Modells kann ein Trugbild sein.
Frank Harrell

1
@Harrell, im speziellen Beispiel wurde die Variablenauswahl mit Lasso in Kombination mit der Stabilitätsauswahl im Modell durchgeführt, bei dem alle Variablen linear eingegeben wurden. Das Spiel wurde dann unter Verwendung der ausgewählten Variablen angepasst. Ich stimme voll und ganz zu, dass die Variablenauswahl nur einige Parameter auf Null schätzt, und die Anwendung hat genau das in einem Gam-Modell durch ein zweistufiges Verfahren getan. Ich bin sicher, dass Gamsel einen systematischeren Ansatz bietet. Mein Punkt war, dass ohne einen solchen Ansatz die Variablenauswahl eine nützliche Abkürzung sein kann.
NRH

1
Die Verwendung einer nicht bestraften Methode zum erneuten Anpassen von Variablen, die in einer früheren Bestrafungsphase ausgewählt wurden, ist nicht geeignet. Das wäre wesentlich voreingenommen. Und die nicht gestrichene Variablenauswahl ist keine gute Abkürzung.
Frank Harrell

1
Die Stabilitätsauswahl ist konservativer als die Auswahl von Variablen mit Lasso und das erneute Anpassen ohne Bestrafung. Letzteres funktionierte erwartungsgemäß nicht sehr gut unter prädiktiven Gesichtspunkten (als Maß für die gegenseitige Validierung). Wenn ich in einem konkreten Fall durch Kreuzvalidierung feststelle, dass Variablenauswahl + Gam eine bessere Vorhersageleistung liefert als der Kamm- oder Lassoschätzer, dann ist dies mein Maß dafür, ob das Verfahren gut ist.
NRH

1
Bitte definieren Sie 'Stabilitätsauswahl'. Und das Umrüsten ohne Bestrafung ist anti-konservativ.
Frank Harrell

4

Gestatten Sie mir einen Kommentar zu der Aussage: "... es wird einfach nicht passieren, k Parameter an n <k Beobachtungen anzupassen."

In der Chemometrie interessieren uns häufig Vorhersagemodelle, und die Situation k >> n ist häufig anzutreffen (z. B. in spektroskopischen Daten). Dieses Problem wird in der Regel einfach dadurch gelöst, dass die Beobachtungen vor der Regression (z. B. Regression der Hauptkomponenten) auf einen unterdimensionalen Unterraum a projiziert werden, in dem a <n ist. Unter Verwendung der partiellen Regression der kleinsten Quadrate werden die Projektion und die Regression gleichzeitig durchgeführt, um die Qualität der Vorhersage zu fördern. Die genannten Methoden finden optimale Pseudoinversen zu einer (singulären) Kovarianz- oder Korrelationsmatrix, zB durch Singularwertzerlegung.

Die Erfahrung zeigt, dass die prädiktive Leistung multivariater Modelle steigt, wenn verrauschte Variablen entfernt werden. Selbst wenn wir also - auf sinnvolle Weise - k Parameter mit nur n Gleichungen (n <k) schätzen können, streben wir nach sparsamen Modellen. Zu diesem Zweck wird die Variablenauswahl relevant, und viel chemometrische Literatur widmet sich diesem Thema.

Während die Vorhersage ein wichtiges Ziel ist, bieten die Projektionsmethoden gleichzeitig wertvolle Einblicke in z. B. Datenmuster und die Relevanz von Variablen. Dies wird hauptsächlich durch verschiedene Modellzeichnungen erleichtert, z. B. Punktzahlen, Ladungen, Residuen usw.

Die chemometrische Technologie wird in großem Umfang eingesetzt, z. B. in der Industrie, in der zuverlässige und genaue Vorhersagen wirklich wichtig sind.


3

In einigen bekannten Fällen ist eine Variablenauswahl nicht erforderlich. Genau aus diesem Grund ist Deep Learning etwas überzeichnet.

Wenn beispielsweise ein verschachteltes neuronales Netzwerk ( http://cs231n.github.io/convolutional-networks/ ) versucht, vorherzusagen, ob ein zentriertes Bild ein menschliches Gesicht enthält, haben die Ecken des Bildes in der Regel einen minimalen Vorhersagewert. Bei der herkömmlichen Modellierung und Variablenauswahl werden die Eckpixel vom Modellierer als Prädiktoren entfernt. Das verschachtelte neuronale Netzwerk ist jedoch intelligent genug, um diese Prädiktoren im Wesentlichen automatisch zu verwerfen. Dies gilt für die meisten Deep-Learning-Modelle, die versuchen, das Vorhandensein eines Objekts in einem Bild vorherzusagen (z. B. selbstfahrende Autos, die Fahrspurmarkierungen, Hindernisse oder andere Autos in Rahmen von Onboard-Streaming-Videos "vorhersagen").

Deep Learning ist wahrscheinlich bei vielen traditionellen Problemen zu viel des Guten, z. B. bei kleinen Datenmengen oder bei reichlich vorhandenem Domänenwissen. Daher wird die Auswahl traditioneller Variablen zumindest in einigen Bereichen wahrscheinlich für lange Zeit relevant bleiben. Trotzdem ist Deep Learning großartig, wenn Sie eine "ziemlich gute" Lösung mit minimalem menschlichem Eingriff zusammenstellen möchten. Es kann viele Stunden dauern, bis ich handgefertigt und Prädiktoren ausgewählt habe, um handgeschriebene Ziffern in Bildern zu erkennen, aber mit einem verworrenen neuronalen Netzwerk und einer Variablenauswahl von Null kann ich mit TensorFlow von Google in knapp 20 Minuten ein hochmodernes Modell erstellen ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).


3
Ich mag diese DL-Perspektive wirklich. In Computer Vision sind die Datenmatrizen, denen Sie begegnen, abgeflachte 2D-Bilder, wobei die Bedeutung einer bestimmten Spalte von der Beobachtung abhängt. Beispiel: Pixel 147 kann das Gesicht einer Katze in Bild Nr. 27 sein, aber es ist die Hintergrundwand in Bild Nr. 42. Daher würde die Merkmalsauswahl, wie wir sie kennen, kläglich scheitern. Das ist der Grund, warum ConvNet so leistungsstark ist, weil es eine integrierte translatorische / rotatorische Invarianz aufweist.
HoraceT
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.