Sollte die Vorhersagegenauigkeit oder alternativ die Minimierung der MSE überdacht werden?


7

Seit Breiman ist die Maximierung der Vorhersagegenauigkeit zu einer Art Goldstandard für die prädiktive Modellierung geworden . Dass es sich zu diesem Status entwickelt hat, ist verständlich: Es kann "optimiert" werden, lässt sich leicht über k-fache Proben kalibrieren und ist größtenteils eine konsistente Statistik für die interne Modellvalidierung. Allzu oft ist es jedoch das einzige Kriterium für den Modellwert - eine mechanistische und streng angewandte Metrik -, obwohl es anfällig für P-Hacking, Spiele und Analystenbetrug ist und wenig oder gar nicht an sein breiteres Geschäft gedacht wird und / oder strategische Auswirkungen und Bedeutung.

Ist es an der Zeit, die relative Bedeutung dieser Metrik in der statistischen, maschinellen Lern- und Vorhersagemodellierungsbranche neu zu bewerten?


5
Wie Matthew Drury kommentiert, ist die Antwort von Mike Hunter oben auf die Frage von Mike Hunter "ein netter und nachdenklicher Beitrag". Aber lasst uns Kredit geben, wo Kredit fällig ist. Mit Ausnahme des größten Teils des zweiten Absatzes scheint dies eine Wort-für-Wort-Kopie eines Beitrags von Thomas Ball auf Linked-In vor etwa einer Woche unter dem Titel "Überprüfung der Vorhersagegenauigkeit" zu sein. Und abgesehen von den ersten und letzten Wrapper-Sätzen ist der zweite Absatz eine Wort-für-Wort-Kopie eines Teils meines Kommentars an Thomas Ball.

4
Doug, danke, dass Sie dies angesprochen haben: Wir respektieren die Arbeit anderer auf dieser Website und bestehen auf Zuschreibung. . Ich habe das Original unter linkedin.com/grp/post/… gefunden .
whuber

6
So funktioniert das nicht, Mike. Wenn Sie hier anonym bleiben möchten - was vollkommen in Ihren Rechten liegt und viele von uns dies tun -, müssen Sie sich wie jemand verhalten, der ehrlich ist, um Ihre Glaubwürdigkeit aufrechtzuerhalten. Es wäre einfach und angemessen gewesen, einen Link zur LinkedIn-Website bereitzustellen und die dort veröffentlichten Gedanken zusammenzufassen, insbesondere weil Sie einige Tage zuvor vor den Richtlinien zur Zuordnung der Website gewarnt worden waren. Das Problem, das uns jetzt bevorsteht, ist, dass wir immer noch so tun müssen, als ob Sie es nicht wären, da wir nicht überprüfen können, ob Sie tatsächlich Thomas Ball sind. Vielleicht gibst du vor, er zu sein?
whuber

3
Wir bitten Sie nur, sich an die Regeln zu halten, Mike . Wenn Sie dies nicht tun, können Sie hier nicht interagieren.
whuber

6
Inakzeptable (und markierte) Kommentare wurden gelöscht. Bitte nutzen Sie die Gelegenheit, um dem Hilfelink zu folgen, den @whuber zum Verhalten angegeben hat, und überlegen Sie es sich sorgfältig. Ich stelle fest, dass Sie zuvor vor Plagiaten gewarnt wurden. Die Standardantwort auf Ihre Handlungen hier (die nicht nur Ihre eigene Arbeit betreffen, selbst wenn Ihre Behauptung korrekt ist) wäre gewesen, Ihr Konto sofort zu sperren, anstatt zu untersuchen, ob es Gründe für einen zusätzlichen Nutzen des Zweifels gibt. Ich würde vorschlagen, dass Sie die oben genannten Optionen (2) und / oder (3) ausprobieren, da diese wahrscheinlich am schnellsten zu einem guten Ergebnis für unsere Website führen werden
Glen_b

Antworten:


7

Dies ist ein schöner und nachdenklicher Beitrag, und in meinem Arbeitsleben habe ich beobachtet, dass die von Ihnen skizzierten Dinge korrekt sind. Die erfolgreichen Statistiker und Wissenschaftler an meinem Arbeitsplatz sind diejenigen, die von der rohen Vorhersagegenauigkeit zurücktreten und ein Modell oder eine Analyse liefern können ganzheitlich für das jeweilige Problem geeignet. Manchmal ist dies rohe Vorhersagekraft, aber oft nicht.

Ich suche dies ausdrücklich beim Interviewen. Meine erste Lieblingsantwort auf eine Modellierungsfrage lautet

Es hängt davon ab...

Ich werde Ihrer Liste einige Beispiele hinzufügen.

Implementierungskosten

Viele Unternehmen führen Kernsysteme auf veralteten Technologie-, Cobol- oder Fortran-Codebasen aus, die auf alten Mainframe-Architekturen ausgeführt werden. Sie zögern oft, sie zu ersetzen, da hierfür hohe Fixkosten anfallen (obwohl die variablen Kosten für ihre Wartung hoch sind). Dies kann drastische Konsequenzen für die Modellimplementierung haben. Es ist möglicherweise möglich, einen prädiktiven Boost von einem zufälligen Wald- oder Gradienten-Booster zu erhalten, aber die Implementierung eines Modells dieser Komplexität in einer Produktionsumgebung kann völlig unmöglich sein.

Haltbarkeit

In Bezug auf die Implementierungskosten kann ein einmal implementiertes Modell eine sehr lange Haltbarkeit haben und voraussichtlich lange Zeit vernünftige Vorhersagen liefern. Ein Modell mit maximal unterstützbarer Komplexität, das sehr stark an die Daten angepasst ist, ist weniger robust gegenüber Verteilungsverschiebungen in der Population und prädiktiven Relativitätsänderungen zwischen Segmenten.

Basteln

Geschäftsleute neigen dazu, an Produktionsmodellen zu basteln, und wir als Modellierer müssen manchmal bei Hotfixes in Produktionssystemen helfen . Komplexe Modelle reagieren empfindlicher darauf. Es ist schwieriger, genau zu beurteilen, wie sie auf eine Produktionsanpassung reagieren (sprechen Sie mit einem Mechaniker darüber, ob es einfacher ist, unter die Motorhaube eines 1980 oder 2010 hergestellten Autos zu gelangen).

Robustheit gegenüber neuen Informationen

Ein kategorialer Prädiktor kann in Zukunft neue Kategorien erhalten, und es ist oft wünschenswert, eine prinzipielle Methode zu haben, um mit diesen umzugehen, ohne ein Modell neu auszurüsten und es in die Produktion zu bringen.

Modellkomponente

Ein Modell kann Teil einer größeren Systemoptimierung sein, die seiner Form und seinen Eigenschaften Umgebungsbedingungen auferlegt. Eine häufige Ursache hierfür ist, wenn ein Modell Bestandteil eines größeren mathematischen Optimierungsschemas ist und ein kausaler Prädiktor im Modell als Hebel zur Verbesserung der Geschäftsergebnisse manipuliert wird. Dies kann den Prädiktoren, die sehr wichtig sind, Glättungs- oder Differenzierbarkeitsbeschränkungen auferlegen.

Lokalitätsbeschränkungen

Einige Modelle haben bessere Lokalitätseigenschaften als andere. Wenn ich beispielsweise die Preiselastizität eines Kunden für kleine Anpassungen abschätzen möchte, wird ein sehr lokales Modell (dh ein dichter mit geringerer Bandbreite, ein regulierter Spline mit kleinen Parametern oder ein Gradientenbaum-Booster mit vielen Schnitten) verwendet Verwenden Sie ausnahmslos weniger Daten, um Schlussfolgerungen auch auf lokaler Ebene zu unterstützen. Dies kann unerwünscht sein, wenn diese Schlussfolgerungen verwendet werden, um wichtige Entscheidungen zu treffen, und sollte durch so viele Daten wie möglich unterstützt werden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.