Bayesian: "Hallo Maschinenschüler!"
Frequentist: "Hallo, Maschinenschüler!"
Maschinelles Lernen: "Ich habe gehört, ihr seid gut in Sachen. Hier sind einige Daten."
F: "Ja, schreiben wir ein Modell auf und berechnen dann die MLE."
B: "Hey, F, das hast du mir gestern nicht gesagt! Ich hatte ein paar univariate Daten und wollte die Varianz schätzen, und ich habe die MLE berechnet. Dann hast du dich auf mich gestürzt und mir gesagt, ich soll durch dividieren statt vonnn−1n . "
F: "Ah ja, danke, dass Sie mich daran erinnert haben. Ich denke oft, dass ich das MLE für alles verwenden soll, aber ich interessiere mich für unvoreingenommene Schätzer und so weiter."
ML: "Ähm, worum geht es in dieser Philosophie? Hilft es mir?"
F: "OK, ein Schätzer ist eine Black Box, Sie geben Daten ein und es werden Zahlen ausgegeben. Uns Vielfachen ist es egal, wie die Box konstruiert wurde, nach welchen Prinzipien sie entworfen wurde. Zum Beispiel I Ich weiß nicht, wie ich ableiten soll÷(n−1) -Regel . "
ML: Also, was kümmert dich das?
F: Bewertung
ML: "Ich mag den Klang davon."
F: "Eine Black Box ist eine Black Box. Wenn jemand behauptet, ein bestimmter Schätzer sei ein unvoreingenommener Schätzer für , dann versuchen wir viele Werte von , erzeugen aus jedem viele Stichproben auf der Grundlage eines angenommenen Modells und drücken sie durch der Schätzer und den Durchschnitt geschätzt . Wenn wir , dass die erwartete Schätzung entspricht den wahren Wert, für alle Werte unter Beweis stellen können, dann sagen wir , es ist unparteiisch.“θ θθθθ
ML: "Klingt großartig! Es klingt, als wären Frequentisten pragmatische Menschen. Sie beurteilen jede Black Box anhand ihrer Ergebnisse. Die Bewertung ist der Schlüssel."
F: "In der Tat! Ich verstehe, dass ihr einen ähnlichen Ansatz habt. Quervalidierung oder so? Aber das klingt für mich chaotisch."
ML: "Chaotisch?"
F: "Die Idee, Ihren Schätzer an realen Daten zu testen, erscheint mir gefährlich. Die empirischen Daten, die Sie verwenden, können allerlei Probleme mit sich bringen und sich möglicherweise nicht nach dem Modell verhalten, das wir für die Bewertung vereinbart haben."
ML: „Was ich dachte , Sie sagen , Sie einige Ergebnisse bewiesen würden die Ihr Schätzer immer unvoreingenommen sein würde, für alle? .“θ
F: "Ja. Obwohl Ihre Methode möglicherweise mit einem Datensatz (dem Datensatz mit Zug- und Testdaten) funktioniert hat, den Sie in Ihrer Bewertung verwendet haben, kann ich nachweisen, dass meiner immer funktioniert."
ML: "Für alle Datensätze?"
F: Nein.
ML: "Meine Methode wurde für einen Datensatz kreuzvalidiert. Sie haben Ihre Methode noch nicht an einem echten Datensatz getestet?"
F: "Das stimmt."
ML: "Dann bin ich an der Spitze! Meine Methode ist besser als Ihre. Sie sagt in 90% der Fälle Krebs voraus. Ihr 'Beweis' ist nur gültig, wenn sich der gesamte Datensatz gemäß dem von Ihnen angenommenen Modell verhält."
F: "Emm, ja, ich nehme an."
ML: "Und dieses Intervall hat eine Abdeckung von 95% . Aber ich sollte mich nicht wundern, wenn es nur den korrekten Wert von 20% der Zeit enthält?"θ
F: "Das stimmt. Wenn die Daten nicht wirklich normal sind (oder was auch immer), ist mein Beweis nutzlos."
ML: Also ist meine Bewertung vertrauenswürdiger und umfassender? Sie funktioniert nur mit den Datensätzen, die ich bisher ausprobiert habe, aber zumindest mit echten Datensätzen, Warzen und allem "und" gründlich "und dass Sie an Model-Checks und so interessiert waren."
B: (wirft ein) "Hey Leute, tut mir leid, dass ich unterbreche. Ich würde gerne eingreifen und die Dinge ausbalancieren, um vielleicht ein paar andere Probleme zu demonstrieren, aber ich liebe es wirklich zu beobachten, wie sich mein Stammkollege windet."
F: "Woah!"
ML: Okay, Kinder. Es ging nur um Evaluierung. Ein Schätzer ist eine Black Box. Daten gehen ein, Daten kommen heraus. Wir genehmigen oder missbilligen einen Schätzer basierend auf der Leistung, die er bei der Evaluierung erbringt. Es ist uns egal über das ‚Rezept 'oder die‚ Gestaltungsprinzipien', die verwendet werden. "
F: "Ja. Aber wir haben sehr unterschiedliche Vorstellungen darüber, welche Bewertungen wichtig sind. ML wird echte Daten trainieren und testen. Ich werde eine allgemeinere Bewertung durchführen (da es sich um einen allgemein anwendbaren Beweis handelt) und auch eingeschränkter (weil ich nicht weiß, ob Ihr Datensatz tatsächlich aus den Modellannahmen stammt, die ich beim Entwerfen meiner Bewertung verwende.) "
ML: "Welche Bewertung verwenden Sie, B?"
F: (wirft ein) "Hey. Bring mich nicht zum Lachen. Er bewertet nichts. Er benutzt nur seine subjektiven Überzeugungen und rennt damit. Oder so."
B: "Das ist die übliche Interpretation. Aber es ist auch möglich, den Bayesianismus durch die bevorzugten Bewertungen zu definieren. Dann können wir die Idee verwenden, dass es niemanden interessiert, was sich in der Black Box befindet, wir kümmern uns nur um verschiedene Arten der Bewertung."
B fährt fort: "Klassisches Beispiel: Medizinischer Test. Das Ergebnis des Bluttests ist entweder positiv oder negativ. Ein Frequentist wird sich für die gesunden Menschen interessieren, welcher Anteil ein negatives Ergebnis erzielt. Und ebenso, welcher Anteil der Kranken Der Frequentist berechnet diese Werte für jede in Betracht gezogene Blutuntersuchungsmethode und empfiehlt dann, den Test zu verwenden, bei dem das beste Ergebnis erzielt wird. "
F: "Genau. Was willst du mehr?"
B: Was ist mit den Personen, die ein positives Testergebnis erzielt haben? Sie werden wissen wollen, wie viele von denen, die ein positives Ergebnis erzielen, krank werden. und 'von denen, die ein negatives Ergebnis erzielen, wie viele sind gesund?' "
ML: "Ah ja, das scheint ein besseres Paar von Fragen zu sein."
F: "HIER!"
B: "Jetzt geht es wieder los. Ihm gefällt nicht, wohin das führt."
ML: "Es geht um 'Vorgesetzte', nicht wahr?"
F: "BÖSE".
B: "Wie auch immer, ja, Sie haben Recht, ML. Um den Anteil der Kranken mit positivem Ergebnis zu berechnen, müssen Sie eines von zwei Dingen tun. Eine Option besteht darin, die Tests an vielen Menschen durchzuführen und nur das zu beobachten relevante Proportionen. Wie viele dieser Menschen sterben zum Beispiel an der Krankheit. "
ML: "Das klingt nach dem, was ich tue. Benutze Training und Test."
B: "Aber Sie können diese Zahlen im Voraus berechnen, wenn Sie bereit sind, eine Annahme über die Krankheitsrate in der Bevölkerung zu treffen. Der Frequentist führt seine Berechnungen auch im Voraus durch, ohne jedoch diese Krankheitsrate auf Bevölkerungsniveau zu verwenden."
F: "MEHR UNBEGRÜNDETE ANNAHMEN."
B: Oh, halt die Klappe. Früher wurden Sie herausgefunden. ML stellte fest, dass Sie ebenso unbegründete Annahmen mögen wie jeder andere. Ihre 'nachgewiesenen' Wahrscheinlichkeiten werden sich in der realen Welt nicht stapeln, wenn nicht alle Ihre Annahmen stimmen. Warum ist meine vorherige Annahme so unterschiedlich? Sie nennen mich verrückt, tun aber so, als ob Ihre Annahmen die Arbeit einer konservativen, soliden, annahmenfreien Analyse sind. "
B (fährt fort): "Wie auch immer, ML, wie ich schon sagte. Bayesianer mögen eine andere Art der Auswertung. Wir sind mehr daran interessiert, die beobachteten Daten zu konditionieren und die Genauigkeit unseres Schätzers entsprechend zu berechnen. Wir können diese Auswertung nicht durchführen ohne Verwendung von durchführen a prior. Aber das Interessante ist, dass wir, sobald wir uns für diese Form der Bewertung entschieden haben und uns für unseren Prior entschieden haben, ein automatisches „Rezept" haben, um einen geeigneten Schätzer zu erstellen. Der Frequentist hat kein solches Rezept. Wenn er eines will "Unparteiischer Schätzer für ein komplexes Modell, er hat keine automatisierte Möglichkeit, einen geeigneten Schätzer zu erstellen."
ML: "Und Sie? Sie können automatisch einen Schätzer erstellen?"
B: "Ja. Ich habe keine automatische Möglichkeit, einen unvoreingenommenen Schätzer zu erstellen, da ich der Meinung bin, dass eine Verzerrung eine schlechte Möglichkeit ist, einen Schätzer zu bewerten. Angesichts der von den Daten abhängigen Schätzung, die ich mag, und der vorherigen kann den Prior und die Wahrscheinlichkeit verbinden, mir den Schätzer zu geben. "
ML: Wie auch immer, lassen Sie uns zusammenfassen. Wir haben alle verschiedene Möglichkeiten, unsere Methoden zu bewerten, und wir werden uns wahrscheinlich nie darauf einigen, welche Methoden die besten sind.
B: Nun, das ist nicht fair. Wir könnten sie mischen und aufeinander abstimmen. Wenn einer von uns gut etikettierte Trainingsdaten hat, sollten wir sie wahrscheinlich testen. Und im Allgemeinen sollten wir alle so viele Annahmen wie möglich testen "Beweise könnten auch Spaß machen und die Leistung unter einem vermuteten Modell der Datenerzeugung vorhersagen."
F: "Ja Leute. Lasst uns pragmatisch über die Bewertung sein. Und tatsächlich werde ich aufhören, von Eigenschaften mit unendlichen Stichproben zu besessen. Ich habe die Wissenschaftler gebeten, mir eine unendliche Stichprobe zu geben, aber sie haben es immer noch nicht getan. Es ist Zeit für mich, mich wieder auf endliche Proben zu konzentrieren. "
ML: "Also, wir haben nur eine letzte Frage. Wir haben viel darüber gestritten, wie wir unsere Methoden bewerten , aber wie wir unsere Methoden erstellen ."
B: Ah. Wie ich bereits sagte, haben wir Bayesianer die leistungsstärkere allgemeine Methode. Es mag kompliziert sein, aber wir können immer einen Algorithmus schreiben (vielleicht eine naive Form von MCMC), der von unserem posterioren abgetastet wird. "
F (wirft ein): "Aber es könnte Voreingenommenheit haben."
B: Könnten auch Ihre Methoden. Muss ich Sie daran erinnern, dass die MLE oft voreingenommen ist? Manchmal haben Sie große Schwierigkeiten, unvoreingenommene Schätzer zu finden, und selbst wenn Sie einen dummen Schätzer haben (für ein wirklich komplexes Modell), der sagt, dass Varianz ist negativ. Und Sie nennen das unvoreingenommen. Unvoreingenommen, ja. Aber nützlich, nein! "
ML: "Okay, Leute. Du hast dich wieder geärgert. Lass mich dir eine Frage stellen, F. Hast du jemals die Abweichung von deiner Methode mit der Abweichung von Bs Methode verglichen, als du beide an demselben Problem gearbeitet hast?"
F: "Ja. Tatsächlich gebe ich es nicht gern zu, aber der Ansatz von B hat manchmal eine geringere Voreingenommenheit und MSE als mein Schätzer!"
ML: "Die Lehre hier ist, dass keiner von uns das Monopol hat, einen Schätzer zu erstellen, der Eigenschaften hat, die wir haben wollen, obwohl wir uns ein wenig nicht einig sind."
B: "Ja, wir sollten die Arbeit des anderen ein bisschen mehr lesen. Wir können uns gegenseitig Inspirationen für Schätzer geben. Wir könnten feststellen, dass die Schätzer des anderen bei unseren eigenen Problemen großartig funktionieren."
F: "Und ich sollte aufhören, von Voreingenommenheit besessen zu sein. Ein unvoreingenommener Schätzer könnte eine lächerliche Varianz aufweisen. Ich nehme an, wir alle müssen die Verantwortung für die Entscheidungen übernehmen, die wir bei der Bewertung treffen und für die Eigenschaften, die wir in unseren Schätzern sehen möchten. Wir können nicht hinter einer Philosophie zurückbleiben. Versuchen Sie alle Bewertungen, die Sie können. Und ich werde weiterhin einen Blick auf die Bayes'sche Literatur werfen, um neue Ideen für Schätzer zu erhalten! "
B: "Tatsächlich wissen viele Leute nicht wirklich, was ihre eigene Philosophie ist. Ich bin mir selbst nicht sicher. Wenn ich ein Bayesianisches Rezept verwende und dann ein nettes theoretisches Ergebnis beweise, heißt das nicht, dass ich Ich bin ein Frequentist? Ein Frequentist kümmert sich um die oben genannten Leistungsnachweise, er kümmert sich nicht um Rezepte. Und wenn ich stattdessen (oder auch) ein paar Tests mache, heißt das, dass ich ein Maschinenlerner bin? "
ML: "Dann scheinen wir uns alle ziemlich ähnlich zu sein."