Was genau ist der Aufbau eines statistischen Modells?


15

Was genau ist der Aufbau eines statistischen Modells?

In diesen Tagen, in denen ich mich für Forschungsjobs oder Beratungsjobs bewerbe, taucht häufig der Begriff "Modellbildung" oder "Modellierung" auf. Der Begriff klingt cool, aber worauf beziehen sie sich genau? Wie baust du dein Modell?

Ich habe nach Vorhersagemodellen gesucht , einschließlich k-nn und logistischer Regression.


1
Das ist ziemlich weit gefasst, es könnte sich auf eine große Vielfalt von Modellen beziehen - verschiedene Arten von Regression, mehrstufige Modelle, Bäume und ihre Varianten, Clusterbildung usw.
Peter Flom - Reinstate Monica

Ein statistisches Modell ist dasselbe wie ein mathematisches Modell, mit der Ausnahme, dass ein statistisches Modell eine Variable enthält, die Fehler berücksichtigt. Mathematisches Modell: Gewicht = Größe * 2.7. Statistisches Modell: Gewicht = Größe * 2,7 + Fehler.
Neil McGuigan

2
Ich mag diese zitieren Papier : Statistische Modellierung: Die beiden Kulturen
user13985

Antworten:


12

Ich mache eine kurze Pause, obwohl ich keineswegs Statistiker bin, sondern viel Modellierung mache - statistisch und nicht statistisch.

Beginnen wir zunächst mit den Grundlagen:

Was ist ein Modell genau?

Ein Modell ist eine Darstellung der Realität, wenn auch stark vereinfacht. Stellen Sie sich ein Modell aus Wachs / Holz für ein Haus vor. Sie können es berühren / fühlen / riechen. Nun ist ein mathematisches Modell eine Repräsentation der Realität unter Verwendung von Zahlen.

Was ist das für eine "Realität", höre ich Sie fragen? Okay. Denken Sie also an diese einfache Situation: Der Gouverneur Ihres Staates schreibt vor, dass der Preis für eine Packung Zigaretten im nächsten Jahr 100 US-Dollar kosten würde. Das "Ziel" ist es, die Menschen davon abzuhalten, Zigaretten zu kaufen, wodurch das Rauchen verringert wird, wodurch die Raucher gesünder werden (weil sie aufhören würden).

Nach einem Jahr fragt Sie der Gouverneur - war das ein Erfolg? Wie kannst du das sagen? Nun, Sie erfassen Daten wie die Anzahl der verkauften Pakete pro Tag oder pro Jahr, Umfrageantworten und alle messbaren Daten, die Sie in die Hände bekommen können, die für das Problem relevant sind. Sie haben gerade damit begonnen, das Problem zu modellieren. Nun wollen Sie analysieren, was dieses "Modell" sagt . Hier bietet sich die statistische Modellierung an. Sie können ein einfaches Korrelations- / Streudiagramm erstellen, um zu sehen, wie das Modell "aussieht". Sie könnten Lust bekommen, die Kausalität zu bestimmen, dh, wenn der steigende Preis zu einem Rückgang des Rauchens führte oder wenn andere störende Faktoren im Spiel waren (dh, vielleicht ist es etwas ganz anderes, und Ihr Modell hat es vielleicht verfehlt?).

Die Konstruktion dieses Modells erfolgt nun nach einem „Regelwerk“ (eher nach Richtlinien), dh was ist / ist nicht legal oder was macht / macht keinen Sinn. Sie sollten wissen, was Sie tun und wie Sie die Ergebnisse dieses Modells interpretieren. Das Erstellen / Ausführen / Interpretieren dieses Modells erfordert grundlegende statistische Kenntnisse. Im obigen Beispiel müssen Sie über Korrelations- / Streudiagramme, Regression (uni und multivariate) und andere Dinge Bescheid wissen. Ich schlage vor, die unterhaltsame / informative Lektüre zum intuitiven Verstehen von Statistiken zu lesen: Was ist überhaupt ein p-Wert? Es ist ein humorvoller Einstieg in die Statistik und bringt Ihnen die Modellierung auf dem Weg von der einfachen zur fortgeschrittenen (dh linearen Regression) bei. Dann kannst du weiter machen und andere Sachen lesen.

Denken Sie also daran, dass ein Modell eine Repräsentation der Realität ist und dass "alle Modelle falsch sind, aber einige nützlicher als andere" . Ein Modell ist eine vereinfachte Darstellung der Realität, und Sie können möglicherweise nicht alles berücksichtigen , aber Sie müssen wissen, wohin und was Sie nicht berücksichtigen müssen, um ein gutes Modell zu erhalten, das Ihnen aussagekräftige Ergebnisse liefern kann.

Hier hört es nicht auf. Sie können auch Modelle erstellen, um die Realität zu simulieren! So wird sich eine Reihe von Zahlen im Laufe der Zeit ändern (sagen wir). Diese Zahlen entsprechen einer sinnvollen Interpretation in Ihrer Domain. Sie können auch diese Modelle erstellen Minen Ihre Daten , um zu sehen , wie die verschiedenen Maßnahmen miteinander in Beziehung stehen (die Anwendung von Statistiken hier vielleicht fragwürdig, aber keine Sorge , jetzt). Beispiel: Sie sehen sich den Lebensmittelverkauf für ein Geschäft pro Monat an und stellen fest, dass es sich beim Kauf von Bier um eine Packung Windeln handelt (Sie erstellen ein Modell, das den Datensatz durchläuft und Ihnen diese Zuordnung zeigt). Es mag seltsam sein, aber es könnte bedeuten, dass die meisten Väter dies über das Wochenende kaufen, wenn das Baby auf ihre Kinder aufpasst? Legen Sie Windeln in die Nähe von Bier und Sie können Ihren Umsatz steigern! Aaah! Modellierung :)

Dies sind nur Beispiele und keineswegs eine Referenz für die professionelle Arbeit. Grundsätzlich bauen Sie Modelle, um zu verstehen / abzuschätzen, wie die Realität funktionieren wird / hat und um basierend auf den Ergebnissen bessere Entscheidungen zu treffen. Statistik oder nicht, Sie haben wahrscheinlich Ihr ganzes Leben lang modelliert, ohne es zu merken. Viel Glück :)


11

Das Erstellen eines statistischen Modells umfasst die Erstellung einer mathematischen Beschreibung einiger realer Phänomene, die die mit diesem System verbundene Unsicherheit und / oder Zufälligkeit berücksichtigen. Je nach Anwendungsbereich kann dies von einer einfachen linearen Regression oder einem grundlegenden Hypothesentest über eine komplizierte multivariate Faktoranalyse bis hin zu Data Mining reichen.


5
Ich habe das positiv bewertet, weil es eine tapfere, markige Anstrengung ist, auf eine extrem breite Frage zu antworten. Ich habe jedoch einige Zweifel, ob "Data Mining" eine statistische Modellierung beinhaltet, und würde es begrüßen, ein Beispiel oder eine Klarstellung dessen zu sehen, was Sie mit diesem Ausdruck meinen.
Whuber

@whuber LASSO wählt Features aus, ist das nicht in gewissem Sinne ein Regressionsmodell?
user13985

Mit anderen Worten, es ist ein bisschen so, als würde man ein Haus nur aus imaginären Ziegeln und Mörtel bauen. Mein esoterischer Kommentar wird im Scherz gesagt. :)
Graeme Walsh

1
Data Mining kann im Rahmen der Erstellung oder Validierung eines bestimmten Modells verwendet werden.
Dave

5

Die Modellierung beinhaltet für mich die Angabe eines probabilistischen Rahmens für beobachtete Daten mit schätzbaren Parametern, mit denen wertvolle Unterschiede bei beobachtbaren Daten erkannt werden können, wenn sie existieren. Das nennt man Macht. Probabilistische Modelle können entweder zur Vorhersage oder zur Inferenz herangezogen werden. Sie können verwendet werden, um Maschinen zu kalibrieren, einen Mangel an Kapitalrendite nachzuweisen, Wetter- oder Lagerbestände vorherzusagen oder medizinische Entscheidungen zu vereinfachen.

Ein Modell muss nicht unbedingt gebaut werden. In einem isolierten Experiment kann ein nichtparametrischer Modellierungsansatz wie der t-Test verwendet werden, um festzustellen, ob zwischen zwei Gruppen ein signifikanter Mittelwertunterschied besteht. Für viele Prognosezwecke können jedoch Modelle erstellt werden, um Änderungen in der Zeit zu erkennen. Zum Beispiel können übergangsbasierte Markov-Modelle verwendet werden, um Marktwertschwankungen für Anlagen vorherzusagen. Inwieweit kann ein "Einbruch" jedoch als schlechter als erwartet angesehen werden? Unter Verwendung historischer Beweise und beobachteter Prädiktoren kann ein ausgeklügeltes Modell erstellt werden, um zu kalibrieren, ob die beobachteten Einbrüche sich signifikant von den historisch erhaltenen unterscheiden. Mithilfe von Tools wie Kontrolldiagrammen, kumulativen Inzidenzdiagrammen, Überlebenskurven und anderen "zeitbasierten" Diagrammen

Alternativ werden einige Modelle "gebaut", indem sie die Flexibilität haben, sich an das Datenwachstum anzupassen. Die Erkennung von Trends durch Twitter und das Empfehlungssystem von Netflix sind Beispiele für solche Modelle. Sie haben eine allgemeine Spezifikation (Bayesian Model Averaging, für letztere), die es einem flexiblen Modell ermöglicht, historische Verschiebungen und Trends zu berücksichtigen und eine Neukalibrierung durchzuführen, um die beste Vorhersage zu gewährleisten, z dramatische Verschiebung der Filmpräferenz aufgrund der Saisonalität.

Einige der Data-Mining-Ansätze werden eingeführt, weil sie sich hervorragend für bestimmte Arten von Prognoseansätzen eignen (wiederum das Problem, "erwartete" Trends oder Datenwerte zu ermitteln). Mit K-NN können hochdimensionale Daten aufgenommen und daraus geschlossen werden, ob die Probanden allein aufgrund ihrer Nähe zuverlässige Vorhersagen erhalten können (unabhängig davon, ob es sich um Alter, Musikgeschmack, Sexualgeschichte oder ein anderes messbares Merkmal handelt). Andererseits kann die logistische Regression einen binären Klassifikator erhalten, wird jedoch viel häufiger verwendet, um über einen Parameter namens Odds Ratio auf die Assoziation zwischen einem binären Ergebnis und einer oder mehreren Expositionen und Bedingungen zu schließen. Aufgrund der Grenzwertsätze und ihrer Beziehung zu den verallgemeinerten linearen Modellen sind Quotenverhältnisse sehr reguläre Parameter, die einen "hochkonservierten" Typ I-Fehler aufweisen (d. H


Danke für deine Worte. Ist das nicht mehr oder weniger im Bereich des maschinellen Lernens, wenn Twitter Netflix entdeckt? Ich kann oft nicht die Grenze zwischen Modellierung und maschinellem Lernen ziehen.
user13985

1
Maschinelles Lernen ist normalerweise eine hochdimensionale Modellierung. Bei vielen Methoden handelt es sich um Sonderfälle bestehender wahrscheinlichkeitsbasierter Methoden, bei denen Strafen oder Gewichtung angewendet werden.
AdamO

Vielen Dank für die Bestätigung meiner Gedanken, lassen Sie mich wissen, wenn Sie noch etwas möchten.
user13985

3

Modellierung ist der Prozess der Identifizierung eines geeigneten Modells.

Häufig hat ein Modellbauer eine gute Vorstellung von wichtigen Variablen und vielleicht sogar eine theoretische Grundlage für ein bestimmtes Modell. Sie werden auch einige Fakten über die Reaktion und die allgemeine Art der Beziehungen zu den Prädiktoren kennen, sind sich jedoch möglicherweise nicht sicher, ob ihre allgemeine Vorstellung von einem Modell völlig angemessen ist - auch wenn sie eine ausgezeichnete theoretische Vorstellung davon haben, wie der Mittelwert funktionieren soll B. nicht sicher sein, dass die Varianz nicht mit dem Mittelwert zusammenhängt, oder sie vermuten, dass eine gewisse serielle Abhängigkeit möglich ist.

Es kann also einen Zyklus von mehreren Stufen der Modellidentifikation geben, die auf (zumindest einige) Daten verweisen. Die Alternative besteht darin, regelmäßig das Risiko einzugehen, ziemlich ungeeignete Modelle zu haben.

(Wenn sie dafür verantwortlich sind, müssen sie natürlich berücksichtigen, wie sich die Verwendung von Daten auf ihre Schlussfolgerungen auswirkt.)

Der tatsächliche Prozess ist von Gebiet zu Gebiet und von Person zu Person unterschiedlich, es ist jedoch möglich, dass einige Personen Schritte in ihrem Prozess explizit auflisten (z. B. beschreiben Box und Jenkins einen solchen Ansatz in ihrem Buch über Zeitreihen). Ideen zur Modellidentifizierung ändern sich im Laufe der Zeit.


0

Ich glaube nicht, dass es eine gemeinsame Definition eines statistischen Modells gibt. Nach meiner Erfahrung in der Industrie scheint es ein Synonym für das zu sein, was in der Ökonometrie als reduziertes Formmodell bezeichnet wird . Ich erkläre es.

F=md2xdt2

Dieses Modell wird das haben, was Physiker "Konstanten" oder "Koeffizienten" nennen, zB eine Luftdichte bei einer gegebenen Temperatur und Höhe. Sie müssen herausfinden, was diese Koeffizienten experimentell sind. In unserem Fall werden wir die Artillerie bitten, die Kanonen unter vielen verschiedenen, streng kontrollierten Bedingungen wie Winkeln, Temperaturen usw. abzufeuern.

Wir sammeln alle Daten und passen das Modell mithilfe statistischer Techniken an. Dies kann so einfach wie eine lineare Regression oder Durchschnittswerte sein. Nachdem wir alle Koeffizienten erhalten haben, führen wir unser mathematisches Modell aus, um die Brenntabellen zu erstellen. Dies wird fein säuberlich in den Kategorien Dokument beschrieben hier , genannt „DIE PRODUKTION VON BRENN TABELLEN CANNON ARTILLERY.“

Was ich gerade beschrieben habe, ist kein statistisches Modell. Ja, es werden Statistiken verwendet, aber in diesem Modell werden physikalische Gesetze verwendet, die das Wesen des Modells ausmachen. Hier ist Statistik nur ein Werkzeug, um die Werte einiger wichtiger Parameter zu bestimmen. Die Dynamik des Systems wird durch das Feld beschrieben und vorgegeben.

Nehmen wir an, wir hätten die Gesetze der Physik nicht gekannt oder nicht beachtet und lediglich versucht, die Beziehung zwischen der Flugweite der Kanonen und den Parametern wie Schusswinkel und Temperatur mithilfe eines "statistischen Modells" zu ermitteln. Wir würden einen großen Datensatz mit einer Reihe von Kandidatenvariablen oder Merkmalen und Transformationen von Variablen, möglicherweise polynomiellen Temperaturreihen usw., erstellen. Dann würden wir eine Art Regression durchführen und Koeffizienten identifizieren. Diese Koeffizienten hätten nicht notwendigerweise Interpretationen auf dem Gebiet etabliert. Wir nennen sie Empfindlichkeiten gegenüber dem Quadrat der Temperatur usw. Dieses Modell kann tatsächlich sehr gut die Endpunkte von Kanonenkugeln vorhersagen, da der zugrunde liegende Prozess ziemlich stabil ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.