Antworten:
Die kurze Antwort auf diese Frage, die ich von Persi Diaconis gehört habe, lautet wie folgt: Die von Wahrscheinlichkeit und Statistik berücksichtigten Probleme sind invers zueinander. In der Wahrscheinlichkeitstheorie betrachten wir einen zugrunde liegenden Prozess, dessen Zufälligkeit oder Unsicherheit durch Zufallsvariablen modelliert wird, und wir finden heraus, was passiert. In der Statistik beobachten wir etwas, was geschehen ist, und versuchen herauszufinden, welcher zugrunde liegende Prozess diese Beobachtungen erklären würde.
Ich mag das Beispiel eines Glases mit roten und grünen Gummibärchen.
Ein Probabilist beginnt mit der Kenntnis der Proportionen und fragt nach der Wahrscheinlichkeit, eine rote Jelly Bean zu ziehen. Ein Statistiker ermittelt den Anteil der roten Jelly Beans durch Probennahme aus dem Glas.
Es ist irreführend zu sagen, dass Statistik einfach die Umkehrung der Wahrscheinlichkeit ist. Ja, statistische Fragen sind Fragen der umgekehrten Wahrscheinlichkeit, aber es handelt sich um falsch gestellte umgekehrte Probleme , und dies macht einen großen Unterschied in Bezug auf die Art und Weise, wie sie angegangen werden.
Wahrscheinlichkeit ist ein Zweig der reinen Mathematik - Wahrscheinlichkeitsfragen können mit axiomatischem Denken gestellt und gelöst werden, und daher gibt es für jede Wahrscheinlichkeitsfrage eine richtige Antwort.
Statistische Fragen können werden umgewandelt in der Wahrscheinlichkeits Fragen durch die Verwendung von Wahrscheinlichkeitsmodellen . Sobald wir bestimmte Annahmen über den Mechanismus der Datenerzeugung getroffen haben, können wir statistische Fragen mithilfe der Wahrscheinlichkeitstheorie beantworten. Die korrekte Formulierung und Überprüfung dieser Wahrscheinlichkeitsmodelle ist jedoch genauso wichtig oder noch wichtiger als die anschließende Analyse des Problems unter Verwendung dieser Modelle.
Man könnte sagen, dass die Statistik aus zwei Teilen besteht. Der erste Teil ist die Frage, wie probabilistische Modelle für das Problem zu formulieren und zu bewerten sind. dieses Bestreben liegt im Bereich der "Wissenschaftstheorie". Der zweite Teil ist die Frage nach Antworten, nachdem ein bestimmtes Modell angenommen wurde. Dieser Teil der Statistik ist in der Tat eine Frage der angewandten Wahrscheinlichkeitstheorie und enthält in der Praxis auch einiges an numerischer Analyse.
Ich mag dies von Steve Skiennas berechneten Wetten (siehe den Link für eine vollständige Diskussion):
Zusammenfassend lässt sich sagen, dass die Wahrscheinlichkeitstheorie es uns ermöglicht, die Konsequenzen einer gegebenen idealen Welt zu finden, während die statistische Theorie es uns ermöglicht, das Ausmaß zu messen, in dem unsere Welt ideal ist.
Wahrscheinlichkeit ist eine reine Wissenschaft (Mathematik), Statistik handelt von Daten. Sie hängen zusammen, da die Wahrscheinlichkeit eine Art Grundlage für die Statistik bildet und grundlegende Ideen liefert.
Tabelle 3.1 der Intuitiven Biostatistik beantwortet diese Frage mit dem folgenden Diagramm. Beachten Sie, dass alle Pfeile für die Wahrscheinlichkeit nach rechts und für die Statistik nach links zeigen.
WAHRSCHEINLICHKEIT
Allgemein ---> Spezifisch
Bevölkerung ---> Stichprobe
Modell ---> Daten
STATISTIKEN
Allgemein <--- Spezifisch
Population <--- Probe
Modell <--- Daten
Wahrscheinlichkeit Antworten auf Fragen über das, was wird passieren, beantwortet Statistiken Fragen über das, was war geschehen.
Bei der Wahrscheinlichkeit geht es darum, die Unsicherheit zu quantifizieren, während die Statistik die Abweichungen bei einem bestimmten Maß an Interesse erklärt (z. B. warum variieren die Einkommensniveaus?), Die wir in der realen Welt beobachten.
Wir erklären die Variation anhand einiger beobachtbarer Faktoren (z. B. Geschlecht, Bildungsniveau, Alter usw. für das Einkommensbeispiel). Da wir jedoch möglicherweise nicht alle möglichen Faktoren berücksichtigen können, die sich auf das Einkommen auswirken, überlassen wir eine ungeklärte Variation zufälliger Fehler (bei denen die Quantifizierung der Unsicherheit eintritt).
Da wir "Variation = Auswirkung beobachtbarer Faktoren + Auswirkung zufälliger Fehler" zuordnen, benötigen wir die von der Wahrscheinlichkeit bereitgestellten Werkzeuge, um die Auswirkung zufälliger Fehler auf die beobachtete Variation zu berücksichtigen.
Es folgen einige Beispiele:
Quantifizierung der Unsicherheit
Beispiel 1: Sie werfen einen 6-seitigen Würfel. Wie hoch ist die Wahrscheinlichkeit, eine 1 zu erhalten?
Beispiel 2: Wie hoch ist die Wahrscheinlichkeit, dass das jährliche Einkommen einer aus den USA zufällig ausgewählten erwachsenen Person weniger als 40.000 US-Dollar beträgt?
Variation erklären
Beispiel 1: Wir beobachten, dass das jährliche Einkommen einer Person variiert. Welche Faktoren erklären die Einkommensschwankungen einer Person?
Natürlich können wir nicht alle Faktoren berücksichtigen. Daher ordnen wir das Einkommen einer Person einigen beobachtbaren Faktoren zu (z. B. Bildungsstand, Geschlecht, Alter usw.) und überlassen alle verbleibenden Schwankungen der Unsicherheit (oder in der Sprache der Statistik: zufälligen Fehlern).
Beispiel 2: Wir beobachten, dass einige Verbraucher die meiste Zeit Tide wählen, wenn sie ein Waschmittel kaufen, während andere Verbraucher die Waschmittelmarke xyz wählen. Was erklärt die Variation in der Wahl? Wir führen die Variation der Auswahl auf einige beobachtbare Faktoren wie Preis, Markenname usw. zurück und überlassen jede ungeklärte Variation zufälligen Fehlern (oder Unsicherheiten).
Wahrscheinlichkeit ist die Umarmung von Unsicherheit, während Statistik ein empirisches, ausgehungertes Streben nach der Wahrheit ist (verdammte Lügner natürlich ausgeschlossen).
Die Wahrscheinlichkeit eines Ereignisses ist seine langfristige relative Häufigkeit. Es gibt Ihnen also die Möglichkeit , beispielsweise beim nächsten Münzwurf einen "Kopf" oder beim nächsten Würfelwurf eine "3" zu erhalten.
Eine Statistik ist ein numerisches Maß, das aus einer Stichprobe der Bevölkerung berechnet wird. Zum Beispiel der Stichprobenmittelwert. Wir verwenden dies als eine Statistik, die den Populationsmittelwert schätzt, der ein Parameter ist. Im Grunde gibt es Ihnen eine Art Zusammenfassung einer Probe.
Wahrscheinlichkeitsstudien, na ja, wie wahrscheinlich Ereignisse sind. Sie wissen intuitiv, wie hoch die Wahrscheinlichkeit ist.
Statistik ist die Untersuchung von Daten: Zeigen (mithilfe von Werkzeugen wie Diagrammen), Zusammenfassen (mithilfe von Mitteln und Standardabweichungen usw.), Erzielen von Schlussfolgerungen über die Welt, aus der diese Daten stammen (Anpassen von Linien an Daten usw.), und - Dies ist der Schlüssel zur Quantifizierung, wie sicher wir in Bezug auf unsere Schlussfolgerungen sein können.
Um zu quantifizieren, wie sicher wir in Bezug auf unsere Schlussfolgerungen sein können, müssen wir die Wahrscheinlichkeit verwenden. Angenommen, Sie haben die Daten des letzten Jahres zu Niederschlägen in der Region, in der Sie leben, und in der ich wohne. Letztes Jahr regnete es durchschnittlich 1/4-Zoll pro Woche, wo Sie leben, und 3/8-Zoll, wo ich wohne. Wir können also sagen, dass der Niederschlag in meiner Region durchschnittlich 50% höher ist als bei Ihnen, oder? Nicht so schnell, Sparky. Es könnte ein Zufall sein: Vielleicht hat es im letzten Jahr bei mir einfach viel geregnet. Wir können die Wahrscheinlichkeit verwenden, um zu schätzen, wie sicher wir sind, dass mein Zuhause zu 50% feuchter ist als deins.
Grundsätzlich kann man also sagen, dass die Wahrscheinlichkeit die mathematische Grundlage für die Theorie der Statistik ist.
In der Wahrscheinlichkeitstheorie erhalten wir zufällige Variablen X1, X2, ... und dann untersuchen wir ihre Eigenschaften, dh berechnen die Wahrscheinlichkeit P {X1 \ in B1}, untersuchen die Konvergenz von X1, X2, ... usw .
In der mathematischen Statistik erhalten wir n Realisierungen einer Zufallsvariablen X und eine Menge von Verteilungen D; Das Problem besteht darin, unter den Verteilungen von D eine zu finden, die am wahrscheinlichsten die von uns beobachteten Daten erzeugt.
Wahrscheinlich ist die Verteilung im Voraus bekannt und erkennbar - Sie beginnen mit einer bekannten Wahrscheinlichkeitsverteilungsfunktion (oder einer ähnlichen Funktion) und nehmen eine Stichprobe daraus auf.
In der Statistik ist die Verteilung im Voraus nicht bekannt. Es kann sogar unerkennbar sein. Es werden Annahmen über die Wahrscheinlichkeitsverteilung hinter beobachteten Daten getroffen, um die Wahrscheinlichkeitstheorie auf diese Daten anwenden zu können, um zu wissen, ob eine Nullhypothese zu diesen Daten verworfen werden kann oder nicht.
Es gibt eine philosophische Diskussion darüber, ob es in der realen Welt eine Wahrscheinlichkeit gibt oder ob es sich um eine ideale Erfindung unserer mathematischen Vorstellungen handelt, und alle unsere Beobachtungen können nur statistisch sein.
Statistik ist das Streben nach Wahrheit angesichts von Unsicherheit. Wahrscheinlichkeit ist das Werkzeug, mit dem wir die Unsicherheit quantifizieren können.
(Ich habe eine weitere, längere Antwort gegeben, bei der angenommen wurde, dass es sich um etwas handelt, das sich nach dem Motto "Wie würden Sie es Ihrer Großmutter erklären?" Richtet.)
Haftungsausschluss: Die obigen sind mathematische Antworten. In der Realität geht es in vielen Statistiken auch darum, geeignete Modelle zu entwerfen / zu entdecken, vorhandene Modelle in Frage zu stellen, Experimente zu entwerfen, mit unvollständigen Daten umzugehen usw. "Alle Modelle sind falsch."
Wahrscheinlichkeit : Bestimmen Sie bei gegebenen bekannten Parametern die Wahrscheinlichkeit, einen bestimmten Datensatz zu beobachten.
Statistik : Machen Sie bei einem bestimmten Satz beobachteter Daten einen Rückschluss auf die möglichen Parameter.
Statistik ist "subjektiver" und "mehr Kunst als Wissenschaft" (relativ zur Wahrscheinlichkeit).
Verschiedene Statistiker geben unterschiedliche, oft langwierige Antworten.
Der Unterschied zwischen Wahrscheinlichkeiten und Statistiken besteht darin, dass es bei Wahrscheinlichkeiten keinen Fehler gibt. Wir sind uns der Wahrscheinlichkeit sicher, weil wir genau wissen, wie viele Seiten eine Münze haben oder wie viele blaue Karamellen sich in der Vase befinden. Aber in der Statistik untersuchen wir einen Teil einer Population von allem, was wir untersuchen, und daraus versuchen wir, die Wahrheit zu erkennen, aber es gibt immer einen Prozentsatz falscher Schlussfolgerungen. Das einzige, was in der Statistik wahr ist, ist der Fehler, dass es sich tatsächlich um eine Wahrscheinlichkeit handelt.
Savages Text Foundations of Statistics wurde in Google Scholar über 12.000 Mal zitiert. [3] Es sagt folgendes.
Einmütig ist man sich einig, dass die Statistik irgendwie von der Wahrscheinlichkeit abhängt. In Bezug auf die Wahrscheinlichkeit und den Zusammenhang mit der Statistik gab es jedoch seit dem Turm von Babel selten eine solche völlige Meinungsverschiedenheit und Störung der Kommunikation. Zweifellos ist ein Großteil der Meinungsverschiedenheiten lediglich terminologisch und würde bei hinreichend scharfer Analyse verschwinden.
https://en.wikipedia.org/wiki/Foundations_of_statistics
Der Punkt, dass die Wahrscheinlichkeitstheorie eine Grundlage der Statistik ist, ist daher kaum umstritten. Alles andere ist Freiwild.
Aber beim Versuch, hilfreicher, praktischer mit einer Antwort zu sein ...
Die Wahrscheinlichkeitstheorie enthält jedoch viel, was hauptsächlich von mathematischem Interesse ist und für die Statistik nicht direkt relevant ist. Darüber hinaus sind viele statistische Themen unabhängig von der Wahrscheinlichkeitstheorie
https://en.wikipedia.org/wiki/Probability_and_statistics
Das oben Gesagte ist in keiner Weise erschöpfend oder verbindlich, aber ich glaube, es ist nützlich.
Im Allgemeinen hat es mir geholfen, Dinge zu sehen, wie ...
Deskrete Mathematik >> Wahrscheinlichkeitstheorie >> Statistik
Mit jedem, der im Durchschnitt stark in den Fundamenten des nächsten verwendet wird. Das heißt, es gibt große Überschneidungen darin, wie wir die Grundlagen des nächsten untersuchen.
PS. Es gibt induktive und deduktive Statistiken, daher liegt hier nicht der Unterschied.
Viele Leute und Mathematiker sagen, dass "STATISTIK die Umkehrung der Wahrscheinlichkeit ist", aber es ist nicht besonders richtig. Die Herangehensweise oder die Methode zum Lösen dieser 2 sind völlig unterschiedlich, aber sie sind miteinander verbunden .
Ich beziehe mich gerne auf meinen Freund John D. Cook.
"Ich mag das Beispiel eines Glases mit roten und grünen Gummibärchen.
Ein Probabilist beginnt damit, die Proportionen zu kennen, und findet beispielsweise die Wahrscheinlichkeit, eine rote Jelly Bean zu ziehen. Ein Statistiker ermittelt den Anteil der roten Gummibärchen anhand einer Probe aus dem Glas. "
Nun wird der Anteil der roten Geleebohne, der durch Probenahme aus dem Glas erhalten wird, vom Probabilisten verwendet, um die Wahrscheinlichkeit zu ermitteln, mit der eine rote Bohne aus dem Glas gezogen werden kann
Betrachten Sie dieses Beispiel ---- >>>
In einer Prüfung scheiterten 30% der Studenten in Physik, 25% in Mathematik und 12% in Physik und Mathematik. Ein Student wird nach dem Zufallsprinzip ausgewählt, um herauszufinden, mit welcher Wahrscheinlichkeit der Student in der Physik versagt hat, wenn bekannt ist, dass er in der Mathematik versagt hat.
Die obige Summe ist ein Problem der Wahrscheinlichkeit, aber wenn wir genau hinschauen, werden wir feststellen, dass die Summe mit einigen statistischen Daten versehen ist
30% der Schüler scheiterten in Physik, 25% in Mathematik. Dies sind im Grunde genommen Häufigkeiten, wenn die Prozentsätze berechnet werden. Daher werden uns statistische Daten zur Verfügung gestellt, die uns wiederum dabei helfen, die Wahrscheinlichkeit zu ermitteln
Wahrscheinlichkeit und Statistik sind also sehr eng miteinander verbunden, oder wir können vielmehr sagen, dass die Wahrscheinlichkeit in hohem Maße von der Statistik abhängt
Der Begriff "Statistik" wird von JC Maxwell in dem Artikel Molecules (in Nature 8, 1873, S. 437–441) wunderbar erklärt. Lassen Sie mich die relevante Passage zitieren:
Wenn die arbeitenden Mitglieder der Sektion F einen Bericht über die Volkszählung oder ein anderes Dokument erhalten, das die numerischen Daten der Wirtschafts- und Sozialwissenschaften enthält, teilen sie zunächst die gesamte Bevölkerung nach Alter, Einkommenssteuer, Bildung, religiöser Glaube oder strafrechtliche Verurteilungen. Die Anzahl der Individuen ist viel zu groß, um die Geschichte jedes einzelnen Individuums einzeln nachvollziehen zu können, so dass sie ihre Aufmerksamkeit auf eine kleine Anzahl künstlicher Gruppen konzentrieren, um ihre Arbeit innerhalb menschlicher Grenzen zu reduzieren. Die unterschiedliche Anzahl von Personen in jeder Gruppe und nicht der unterschiedliche Zustand jeder Person ist das primäre Datum, von dem aus sie arbeiten.
Dies ist natürlich nicht die einzige Methode, die menschliche Natur zu studieren. Wir können das Verhalten einzelner Menschen beobachten und es mit dem Verhalten vergleichen, das ihr früherer Charakter und ihre gegenwärtigen Umstände nach der besten bestehenden Theorie erwarten lassen. Diejenigen, die diese Methode anwenden, bemühen sich, ihre Kenntnisse über die Elemente der menschlichen Natur zu verbessern, ähnlich wie ein Astronom die Elemente eines Planeten korrigiert, indem er seine tatsächliche Position mit der aus den empfangenen Elementen abgeleiteten vergleicht. Das Studium der menschlichen Natur durch Eltern und Schulmeister, durch Historiker und Staatsmänner ist daher von dem der Standesbeamten und Tabulatoren sowie derjenigen Staatsmänner zu unterscheiden, die auf Zahlen vertrauen. Die eine kann als historische und die andere als statistische Methode bezeichnet werden.
Die Gleichungen der Dynamik drücken die Gesetze der historischen Methode in Bezug auf Materie vollständig aus, aber die Anwendung dieser Gleichungen impliziert eine perfekte Kenntnis aller Daten. Aber der kleinste Teil der Materie, den wir experimentieren können, besteht aus Millionen von Molekülen, von denen keines für uns individuell wahrnehmbar wird. Wir können daher die tatsächliche Bewegung eines dieser Moleküle nicht feststellen, so dass wir gezwungen sind, die strenge historische Methode aufzugeben und die statistische Methode des Umgangs mit großen Gruppen von Molekülen anzuwenden.
Er gibt diese Erklärung der statistischen Methode in mehreren anderen Arbeiten. Zum Beispiel: "Bei der statistischen Untersuchungsmethode verfolgen wir das System nicht während seiner Bewegung, sondern richten unsere Aufmerksamkeit auf eine bestimmte Phase und stellen fest, ob sich das System in dieser Phase befindet oder nicht und auch, wenn es in die Phase eintritt und wenn es es verlässt "(Trans. Cambridge Philos. Soc. 12, 1879, S. 547–570).
Es gibt eine weitere schöne Passage von Maxwell über "Wahrscheinlichkeit" (aus einem Brief an Campbell, 1850, abgedruckt in The Life of James Clerk Maxwell , S. 143):
Die eigentliche Wissenschaft der Logik ist gegenwärtig nur mit Dingen vertraut, die entweder sicher, unmöglich oder völlig zweifelhaft sind, von denen wir (glücklicherweise) keine zu Grunde legen müssen. Daher ist die wahre Logik für diese Welt die Wahrscheinlichkeitsrechnung, die die Größe der Wahrscheinlichkeit berücksichtigt (die ein vernünftiger Mensch hat oder haben sollte).
Wir können also sagen:
- In der Statistik konzentrieren wir uns "auf eine kleine Anzahl künstlicher Gruppen" oder Mengen; Wir führen eine Art Katalogisierung oder Volkszählung durch.
- Wahrscheinlich berechnen wir unsere Unsicherheit über bestimmte Ereignisse oder Größen.
Die beiden sind verschieden, und wir können das eine ohne das andere machen.
Wenn wir beispielsweise eine vollständige Volkszählung durchführen und die genaue Anzahl der Personen zählen, die bestimmten Gruppen wie Alter, Geschlecht usw. angehören, erstellen wir Statistiken. Es gibt keine Ungewissheit - Wahrscheinlichkeit -, weil die Zahlen, die wir finden, genau und bekannt sind.
Stellen Sie sich andererseits vor, jemand geht auf der Straße vor uns vorbei, und wir fragen uns, wie alt sie sind. In diesem Fall sind wir unsicher und verwenden die Wahrscheinlichkeit, es sind jedoch keine Statistiken beteiligt, da wir keine Art von Volkszählung oder Katalog erstellen.
Beides kann aber auch zusammen auftreten. Wenn wir keine vollständige Volkszählung durchführen können, müssen wir raten, wie viele Menschen in bestimmten Alters- und Geschlechtergruppen leben. Daher verwenden wir die Wahrscheinlichkeit, während wir Statistiken erstellen. Umgekehrt können wir genaue statistische Daten über das Alter der Menschen berücksichtigen und anhand dieser Daten versuchen, die Person, die vor uns vorbeikommt, besser zu erraten. Daher verwenden wir Statistiken, während wir uns für eine Wahrscheinlichkeit entscheiden.