Was ist der Unterschied zwischen deskriptiver und inferentieller Statistik?

21

Mein Verständnis war, dass deskriptive Statistiken Merkmale einer Datenprobe quantitativ beschreiben, während inferentielle Statistiken Rückschlüsse auf die Populationen zuließen, aus denen Proben entnommen wurden.

Auf der Wikipedia-Seite für statistische Rückschlüsse heißt es jedoch:

Die statistische Inferenz macht zum größten Teil Aussagen über Populationen, wobei Daten verwendet werden, die aus der Population von Interesse mittels einer Form von Zufallsstichprobe gezogen wurden.

Das "zum größten Teil" hat mich denken lassen, dass ich diese Konzepte vielleicht nicht richtig verstehe. Gibt es Beispiele für Inferenzstatistiken, die keine Aussagen über Populationen machen?

terminology descriptive-statistics inference

— user1205901 - Setzen Sie Monica wieder ein
quelle

Beschreibende Statistik: Eine Münze wurde zehn Mal geworfen und fiel sechs Mal auf den Kopf. Statistische Schlussfolgerung: Die maximale Wahrscheinlichkeitsschätzung für die Wahrscheinlichkeit von Köpfen beträgt . Diese Informationen reichen nicht aus, um die Hypothese zu widerlegen, dass die Münze eine faire Münze ist.

0.6

$0.6$

— Dilip Sarwate

2

Inferenz ohne das Konzept der "Population": Angenommen, Ihre Daten werden durch einen (teilweise) unbekannten zufälligen Mechanismus / eine unbekannte Regel generiert. Inferenzmethoden erlauben es, Eigenschaften dieses Mechanismus basierend auf den Daten zu bewerten. Beispiel: Sie möchten eine elektrophysikalische Formel überprüfen, die auf Ergebnissen basiert, die nur ungefähr oder unter unvollständigen Bedingungen gemessen werden können.

— Michael M

1

@ Michael: Ja; Oder lassen Sie Ihre Daten durch einen bekannten Zufallsmechanismus generieren - zufällige Zuordnung von experimentellen Behandlungen.

— Scortchi

19

Ich komme aus den Verhaltenswissenschaften und verbinde diese Terminologie insbesondere mit einführenden Statistiklehrbüchern. In diesem Zusammenhang wird unterschieden zwischen:

Beschreibende Statistiken sind Funktionen der Beispieldaten, die für die Beschreibung einiger Merkmale der Daten von besonderem Interesse sind. Zu den klassischen deskriptiven Statistiken gehören Mittelwert, Min., Max., Standardabweichung, Median, Schrägstellung und Kurtosis.
Inferenzstatistiken sind eine Funktion der Beispieldaten, mit deren Hilfe Sie Rückschlüsse auf eine Hypothese zu einem Populationsparameter ziehen können. Klassische Inferenzstatistiken umfassen z, t, , F-Verhältnis usw. $\chi^2$

Der wichtige Punkt ist, dass jede inferentielle oder beschreibende Statistik eine Funktion der Beispieldaten ist. Ein Parameter ist eine Funktion der Grundgesamtheit, wobei der Begriff Grundgesamtheit dem zugrunde liegenden Datenerzeugungsprozess entspricht.

Aus dieser Perspektive hängt der Status einer bestimmten Funktion der Daten als beschreibende oder ableitende Statistik von dem Zweck ab, für den Sie sie verwenden.

Allerdings sind einige Statistiken für die Beschreibung relevanter Merkmale der Daten eindeutig nützlicher, und andere eignen sich gut, um Rückschlüsse zu ermöglichen.

Inferenzstatistik: Standardteststatistiken wie t und z für einen gegebenen Datenerzeugungsprozess, bei dem die Nullhypothese falsch ist, wird der erwartete Wert stark von der Stichprobengröße beeinflusst. Die meisten Forscher würden solche Statistiken nicht als Schätzung eines Populationsparameters von intrinsischem Interesse ansehen.
Deskriptive Statistik : Im Gegensatz dazu schätzen deskriptive Statistiken Populationsparameter, die typischerweise von intrinsischem Interesse sind. Beispielsweise liefern der Stichprobenmittelwert und die Standardabweichung Schätzungen der entsprechenden Populationsparameter. Selbst deskriptive Statistiken wie Minimum und Maximum liefern Informationen über äquivalente oder ähnliche Populationsparameter, obwohl in diesem Fall natürlich viel mehr Sorgfalt erforderlich ist. Darüber hinaus können viele deskriptive Statistiken verzerrt oder auf andere Weise weniger als ideale Schätzer sein. Sie haben jedoch immer noch eine gewisse Nützlichkeit bei der Schätzung eines interessierenden Populationsparameters.

Aus dieser Perspektive sind folgende wichtige Dinge zu verstehen:

Statistik : Funktion der Probendaten
Parameter : Funktion der Population (Datenerzeugungsprozess)
Estimator : Funktion der Probendaten, die zur Schätzung eines Parameters verwendet werden
Inferenz : Prozess der Schlussfolgerung über einen Parameter

Sie können also entweder die Unterscheidung zwischen deskriptiv und inferenziell basierend auf der Absicht des Forschers definieren, indem Sie die Statistik verwenden, oder Sie können eine Statistik basierend auf ihrer typischen Verwendung definieren.

— Jeromy Anglim
quelle

Wie ist es gerechtfertigt, t- oder F- Scores (anstatt z. B. t- Tests ) als Inferenzstatistik zu bezeichnen?

— Jona

@jona Der t-Score ist die "Statistik", die im t-Test verwendet wird. Daher könnte man den t-Score als Inferenzstatistik bezeichnen, wenn er als Teil eines solchen Inferenzprozesses verwendet wird. Ich gehe davon aus, dass eine Statistik eine Funktion der Daten ist. Aber vielleicht spielen Sie auf den Punkt an, dass wir die Inferenzstatistik oft als die breitere Palette von Techniken betrachten, die verwendet werden, um Inferenzen zu erstellen?

— Jeromy Anglim

Lassen Sie es mich anders formulieren - ist eine t-Statistik nicht eher eine Beschreibung einer Stichprobe als eine inferentielle Aussage (wie ein p-Wert)?

— Jona

Nun ja, eine Funktion der Daten entspricht einer Beschreibung einer Stichprobe. Ich glaube, ich dachte, dass solche Statistiken in einem inferentiellen Prozess verwendet werden (z. B. verknüpfen Forscher die t-Statistik mit einer t-Verteilung, um einen p-Wert zu erhalten, und verknüpfen dann p mit alpha, um eine Schlussfolgerung zu ziehen). Ich habe oft gesehen, dass Lehrbücher diese Beispiele verwenden. Aber ich nehme an, der p-Wert und die binäre Inferenz selbst könnten als Statistik angesehen werden (dh als Funktionen der Probendaten). Und die binäre Folgerung selbst könnte als am klarsten an der Folgerung ausgerichtet angesehen werden. Ist es das, worauf du hinaus willst?

— Jeromy Anglim

1

So verwenden Sie beispielsweise die Daten, um zu t zu gelangen, das sich auf eine Verteilung bezieht, die p ergibt , was wiederum eine binäre Schlussfolgerung über einen Populationsparameter ergibt. Aus einer häufigeren Perspektive sind t, p und die binäre Folgerung Zufallsvariablen. Alle waren in den Inferenzprozess involviert. Ich bin mir nicht sicher, welche Vor- und Nachteile es hat, alle oder nur einige solcher Statistiken als inferenziell zu bezeichnen.

— Jeromy Anglim

8

Eine Form der Folgerung basiert auf der zufälligen Zuordnung experimenteller Behandlungen und nicht auf der Zufallsauswahl aus einer Population (sogar hypothetisch). Oscar Kempthorne war ein Befürworter.

$A$ $B$ $t$ $t$ $10/252=0.04$

Vorhersage ist ein weiterer Bereich, in dem Sie nicht unbedingt Aussagen über Populationen formulieren. (Ich weiß nicht, dass jeder die Vorhersage "Inferenz" nennen möchte, aber es gibt Geisser (1993), Predictive Inference: An Introduction ). Oft folgt die Vorhersage aus einem angepassten Populationsmodell, aber nicht immer. ZB @ Matts Klassifizierungsbeispiel, Modellmittelung (Bayesian oder basierend auf Akaike-Gewichten) oder Vorhersage-Algorithmen wie Exponential-Glättung.

NB Ich denke, "Inferenzstatistik vs. deskriptive Statistik" bezieht sich häufiger auf die Disziplin Statistik als auf Mengen, die aus Stichproben berechnet wurden. Es gibt keinen wesentlichen Unterschied zwischen einer inferentiellen und einer deskriptiven Statistik. @ Jeremy hat darauf hingewiesen, es ist eine Frage, wozu Sie es verwenden.

— Scortchi - Wiedereinsetzung von Monica
quelle

2

Ich bin mir nicht sicher, ob die Klassifizierung unbedingt eine Aussage über die Population (en) macht, aus denen die Datenpunkte stammen. Wie Sie wahrscheinlich wissen, verwendet die Klassifizierung Trainingsdaten, die aus einigen "Merkmals" -Vektoren bestehen, die jeweils mit einer bestimmten Klasse gekennzeichnet sind, um die Klassenbezeichnungen vorherzusagen, die zu anderen nicht gekennzeichneten Merkmalsvektoren gehören. Zum Beispiel könnten wir die Vitalfunktionen eines Patienten und die Diagnose eines Arztes verwenden, um vorherzusagen, ob andere Patienten gesund oder krank sind.

$P(\textrm{class}=c|\textrm{features})$ $c$

Andere Klassifizierer suchen jedoch nach Unterschieden zwischen den Klassen, ohne die Klassen selbst zu modellieren. diese werden diskriminative Klassifikatoren genannt. Ein klassisches Beispiel ist der Klassifikator für den nächsten Nachbarn, der der Klasse seines nächsten Nachbarn ein unbeschriftetes Beispiel zuweist (wobei close auf eine für das Problem sinnvolle Weise definiert ist). Dies scheint nicht viel, wenn überhaupt, Informationen über die Populationen zu enthalten, aus denen die Datenpunkte gezogen wurden.

$t$

— Matt Krause
quelle

0

In einer Zeile versuchen beschreibende Statistiken angesichts der Daten, den Inhalt Ihrer Daten mit minimalem Informationsverlust zusammenzufassen (je nachdem, welche Maßnahme Sie verwenden). Sie können die Geografie der Daten sehen. (Sehen Sie sich etwa das Leistungsdiagramm der Klasse an und sagen Sie, wer oben, unten usw. ist.)

In einer Zeile versuchen Sie anhand der Daten, die Eigenschaften der hypothetischen Grundgesamtheit, aus der die Daten stammen, abzuschätzen und daraus zu schließen. (So etwas wie das Verstehen von Schülern der 7. Klasse anhand der guten Stichprobe aus der Klasse, vorausgesetzt, die zugrunde liegende Grundgesamtheit ist groß genug, dass Sie sie nicht in ihrer Gesamtheit berücksichtigen können.)

— Vani
quelle

3

Ich denke nicht, dass es eine Definition oder Charakterisierung von deskriptiven Statistiken ist, die auf einen minimalen Informationsverlust abzielen. Es ist durchaus möglich, beschreibende Statistiken zu haben, die wirklich wichtige Details auslassen, und das ist oft ein Problem.

— Nick Cox

0

Zusamenfassend

Deskriptive Statistik ist die Analyse von Daten, die Daten aussagekräftig beschreiben, anzeigen oder zusammenfassen. Es ist einfach eine Möglichkeit, unsere Daten / Gespräche über die gesamte Bevölkerung zu beschreiben. Einige von ihnen sind Maß für die zentrale Tendenz und Maß für die Streuung

Inferenzstatistik ist eine Technik, die es uns ermöglicht, Stichproben zu verwenden, um Verallgemeinerungen über die Populationen vorzunehmen, aus denen die Stichproben entnommen wurden

— Frehiwot Mulugeta
quelle

0

Deskriptive Statistik ist die Analyse von Daten, die Daten aussagekräftig beschreiben, anzeigen oder zusammenfassen. Es ist einfach eine Möglichkeit, unsere Daten / Gespräche über die gesamte Bevölkerung zu beschreiben. Einige von ihnen sind Maße der zentralen Tendenz und Maß der Streuung

Inferenzstatistik ist eine Technik, die es uns ermöglicht, Stichproben zu verwenden, um Verallgemeinerungen über die Populationen vorzunehmen, aus denen die Stichproben gezogen wurden. Testen von Beispielhypothesen und Verbessern dieser Antwort

— NURU MUSTEFA
quelle

Willkommen bei Cross Validated ! Bitte nehmen Sie sich einen Moment Zeit, um unsere Tour anzusehen . Es sieht so aus, als wollten Sie eine gute Antwort fertig stellen, aber etwas ist passiert. Fühlen Sie sich frei, Ihre Antwort zu bearbeiten, um Ihren Gedanken zu vervollständigen. Möglicherweise möchten Sie Ihre Antwort auch verbessern, indem Sie Zitate / Referenzen hinzufügen, die mit dem übereinstimmen, was Sie hier eingegeben haben. Sie müssen auch die Frage beantworten, ob es Beispiele für Inferenzstatistiken gibt, die keine Aussagen über Populationen machen.

— Tavrock