Allgemeine Wörter, die bestimmte statistische Bedeutungen haben


12

Ich bin kein Statistiker, aber meine Forschungsarbeit umfasst Statistiken (Daten analysieren, Literatur lesen usw.). Ein Kommentar zu einer meiner hier gestellten Fragen erinnerte mich erneut daran , dass es einige gebräuchliche Wörter gibt, die für diejenigen, die auf dem Gebiet der Statistik gut geübt sind, besondere Bedeutungen oder Konnotationen haben.

Es wird hilfreich sein, eine Liste solcher Wörter zu haben und möglicherweise Ausdrücke zusammen mit einigen Kommentaren.


1
Klingt wie ein Kandidat für Community Wiki .
Glen_b

@ Glen_b Es könnte sich zu einem besonders großen Terminus entwickeln, da praktisch jeder Begriff in Statistik oder Mathematik in Frage käme. Gibt es eine Möglichkeit, den Umfang dieser Frage sinnvoll einzugrenzen?
whuber

3
@whuber Ja, es besteht die Gefahr, dass es zu breit wird. Würde etwas wie "das gewöhnlich Verwirrung stiftet" ausreichen, um den Geltungsbereich einzuschränken?
Glen_b

Ich denke, dass kompetente Statistiker normalerweise ihre Muttersprache gut beherrschen und sich darüber im Klaren sind, wann sie Fachsprache verwenden, die einem Laienpublikum richtig erklärt werden muss.
Robert Jones

@ Glen_b Ich bin nicht sicher. Das ist so breit, dass ich kaum eine Liste von Wörtern anfangen kann, die abgedeckt werden sollten: Genauigkeit, Voreingenommenheit, Kalibrierung, Diskriminierung, Kontinuierlich, Verteilung, Gefahr, Überleben, Spline, Modell, Reaktion, Bootstrap, Anpassung, Cluster, Bedingt, Vertrauen, Dichte , Schätzung, Variable, kanonisch, Korrelation, Vorhersage, Inferenz, Zensur, Risiko, Konkordanz, Logistik, Grenze, Deckung, Verwechslung, Kontingenz, Konvergenz, Korrespondenz, Freiheit, Abweichung, exponentiell, extrem, Reichweite, normal, Drop-in, Dummy , erklärt [Variation], Faktor, Misserfolg, Ausfüllen,
Anpassen

Antworten:


12

" signifikant " - hier bedeutet der gebräuchliche Sprachgebrauch "wichtig" oder "bedeutungsvoll". Die statistische Bedeutung ist informell näher an "kann aus zufälligen Variationen über die Null unterschieden werden"; es bedeutet nicht, dass der Unterschied groß genug ist, um eine Rolle zu spielen.

Hier einige Beispiele, bei denen diese Unterscheidung zu Verwirrung geführt haben könnte: 1 2

" parameter " - besonders in wissenschaftlichen Experimenten scheint es häufig vorzukommen, dass das Wort "parameter" so verwendet wird, wie ein Statistiker das Wort "Variable" verwenden würde. Wikipedia formuliert es so:

Ein statistischer Parameter ist ein Parameter, der eine Familie von Wahrscheinlichkeitsverteilungen indiziert. Es kann als numerisches Merkmal einer Population oder eines Modells angesehen werden

Beispiel, wo dies ein Problem sein könnte: 1 - vermutlich der Beitrag, der zu dieser Frage geführt hat. (Ich habe kürzlich eine andere gesehen, aber ich kann sie jetzt nicht finden.)


11

"Fehler" - In der Statistik bedeutet dies häufig eine Abweichung zwischen einem beobachteten und einem vorhergesagten Wert. Im wirklichen Leben bedeutet es einen Fehler.


11

Ich habe ein Referat aus dem Jahr 2010 gefunden, das sich mit dieser Frage befasst.

Anderson-Cook CM. Versteckter Jargon: Alltägliche Wörter mit statistikspezifischen Bedeutungen. ICOTS8, Internationale Konferenz zum Thema Statistikunterricht, Ljubljana, Slowenien, 11.-17. Juli 2010.

Das Papier ist kostenlos online verfügbar , daher stelle ich nur eine unvollständige Liste der Begriffe zur Verfügung, die der Autor bespricht:

 confounding, control, factor, independent, random, uniform

10

Ich bin auf das Problem gestoßen, "Fälschung" wie in "Hypothese fälschen" zu verwenden, während andere dachten, ich beziehe mich auf "Daten erfinden". Auch " voreingenommen " ist fast unmöglich zu erwähnen, ohne Verwirrung zu stiften.


6

"normal" - In der Umgangssprache bedeutet normal, wie erwartet, nicht ungewöhnlich. In der Statistik bezieht sich eine normalverteilte Variable auf die Gaußsche Verteilung. Ich glaube nicht, dass es Standard ist, das Wort "normal" in Großbuchstaben zu schreiben, um es von der allgemeinen Sprachbedeutung zu unterscheiden.

"Normalisierung / Standardisierung" - In der Statistik bedeutet die Normalisierung einer Variablen, den Mittelwert zu subtrahieren und durch die Standardabweichung zu dividieren.

"Standardabweichung versus Standardfehler" - Die Standardabweichung wird normalerweise anhand der gesamten Grundgesamtheit berechnet, während der Standardfehler anhand der Stichprobe berechnet wird.


1
Ich bezweifle wirklich, dass "Standardfehler" ein "allgemeines [herkömmliches, nicht statistisches] Wort" mit einer speziellen statistischen Bedeutung ist, die sich von anderen Verwendungen dieses Wortes (Phrase, wirklich) unterscheidet. Das Gleiche gilt für "Normalisierung" und "Standardabweichung".
whuber

Vielleicht nicht "Normalisierung", aber "normal" ist ein guter Punkt, und so wäre "Standardisieren", das auch verwendet wird, um Tests zu beschreiben, die nationale Standards festlegen sollen (z. B. im Bildungsbereich, wie in den USA nach No Child Left) Hinter). Ich stimme zu, dass "Standardabweichung" wahrscheinlich keine Verwirrung stiftet, obwohl "Abweichung" an sich im allgemeinen Sprachgebrauch eher eine negative Konnotation trägt (insbesondere als Synonym für "Abweichung").
Nick Stauner

Hier ist eine andere Möglichkeit, SD und SEM zu unterscheiden. Die Standardabweichung quantifiziert die Variation oder Streuung. Ein Standardfehler quantifiziert die Genauigkeit eines berechneten Wertes.
Harvey Motulsky

@ HarveyMotulsky Ich denke, der beste Weg ist, sich einen Asteroiden vorzustellen (unregelmäßige Form). Was ist der Schwerpunkt des Asteroiden? Es ist der Punkt, der von allen anderen Punkten gleich weit entfernt ist. Das ist der Mittelwert. Was ist die Standardabweichung? Dies ist der "durchschnittliche" Abstand jedes Punktes vom Zentrum, ein Maß für die Größe. Was ist das REM? Hier erfahren Sie, wie sicher Sie sind, wo sich das Zentrum des Asteroiden befindet.
Flasche

Ich finde es etwas unglücklich zu sagen, dass Standardfehler die Standardabweichung sind, die mit der "Stichprobe" berechnet wurde. Das wäre für mich die Quadratwurzel der Stichprobenvarianz, während der Standardfehler die Standardabweichung einer Teststatistik ist. Auch aus den oben genannten Begriffen scheint nur "normal" wirklich üblich. Aber ich denke, das ist normal ...
Bedeutungslos

2

"Parametrisch" versus "Nicht-Parametrisch": Testkategorien, die entweder "Normal" - oder "Nicht-Normal" -Daten erfordern. Parametrische Tests werden nicht parametrischen vorgezogen.

Gemeinsame Tests: T-Test (gepaart), Mann-Whitney U, ANOVA, Anderson-Darling usw.

Andere Begriffe beinhalten "signifikant". Dies ist ein Maß dafür, ob die Daten darauf hindeuten, dass Ihre Hypothese gültig ist oder nicht. Wenn Sie Ihre Hypothese mit einer bestimmten Wahrscheinlichkeit testen (normalerweise 95%), würde ein "p-Wert" von weniger als 0,05 bedeuten, dass Sie Ihre "Nullhypothese" ablehnen würden (dh Datensätze sind nicht unterschiedlich) und Ihre " Alternativhypothese "(dh Datensätze sind unterschiedlich).


2

Verzerrte Statistiken implizieren eine asymmetrische Verteilung.

In der gewöhnlichen Sprache und sogar in der Wissenschaft wird häufig (und zunehmend auch?) "Schief" verwendet, um zu bezeichnen, was statistische Personen normalerweise als voreingenommen bezeichnen würden , wie in "Ergebnisse für mittlere Körpergröße werden durch die Einbeziehung so vieler Basketballspieler verzerrt".


2

Schätzung - In der Statistik ist es das Ergebnis einer Berechnung. Beispielsweise ist der Stichprobenmittelwert eine Schätzung des Populationsmittelwerts, und das Konfidenzintervall eines Mittelwerts ist eine Intervallschätzung des Populationsmittelwerts. Beides sind Ergebnisse exakter Berechnungen. Die "Schätzung" ist eine präzise Verallgemeinerung des Versuchs, aus Daten in einer Stichprobe auf eine Population zu schließen.

In der gewöhnlichen Verwendung bedeutet das Wort Schätzung eine informierte Vermutung oder Vermutung oder das Ergebnis einer ungefähren Berechnung.


2

Likelihood - im gewöhnlichen Sprachgebrauch ein Synonym für die Wahrscheinlichkeit , aber in eine bestimmte Statistik inverse Relation zu Wahrscheinlichkeit aufweist, daß für jeden Parametersatzθ und Datensatz X, L(θ|X)=Pr(X|θ).

Vertreter - hat eine Reihe von manchmal widersprüchlichen Bedeutungen im alltäglichen und wissenschaftlichen Sprachgebrauch. Siehe Kruskal & Mosteller 1979a , 1979b , 1979c und 1980 . Die meisten mir bekannten Statistiker würden eine repräsentative Stichprobe in Betracht ziehen, wenn sie mit bekannter Wahrscheinlichkeit beprobt würde. Die meisten Laien, die ich kenne, würden es für repräsentativ halten, wenn die Randverteilungen der Bevölkerung ähnlich wären.


2
  • Stichprobe : Während sich die Statistik auf eine Reihe von Fällen bezieht, ist eine Stichprobe in vielen anderen Disziplinen eine physikalische Probe . Selbstverständlich ist die Stichprobengröße auch nicht eindeutig und bezieht sich entweder auf die Anzahl der Fälle in der statistischen Stichprobe oder auf die physikalische Größe (Masse, Volumen, ...) der Probe.

  • Sensitivität : Für die medizinische Diagnostik der Anteil der erkrankten Fälle, der durch den Test erkannt wird. In der analytischen Chemie: die Steigung der Kalibrierkurve (siehe unten).

  • Spezifität : In der medizinischen Diagnostik wird der Anteil der nicht erkrankten Fälle durch den Test richtig erkannt. In der analytischen Chemie ist eine Methode spezifisch, wenn keine Querempfindlichkeiten vorliegen.

  • Kalibrierung : Tatsächlich sind im Wiki-Artikel bereits zwei Bedeutungen für die Statistik aufgeführt. In Chemie und Physik ist die umgekehrte Regressionsbedeutung die übliche. Verwirrung entsteht jedoch:

    • In der Chemometrie modelliert die (Vorwärts-) Kalibrierung das gemessene Signal ich abhängig von der Konzentration c: ich=f(c). Die Vorhersage löst sich dann auf, um sich zu konzentrierenc: c=f-1(ich). Inverse Kalibrierungsmodellec=f(ich). Somit stimmt das Vorwärtsmodell mit der Kausalität überein (Konzentration des Analyten verursacht Signal, nicht umgekehrt), aber das Inverse modelliert die Richtung, die für die Vorhersagen verwendet wird.
      (In der Praxis kann man oft sagen, dass der Fehler an istc oder der fehler an ich ist viel größer als die andere, und die entsprechende Modellierungsrichtung ist / sollte ausgewählt werden)
    • Ich habe Diagramme mit vorhergesagter Wahrscheinlichkeit über der tatsächlichen Wahrscheinlichkeit gesehen, die als "Kalibrierungsdiagramme" (Statistik People) bezeichnet werden. In der analytischen Chemie wird die entsprechende Kalibrierungskurve mit einer Wahrscheinlichkeit über dem gemessenen Signal (normalerweise eine andere Einheit) vorhergesagt. Die Darstellung der vorhergesagten über der wahren abhängigen Variablen würde normalerweise als Erholungskurve bezeichnet .
  • Validierungsset : Hier möchte ich auf eine potenziell verwirrende Verwendung von Begriffen hinweisen, die meiner Meinung nach bereits in den verschiedenen statistikbezogenen Bereichen vorkommt, auch wenn ich mich hier noch einmal gegenüberstelle. Im Kontext von verschachtelter / doppelter Validierung oder Optimierung vs. Validierung / Testen teilt eine Terminologiezeile Training - Validierung - Test und verwendet das "Validierungs" -Set zur Optimierung von Hyperparametern.
    ZB in den Elementen des statistischen Lernens, p. 222 in der 2nd ed. :

    ... unterteilen den Datensatz in drei Teile: einen Trainingssatz, einen Validierungssatz und einen Testsatz. Das Trainingsset wird für die Modelle verwendet. Der Validierungssatz wird verwendet, um den Vorhersagefehler für die Modellauswahl abzuschätzen. Der Testsatz wird zur Beurteilung des Generalisierungsfehlers des endgültig ausgewählten Modells verwendet.

    Im Gegensatz dazu ist z. B. in der analytischen Chemie die Validierung das Verfahren, das zeigt, dass das Modell (tatsächlich ist die Bewertung des endgültigen Modells nur ein Teil der Validierung einer analytischen Methode) für die Anwendung gut funktioniert und deren Leistung misst, siehe z. B. John K. Taylor: Validierung analytischer Methoden, Analytical Chemistry 1983 55 (6), 600A-608A oder Richtlinien von Institutionen wie der FDA. Dies wäre "Testen" in der anderen Terminologie, wo die "Validierung" tatsächlich zur Optimierung verwendet wird.
    Der entscheidende Unterschied besteht darin, dass die "Optimierungs-Validierungs" -Ergebnisse zum Ändern (Auswählen) des Modells verwendet werden sollen, wohingegen Änderungen in einer validierten Analysemethode (einschließlich des Datenanalysemodells) dies erfordern revalidate (dh beweisen, dass die Methode immer noch so funktioniert, wie sie funktionieren soll).


Wenn Sie mit Chemikern sprechen müssen, ist Danzer: Analytical Chemistry - Theoretical and Metrological Fundamentals, DOI 10.1007 / b103950 eine gute Referenz für die Terminologie der analytischen Chemie

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.