Quartile in Excel


10

Ich interessiere mich für die Definition von Quartil, die normalerweise verwendet wird, wenn Sie in grundlegenden Statistiken sind. Ich habe ein Buch vom Typ Stat 101 und es gibt nur eine intuitive Definition. "Ungefähr ein Viertel der Daten fällt auf oder unter das erste Quartil ..." Es gibt jedoch ein Beispiel, in dem Q1, Q2 und Q3 für den Datensatz berechnet werden

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

Da es 15 Daten gibt, wird 15 als Median Q2 ausgewählt. Anschließend werden die verbleibenden Daten in zwei Hälften, 5 bis 14 und 16 bis 37, aufgeteilt. Diese enthalten jeweils 7 Daten und finden den Median jeder dieser Sätze 10 und 18 als Q1 bzw. Q3. So würde ich es selbst berechnen.

Ich habe mir den Artikel von Wikipedia angesehen und er enthält zwei Methoden. Man stimmt dem oben Gesagten zu und man sagt, man könnte auch den Median 15 in beide Sätze aufnehmen (aber man würde den Median nicht einschließen, wenn es der Durchschnitt der beiden mittleren Zahlen bei einer geraden Anzahl von Datenpunkten wäre). Das alles macht für mich Sinn.

Aber dann habe ich Excel überprüft, um zu sehen, wie Excel es berechnet. Ich verwende Excel 2010, das 3 verschiedene Funktionen hat. Quartile war 2007 und in früheren Versionen verfügbar. Es scheint, dass sie möchten, dass Sie dies 2010 nicht mehr verwenden, aber es ist immer noch verfügbar. Quartile.Inc ist neu, stimmt aber genau mit Quartile überein, soweit ich das beurteilen kann. Und es gibt auch Quartile.Exc. Die beiden letzten beiden sind 2010 neu, glaube ich. Dieses Mal habe ich nur versucht, die Ganzzahlen 1, 2, 3, ..., 10 zu verwenden. Ich erwarte, dass Excel einen Median von 5,5, Q1 von 3 und Q3 von 8 ergibt. Auch die Methode aus dem Statistikbuch da beide Methoden auf Wikipedia diese Antworten geben würden, da der Median der Durchschnitt der beiden mittleren Zahlen ist. Excel gibt

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

Keiner von beiden stimmt mit dem überein, worüber ich zuvor gesprochen habe.

Die Beschreibungen in der Hilfedatei für Excel sind:

Quartile.Inc - Gibt das Quartil eines Datensatzes zurück, basierend auf Perzentilwerten von 0..1 einschließlich.

Quartile.Exc - Gibt das Quartil des Datensatzes zurück, basierend auf Perzentilwerten von 0..1, exklusiv.

Kann mir jemand helfen, diese Definition zu verstehen, die Excel verwendet?


5
Ein weiteres gutes Beispiel dafür, warum Sie Excel nicht für statistische Zwecke verwenden sollten. :-)
Wayne

1
Freunde lassen Freunde Excel nicht für Statistiken verwenden. Traurig aber wahr
Chris Beeley

Antworten:


11

r1nnp

p=100rαn+12α

α01rp

r=(n+12α)(p/100)+α.

α=1PERCENTILEQUARTILEQUARTILE.INCQUARTILE.EXC

(1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19(0.25)+1=3.259(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

α

Übrigens werden Bruchteile durch lineare Interpolation in Datenwerte umgewandelt. Der Prozess wird in meinen Kursnotizen unter Perzentile und EDF- Diagramme erläutert und veranschaulicht - siehe unten auf dieser Seite. Es gibt auch einen Link zu einer Excel-Tabelle, die die Berechnungen veranschaulicht.

Wenn Sie eine allgemeine Perzentilfunktion in Excel implementieren möchten , finden Sie hierzu ein VBA-Makro:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

Es konvertiert einen nominalen Prozentsatz (z. B. 25/100) in den Prozentsatz, der dazu führen würde, dass die Excel- PERCENTILEFunktion den gewünschten Wert zurückgibt. Es ist zur Verwendung in Zellformeln wie in vorgesehen =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).


Beachten Sie, dass Sie Excel, sobald Sie genau verstanden haben, was es tut, effektiv für statistische Arbeiten verwenden können.
whuber

5
Wenn ich Ihrem Kommentar auf humorvolle Weise nicht zustimmen kann: Excel kann effektiv für statistische Arbeiten verwendet werden. Wenn Sie ein statistischer Assistent sind, der anhand erster Prinzipien beweisen kann, was zu tun ist, müssen Sie die Methoden von Excel rückentwickeln, um festzustellen, was es tatsächlich tut. Wenn Sie so gut sind, reicht fast jedes Werkzeug. Obwohl ich auch darauf hinweisen möchte, dass in diesem Thread 100% der an dieser Diskussion beteiligten Assistenten keinen Zugriff auf die neueste Version von Excel haben und diese daher wahrscheinlich nicht verwenden.
Wayne

Touche ', @Wayne. (Aber einige von uns verwenden immer noch ältere Versionen von Excel :-).)
whuber

1
Whuber, danke, dass du die VBA-Lösung geteilt hast. Dies wird sehr hilfreich sein. Als jemand, der Statistiken erstellen muss, aber mit Excel als einzigem verfügbaren Tool feststeckt (ja, ich habe R ausprobiert, kann mich aber nicht ganz damit auseinandersetzen), schätze ich Tools, mit denen ich Excel an meine Bedürfnisse anpassen kann.
Dav

4

Es scheint mir, dass Excel quartile.incmit dem Original quartileübereinstimmt, was mit Rs Standard und anderen Definitionen übereinstimmt.

Mit einem hilfreichen Hinweis von whuber fand ich heraus, dass Excel quartile.exc(im Fall 1..10) mit Rs Quantildefinition übereinzustimmen scheint type=6:

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

Was anscheinend die Antwort auf Ihre Frage ergibt: "Ja, Minitab und SPSS tun dies."


Hat R nicht neun Definitionen von Quantilen? (+1 für die Bearbeitung, übrigens)
whuber

@whuber: Achte nicht auf den Mann hinter dem Vorhang! (Ich werde meine Antwort bearbeiten. Bei weiterer Prüfung stimmt sie mit einer der anderen Definitionen von R überein, was offensichtlich von Minitab und SPSS verwendet wird. Danke!)
Wayne

2

Ich denke, der exzellente Geschmack von Quartil ignoriert nur die 5 und 37 (min und max in Ihren Originaldaten).

In Stata geben sowohl die Standardversion als auch die alternative Version mit diesen Daten quartile.exc-Werte an.


Diese Vermutung scheint nicht mit der Dokumentation übereinzustimmen, die besagt, dass max und min tatsächlich von zurückgegeben werden können QUARTILE.EXC.
whuber

In meiner Version von Excel 2010 gibt QUARTILE.EXC (Zellbereich, k) #NUM zurück! es sei denn, k = {1,2,3}, was dem 25., 50. und 75. Perzentil gemäß dem angezeigten Popup-Menü entspricht. Das ursprüngliche QUARTIL akzeptiert auch 0 und 4 als zweites Argument, die dem min und dem max entsprechen.
Dimitriy V. Masterov

1
In der Dokumentation heißt es: "Wenn Quart ≤ 0 oder Quart ≥ 4 ist, gibt QUARTILE.EXC den Fehlerwert #NUM! Zurück." Das scheint wahr zu sein. Die zweite Anweisung "MIN, MEDIAN und MAX geben den gleichen Wert wie QUARTILE.EXC zurück, wenn Quart gleich 0 (Null), 2 bzw. 4 ist" erscheint falsch, es sei denn, mir fehlt etwas. Was für ein Chaos!
Dimitriy V. Masterov

nn11#NUM!PERCENTILE

1
Die 3 Geschmacksrichtungen des Perzentils verhalten sich für mich genauso wie das Quartil. Für die 5-37 Daten gibt PERCENTILE.EXC (Bereich, k) #NUM! für k = {0,1}. Für k = 0,25 ergibt PERCENTILE.EXC 10. Wenn ich 5 und 37 wegwerfe, ergibt sich 10,5, was mit den anderen beiden Möglichkeiten übereinstimmt.
Dimitriy V. Masterov

2

Viele interessante Details, aber um auf die ursprüngliche Frage zurückzukommen, sehe ich nicht, dass zwei leicht unterschiedliche Wege, die möglicherweise nicht genau die gleiche Antwort geben, wirklich wichtig sind. Der erste Quatile ist der Punkt, an dem 25% der Beobachtungen darauf oder darunter fallen. Abhängig von Ihrer Stichprobengröße kann dies ein exakter Punkt in den Daten sein oder auch nicht. Wenn also ein Punkt unten und der nächste oben liegt, ist dieses erste Quartil nicht wirklich genau definiert, und jeder Punkt zwischen diesen beiden kann gleich gut dienen. Gleiches gilt für den Median bei gerader Stichprobengröße. Die Regel wählt den Mittelpunkt zwischen den Datenpunkten unten und oben. Aber nichts sagt wirklich, dass die durch die Regel gegebene Wahl wirklich besser ist als jeder andere Punkt.


α1/31/2

0

Für diejenigen unter Ihnen, die Excel verwenden, gibt es hier eine gute Aufschlüsselung der verschiedenen Versionsmethoden. Http://peltiertech.com/WordPress/comparison/


2
Es wäre besser, wenn Sie sie in Ihrer Antwort zusammenfassen könnten. Während der Link möglicherweise die Frage beantwortet, sind sie manchmal veraltet. In diesem Fall ist Ihre Antwort für zukünftige Leser nicht hilfreich.
Andy

0

In Excel 2016 habe ich festgestellt, dass man die richtigen Werte für Quartile erhalten kann, wenn:

  • Der Datensatz enthält eine ungerade Anzahl von Einträgen: Verwenden Sie QUARTILE.EXC
  • Der Datensatz hat eine gerade Anzahl von Einträgen: Verwenden Sie den Durchschnitt von QUARTILE.EXC und QUARTILE.INC

1
Können Sie erklären, was Sie unter den richtigen Werten verstehen, wenn man bedenkt, wie viele Definitionen von Quantilen in einigen anderen Antworten enthalten sind?
Mdewey
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.