Berechnung der Verteilung aus min, mean und max


10

Angenommen, ich habe das Minimum, den Mittelwert und das Maximum eines Datensatzes, z. B. 10, 20 und 25. Gibt es eine Möglichkeit:

  1. Erstellen Sie eine Verteilung aus diesen Daten und

  2. wissen, wie viel Prozent der Bevölkerung wahrscheinlich über oder unter dem Mittelwert liegen

Bearbeiten:

Angenommen, wir haben gemäß Glen's Vorschlag eine Stichprobengröße von 200.


(1) ist einfach, weil es viele Lösungen gibt. (2) wird am besten im Zusammenhang mit einigen Annahmen über die Verteilungsform durchgeführt, da Sie sonst nur mathematische Grenzen erhalten können.
whuber

3
Sie werden hier bisher buchstäblich in Kommentaren und Antworten aufgenommen, aber eine notwendige Vorsicht (stillschweigend, glaube ich, in @ whubers Bemerkungen) ist, dass es so viele Distributionen gibt, die mit solchen Informationen kompatibel sind, dass Sie nicht darauf schließen sollten, dass Sie über genügend Informationen verfügen um dies überhaupt gut oder zuverlässig zu tun. Insbesondere wenn Sie die Stichprobengröße nicht einmal kennen, können Sie nicht einmal viel über Unsicherheit nachdenken.
Nick Cox

Wenn Sie nach dem Anteil der Bevölkerung fragen, der "über oder unter dem Mittelwert liegt" ... fragen Sie nach dem Stichprobenmittelwert oder dem Bevölkerungsmittelwert dort? Sprechen wir über kontinuierliche oder diskrete Variablen? Kennen wir die Stichprobengröße?
Glen_b -Rate State Monica

Antworten:


10

Ich habe das Minimum, den Mittelwert und das Maximum eines Datensatzes, z. B. 10, 20 und 25. Gibt es eine Möglichkeit:

Erstellen Sie eine Verteilung aus diesen Daten und

Es gibt unendlich viele mögliche Verteilungen, die mit diesen Probenmengen übereinstimmen würden.

wissen, wie viel Prozent der Bevölkerung wahrscheinlich über oder unter dem Mittelwert liegen

In Ermangelung einiger wahrscheinlich ungerechtfertigter Annahmen, im Allgemeinen nicht - zumindest nicht mit viel Sinn, dass es sinnvoll sein wird. Die Ergebnisse hängen weitgehend von Ihren Annahmen ab (die Werte selbst enthalten nicht viele Informationen, obwohl einige bestimmte Vereinbarungen nützliche Informationen liefern - siehe unten).

Es ist nicht schwer, Situationen zu finden, in denen die Antworten auf die Proportionsfrage sehr unterschiedlich sein können. Wenn es sehr unterschiedliche mögliche Antworten gibt, die mit den Informationen übereinstimmen, wie würden Sie wissen, in welcher Situation Sie sich befinden?

Weitere Details mögen hilfreiche Hinweise geben, aber so wie es aussieht (ohne Stichprobengröße, obwohl es vermutlich mindestens 2 oder 3 ist, wenn der Mittelwert nicht auf halbem Weg zwischen den Endpunkten liegt *), werden Sie bei dieser Frage nicht unbedingt viel Wert erhalten . Sie können versuchen, Grenzen zu überschreiten, aber in vielen Fällen werden sie die Dinge nicht stark einschränken.

* Wenn der Mittelwert nahe an einem Endpunkt liegt, können Sie eine Untergrenze für die Stichprobengröße erhalten. Wenn Sie beispielsweise anstelle von 10,20,25 für Ihr Minimum / Mittelwert / Maximum 10 24 25 hatten, müsste mindestens 15 sein, und dies würde auch darauf hindeuten, dass der größte Teil der Bevölkerung über 24 Jahre alt ist. das ist etwas. Aber wenn es 10,18,25 wäre, wäre es viel schwieriger, eine nützliche Vorstellung von der Stichprobengröße zu bekommen, geschweige denn den Anteil unter dem Mittelwert.n


2
@DJohnson Ich denke nicht, dass es hyperbolisch ist - es ist buchstäblich wahr (obwohl unsere Fähigkeit, sie tatsächlich aufzulisten, nach ein paar Tausend fehlschlagen könnte und unsere Fähigkeit, sie weiter aufzulisten, nach ein paar Dutzend fehlschlagen könnte, heißt das nicht Es gibt keine anderen Annahmen, unter denen wir operieren könnten. In meiner Formulierung gab es keine Herablassungsabsicht - sie wurde absichtlich gewählt, um tatsächlich die wahre Breite möglicher Sätze von Annahmen anzugeben. Was soll ich schreiben?
Glen_b

3
1. Was ist ein Grund, die Möglichkeiten auf höchstens zwei Parameter zu beschränken? Was wäre, wenn die Daten beispielsweise aus einem Drei-Parameter-Lognormal stammen würden? In vielen Fällen können wir nicht alle Parameter aus den Daten abschätzen, aber das ist ein Teil des Problems, das ich dort zu motivieren versuche (es bezieht sich auf die Diskussion von Annahmen. 2. Johnson und Kotz sind eine Teilmenge der von den Menschen benannten Verteilungen / gearbeitet, nicht aus der Ferne eines gebunden, was Annahmen sind möglich ich zahlreiche Distributionen erfunden habe , die nicht in in Johnson und Kotz ist, und ... ctd.
Glen_b -Reinstate Monica

4
ctd ... Ich bin mir ziemlich sicher, dass hier nicht alle ausgeschlossen sind. Selbst ohne nicht spezifizierte Parameter gibt es unendlich viele mögliche cdfs, von denen eine nicht endliche Teilmenge durch die spezifizierten Informationen nicht ausgeschlossen werden würde.
Glen_b -State Monica

1
@ Djohnson Unabhängig vom Ausmaß der verbleibenden Meinungsverschiedenheiten freue ich mich über Ihre hilfreichen Kommentare. Ich werde überlegen, ob ich zumindest klarer angeben soll, was ich wirklich sage (meine tatsächliche Behauptung ist beweisfähig, wenn sie benötigt wird, aber vielleicht kann ich sie zumindest klar formulieren) und ob sie dort anders formuliert werden sollte.
Glen_b -Rate State Monica

4
@DJohnson Nehmen Sie zwei verschiedene Verteilungen, die die Bedingungen erfüllen: Jede Mischung der beiden erfüllt weiterhin die genannten Bedingungen. Das ist buchstäblich eine Unendlichkeit: eine nicht aufzählbare.
Elvis

8

Wie bereits von Glen_b erwähnt , gibt es unendlich viele Möglichkeiten. Schauen Sie sich die folgenden Diagramme an, sie zeigen acht verschiedene Verteilungen mit demselben Min, Max und Mittelwert.

Acht verschiedene Distributionen

Beachten Sie, dass sie sich stark voneinander unterscheiden. Das erste ist einheitlich, das vierte ist eine bimodale Mischung dreieckiger Verteilungen, das siebte hat die größte Wahrscheinlichkeit, dass sich die Masse um das Zentrum konzentriert, aber immer noch sind min und max mit sehr geringer Wahrscheinlichkeit möglich, acht ist diskret und hat nur zwei Werte bei min und bei max usw. .

Da sie alle Ihren Kriterien entsprechen, können Sie sie für die Simulation verwenden. Ihre subjektive Wahl hätte jedoch sehr tiefgreifende Auswirkungen auf das Ergebnis der Simulation. Was ich sagen möchte ist, dass wenn min, max und mean wirklich das einzige sind, was Sie über die Verteilung wissen, Sie nicht genügend Informationen haben, um die Simulation durchzuführen, wenn Sie möchten, dass sie wirklich die reale (unbekannte) Verteilung nachahmt.

So müssen Sie sich fragen , was tun Sie über die Verteilung wissen? Ist es diskret oder kontinuierlich? Symmetrisch oder schief? Unimodal oder bimodal? Es gibt viele Dinge zu beachten. Wenn es kontinuierlich, ungleichmäßig und unimodal ist und Sie nur die Min-, Max- und Mittelwerte kennen, ist eine dreieckige Verteilung eine mögliche Wahl - es ist höchst unwahrscheinlich, dass irgendetwas im wirklichen Leben eine solche Verteilung hat, aber zumindest verwenden Sie etwas Einfaches und nicht zu viele Annahmen über seine Form auferlegen.


Wenn ich also eine Dreiecksverteilung annehmen würde, könnte ich den Modus auch mit meinen aktuellen Informationen berechnen. Würde das helfen?
user132053

1
@ user132053 du brauchst nur min, max und mean. Die Formel für den Mittelwert der Dreiecksverteilung lautet (a + b + c) / 3. Sie können sie mit einfacher Arithmetik für den Modus lösen.
Tim

4

Eine bereichsbasierte Regel zur Berechnung der Standardabweichung wird in der statistischen Literatur häufig zitiert (hier eine Referenz ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Grundsätzlich ist es (max-min) / 4. Es ist bekannt, dass es sich um eine sehr grobe Schätzung handelt.

Angesichts dieser Informationen und der Bereitschaft, normalverteilte Daten anzunehmen , können normale Abweichungen aus zwei Zahlen generiert werden, dem Mittelwert und der bereichsbasierten Standardabweichung. Das heißt, aus diesen beiden Informationen könnte eine Verteilung mit einem oder zwei Parametern erzeugt werden, solange diese Verteilung im ersten oder zweiten Moment verwurzelt war.

Ein grober Variationskoeffizient könnte auch erzeugt werden, indem das Verhältnis von SD / Mittelwert genommen wird. Dies würde einen Proxy für die einheitlose Variabilität in den Daten liefern.

Der Fehler bezieht sich besser auf die Stichprobenverteilung der Population und erfordert eine Angabe der Stichprobengröße n zur Schätzung. Ihre Beschreibung enthält dieses Detail nicht.


3
Einige erwähnenswerte Dinge: (1) Der Mittelwert gibt möglicherweise mehr Informationen, die die (max-min) / 4-Regel überschreiben sollten. (2) Da drei Informationen angegeben werden, lässt die Verwendung nur einer Familie mit zwei Parametern den Grad der Flexibilität im Allgemeinen zu.
whuber

@whuber Du hast zwei anspielende Kommentare zu diesem Thread abgegeben. Was großartig wäre, wäre, wenn Sie sie näher erläutern und eine Antwort angeben würden.
Mike Hunter
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.