Ich würde den Mittelpunkt für keines dieser Intervalle verwenden (vielleicht als erste Vermutung für ein iteratives Verfahren).
Wenn die Daten tatsächlich aus einer Exponentialverteilung stammen, sollten die Werte in jedem Bin rechtwinklig sein. Es wird erwartet, dass der Mittelwert vom Durchschnitt der Behältergrenzen übrig bleibt.
Beachten Sie, dass die Gleichung geeignet ist, wenn Sie alle Daten haben. Bei gruppierten Daten müssen Sie die Wahrscheinlichkeit für ein gruppiertes (dh intervallzensiertes) Exponential maximieren.λ^=1X¯
[Der Beitrag zur log-Wahrscheinlichkeit der Beobachtungen in bin - jene zwischen und - ist (wobei die beiden Terme in Funktionen des Parameters sind (s) der Verteilung).]niiliuinilog(F(li)−F(ui))F
Wegen des Fehlens von Speichereigenschaft der exponentiellen, wenn Sie eine gute Näherung für den Mittelwert der exponentiellen haben haben Sie auch eine gute Annäherung des Betrages , um den der Mittelwert der Verteilung über eine bestimmten Wert übersteigt .x0x0
Wenn Sie also nicht direkt die Wahrscheinlichkeit * für die vom Intervall zensierten Daten maximieren, wie ich vorgeschlagen habe), können Sie mit einer ungefähren Schätzung des Mittelwerts ( sagen) beginnen und als "Zentrum" des oberen Schwanzes.m(0)120+m(0)
Dies könnte dann verwendet werden, um eine bessere Schätzung des Parameters (und damit des Mittelwerts) zu erhalten und so eine verbesserte Schätzung des bedingten Mittelwerts in jedem Behälter einschließlich des obersten zu erhalten. [Wenn Sie einen solchen Ansatz wollen, würde ich mich vielleicht dazu neigen, EM direkt zu machen.]
Mehrere einfache Schätzungen des Mittelwerts können schnell erhalten werden. Da beispielsweise 41% der Werte unter 20 liegen, ist , was einer Schätzung des mittleren entspricht bis . Alternativ kann man eine schnelle Augapfelschätzung des Medians erhalten (etwas weniger als 30, vielleicht ungefähr 28), so dass der Mittelwert irgendwo in der Nähe von oder ungefähr .exp(−20λ^(0))=1−0.413828/log(2)40
Beides wäre sinnvoll, um zunächst zu erraten, wie weit über 120 eine Schätzung für den bedingten Mittelwert für den letzten Behälter liegt.
* Eine Alternative zur Maximierung der Wahrscheinlichkeit wäre die Minimierung der Chi-Quadrat-Statistik. In diesem Fall würde dieselbe Anpassung an df verwendet. Die Chi-Quadrat-Statistik ist relativ einfach zu berechnen und für einen einzelnen Parameter recht einfach zu optimieren: