Ihre verknüpfte Frage bezieht sich auf die Verwendung von Gewichten als Verknüpfung für den Umgang mit gleich gewichteter Varianz pro Datenpunkt, bei der einige Datenpunkte mehr als einmal vorkommen.
@whuber hat in einem Kommentar die Situation angesprochen, in der die Varianzen aller Datenpunkte gleich sind. Ich werde also auf die Situation eingehen, in der sie nicht gleich sind. In dieser Situation erzeugt der optimal gewichtete Mittelwert eine geringere Varianz als der ungewichtete, dh gleich gewichtete Mittelwert.
Der gewichtete Mittelwert unter Verwendung der Gewichte ist gleich und hat Varianz = . Wir wollen also minimieren , vorbehaltlich und für alle i.wiΣni=1wixiΣni=1w2iVar(xi)Σni=1w2iVar(xi)Σni=1wi=1wi≥0
Die Karush-Kuhn-Tucker-Bedingungen, die für ein globales Minimum für dieses Problem notwendig und ausreichend sind, da es sich um ein konvexes quadratisches Programmierproblem handelt, führen zu einer Lösung in geschlossener Form, nämlich:
Das optimale für 1 = 1 .. n.wi=[1/Var(xi)]/Σnj=1[1/Var(xj)]
Die Varianz des entsprechenden optimal gewichteten Mittelwerts = .1/Σni=1[1/Var(xi)]
Im Gegensatz dazu bedeutet gleiche Gewichtung für alle i, wobei n die Anzahl der Datenpunkte ist. Wie von whuber hervorgehoben, sind gleiche Gewichte optimal, wenn alle Datenpunktvarianzen gleich sind, was aus der obigen Formel für ein optimales . Wie aus dieser Formel hervorgeht, sind gleiche Gewichte nicht optimal, wenn die Datenpunktvarianzen nicht alle gleich sind, und führen tatsächlich zu einer größeren Varianz (des gewichteten Mittelwerts) als die optimalen Gewichte. Die Varianz des gleichgewichteten Mittelwerts, dh die Varianz des gewichteten Mittelwerts unter Verwendung gleicher Gewichte = .wi=1nwi1n2Σni=1Var(xi)
Hier sind einige numerische Beispielergebnisse:
- Es gibt zwei Datenpunkte mit Varianzen von 1 bzw. 4. Der ungewichtete Mittelwert hat eine Varianz von 1,25. Der gewichtete Mittelwert unter Verwendung der optimalen Gewichte von 0,8 bzw. 0,2 hat eine Varianz = 0,8, was natürlich weniger als 1,25 ist.
- Es gibt drei Datenpunkte mit Varianzen von 1, 4 und 9. Der ungewichtete Mittelwert hat eine Varianz von 1,5556. Der gewichtete Mittelwert unter Verwendung der optimalen Gewichte von 0,7347, 0,1837 bzw. 0,0816 hat eine Varianz = 0,7347, was natürlich weniger als 1,5556 beträgt.
Natürlich ist es möglich, dass das gewichtete Mittel eine größere Varianz aufweist als das ungewichtete Mittel, wenn die Gewichte schlecht gewählt werden. Durch Auswahl der Gewichtung 1 für den Datenpunkt mit der größten Varianz und 0 für alle anderen Datenpunkte hätte der gewichtete Mittelwert die Varianz = die größte Varianz eines Datenpunkts. Dieses extreme Beispiel wäre das Ergebnis einer Maximierung statt einer Minimierung des von mir dargelegten Optimierungsproblems.