Durchschnittswerte von Durchschnittswerten (von Durchschnittswerten, von Durchschnittswerten…)


8

Betrachten Sie das folgende zellbiologische Experiment. Wir vergleichen verschiedene Behandlungen von kultivierten Zellen. Jede Behandlung t wird in mehreren (Mikrotiter-) Vertiefungen wiederholt , die durch die Variable w { 1 , 2 , , W } indiziert sind . Um das Ansprechen auf die Behandlung in Vertiefung w zu messen , werden insgesamt F w nicht überlappende mikroskopische Aufnahmen oder Felder aufgezeichnet. Dann wird für jedes Feld f in Vertiefung w insgesamt C w fT.tw{1,2,,W.}}wF.wfwC.wfZellen werden rechnerisch identifiziert, wobei jede Zelle (in Vertiefung w , Feld f ) durch einen Satz von P w f c Pixeln dargestellt wird. Schließlich ist jedem Pixel p eine Messung x w f c p zugeordnet (abgeleitet aus den Intensitäten verschiedener an diesem Pixel aufgezeichneter Fluoreszenzsignale).cwfP.wfcpxwfcp

Das Problem besteht darin, alle Pixelmessungen zu aggregieren , um ein "vernünftiges Maß" X t der Wirkung der Behandlung t auf die damit behandelten Zellen sowie ein gewisses Maß der "Ausbreitung" von X t zu erzeugen .xwfcpX.ttX.t

Der Standardansatz für solche Probleme besteht darin, den Mittelwert als "Maß" und die Varianz (oder Standardabweichung) als "Spread" zu verwenden. In diesem Fall gibt es jedoch mehrere, nicht äquivalente Möglichkeiten, wie Mittelwerte und Varianzen berechnet werden können.

Wenn man sich vorerst auf die Mittel konzentriert, könnte man in einem Extremfall einfach das über alle Pixel addieren (ohne Berücksichtigung ihrer Verteilung über Zellen, Felder und Vertiefungen) und diese Summe durch die Gesamtzahl der Pixel P dividieren (zur Behandlung t ):xwfcpP.t

1P.w=1W.f=1F.wc=1C.wfp=1P.wfcxwfcp

Im entgegengesetzten Extrem könnten wir auf jeder Ebene einen Durchschnitt bilden: Berechnen Sie zuerst den Durchschnitt von x w f c p für jede Zelle, dann den Durchschnitt x w f von x w f c für jedes Feld und so weiter:xwfcxwfcpxwfxwfc

1W.w=1W.[1F.wf=1F.w[1C.wfc=1C.wf[1P.wfcp=1P.wfcxwfcp]]]]]]

Im Allgemeinen sind diese beiden Ausdrücke nicht gleich. Dazwischen gibt es verschiedene Variationen. Nach meiner Zählung gibt es 8 Möglichkeiten, dies zu tun (einschließlich der beiden oben genannten); Ich habe alle in ihrer vollen Pracht am Ende dieses Beitrags aufgelistet. Zum Beispiel könnte man dies berechnen (Nummer 6 in der Liste unten):

1W.w=1W.[1C.wf=1F.wc=1C.wf[1P.wfcp=1P.wfcxwfcp]]]]

... wobei ist die Gesamtzahl der Zellen (summiert über alle Felder von) gut w . (Das durch diesen Ausdruck codierte Rezept besagt: "Berechnen Sie den Durchschnittswert von x w f c p für jede Zelle, nämlich x w f c = [ p x w f c p ] / P w f c p ; dann für jede gut w , berechne den Durchschnitt dieser x w f c Mittelwerte über alle C w Zellen in gut wC.w=fc1wxwfcpxwfc=[pxwfcp]]/.P.wfcpwxwfcCww- ohne Berücksichtigung ihrer Verteilung über Felder - nämlich ; und schließlich mittle das x w über alle W- Vertiefungen, [ w x w ] / W.xw=[fcxwfc]/CwxwW[wxw]/W ")

Angesichts all dieser verschiedenen Möglichkeiten, "Durchschnittswerte" zu verwenden, um die Wirkung der Behandlung t zu messent stellt sich natürlich die unmittelbare Frage, welche zu wählen ist. Eine schärfere Version der Frage wäre: Wie kann ich feststellen, unter welchen Szenarien eine bestimmte Variante angemessen / informativ / nützlich wäre?

Und allgemeiner: Gibt es Fallstricke bei der Berechnung von Durchschnittswerten (von Durchschnittswerten ...)?

Vielen Dank!


(Korrekturen willkommen)
1.1Pw=1Wf=1Fwc=1Cwfp=1Pwfcxwfcp2.1Ww=1W[1Pwf=1Fwc=1Cwfp=1Pwfcxwfcp]wherePw=f=1Fwc=1Cwfp=1Pwfc13.1Fw=1Wf=1Fw[1Pwfc=1Cwfp=1Pwfcxwfcp]whereF=w=1Wf=1Fw1,Pwf=c=1Cwfp=1Pwfc14.1Cw=1Wf=1Fwc=1Cwf[1Pwfcp=1Pwfcxwfcp]whereC=w=1Wf=1Fwc=1Cwf15.1Ww=1W[1Fwf=1Fw[1Pwfc=1Cwfp=1Pwfcxwfcp]]6.1Ww=1W[1Cwf=1Fwc=1Cwf[1Pwfcp=1Pwfcxwfcp]]whereCw=f=1Fwc=1Cwf17.1Fw=1Wf=1Fw[1Cwfc=1Cwf[1Pwfcp=1Pwfcxwfcp]]8.1Ww=1W[1Fwf=1Fw[1Cwfc=1Cwf[1Pwfcp=1Pwfcxwfcp]]]


1
You could do a nested anova to identify whether any of the treatment effects are significant. A good reference is Biometry by Sokal and Rholf.
aaronjg

All of the equations at the bottom of the question are equal, because the arithmetic mean is a linear function. The fraction is scalar, so can be moved outside the sum in each case. The order of the sums is not important. All are equivalent to
1WFCPw,f,c,pW,F,C,Pxwfcp
.
naught101

@ naught101: Ich bin völlig anderer Meinung. Zunächst stimmt der Ausdruck in Ihrem Kommentar nicht einmal mit der Notation überein, die ich in meiner Frage verwendet habe.
Kjo

Haben Sie versucht, sie zu berechnen? Beachten Sie, dass ich einen Punkt übersehen habe: Sie erwähnen die Varianz, und in diesem Fall (Mittelwert der Varianz vs. Varianz der Mittelwerte) ist dies sicherlich anders, da die Varianz kein linearer Operator ist (sie enthält eine Summe von Quadraten).
naught101

Antworten:


5

Dies ist keine direkte Antwort auf Ihre Frage ("Welche Art der Mittelwertbildung soll gewählt werden"), sondern eine Empfehlung, um die Berechnung von Durchschnittswerten überhaupt zu vermeiden:

Ihr Szenario scheint ein Fall für hierarchische / mehrstufige Modelle zu sein (MLM) zu sein, da die Daten perfekt verschachtelt sind. Sie haben drei Ebenen zufälliger Effekte: Pixel (Ebene 1), verschachtelt in Zellen (L2), verschachtelt in Feldern (L3), verschachtelt in Vertiefungen (L4). Behandlungen sollten als feste Effekte behandelt werden.

Sie interessieren sich nur für die Wirkung der Behandlung; Die MLM-Methode berücksichtigt die unterschiedlichen Varianzen der einzelnen Ebenen und gibt Ihnen auch eine Schätzung, wie viel Varianz durch welche Ebene erklärt wird. Sie verlieren also keine Varianz, indem Sie einen gemittelten Wert als "Messung" behandeln, sondern schätzen das Modell auf der Ebene der Rohdaten.

Diese Methode erfordert jedoch eine ausreichende Anzahl von Gruppen für jeden zufälligen Effekt (dh genügend Pixel, genügend Zellen, genügend Felder, genügend Vertiefungen). Da Sie nicht an Interaktionen zwischen Ebenen interessiert sind, sagen allgemeine Empfehlungen mindestens 10 bis 30 Einheiten aus (natürlich abhängig vom spezifischen Szenario usw.; Siehe z . B. hier ).


Der erste Link, den Sie angegeben haben (hierarchische / mehrstufige Modelle), scheint jetzt defekt zu sein.
Steko
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.