Betrachten Sie das folgende zellbiologische Experiment. Wir vergleichen verschiedene Behandlungen von kultivierten Zellen. Jede Behandlung t wird in mehreren (Mikrotiter-) Vertiefungen wiederholt , die durch die Variable w ∈ { 1 , 2 , ⋯ , W } indiziert sind . Um das Ansprechen auf die Behandlung in Vertiefung w zu messen , werden insgesamt F w nicht überlappende mikroskopische Aufnahmen oder Felder aufgezeichnet. Dann wird für jedes Feld f in Vertiefung w insgesamt C w fZellen werden rechnerisch identifiziert, wobei jede Zelle (in Vertiefung w , Feld f ) durch einen Satz von P w f c Pixeln dargestellt wird. Schließlich ist jedem Pixel p eine Messung x w f c p zugeordnet (abgeleitet aus den Intensitäten verschiedener an diesem Pixel aufgezeichneter Fluoreszenzsignale).
Das Problem besteht darin, alle Pixelmessungen zu aggregieren , um ein "vernünftiges Maß" X t der Wirkung der Behandlung t auf die damit behandelten Zellen sowie ein gewisses Maß der "Ausbreitung" von X t zu erzeugen .
Der Standardansatz für solche Probleme besteht darin, den Mittelwert als "Maß" und die Varianz (oder Standardabweichung) als "Spread" zu verwenden. In diesem Fall gibt es jedoch mehrere, nicht äquivalente Möglichkeiten, wie Mittelwerte und Varianzen berechnet werden können.
Wenn man sich vorerst auf die Mittel konzentriert, könnte man in einem Extremfall einfach das über alle Pixel addieren (ohne Berücksichtigung ihrer Verteilung über Zellen, Felder und Vertiefungen) und diese Summe durch die Gesamtzahl der Pixel P dividieren (zur Behandlung t ):
Im entgegengesetzten Extrem könnten wir auf jeder Ebene einen Durchschnitt bilden: Berechnen Sie zuerst den Durchschnitt von x w f c p für jede Zelle, dann den Durchschnitt x w f von x w f c für jedes Feld und so weiter:
Im Allgemeinen sind diese beiden Ausdrücke nicht gleich. Dazwischen gibt es verschiedene Variationen. Nach meiner Zählung gibt es 8 Möglichkeiten, dies zu tun (einschließlich der beiden oben genannten); Ich habe alle in ihrer vollen Pracht am Ende dieses Beitrags aufgelistet. Zum Beispiel könnte man dies berechnen (Nummer 6 in der Liste unten):
... wobei ist die Gesamtzahl der Zellen (summiert über alle Felder von) gut w . (Das durch diesen Ausdruck codierte Rezept besagt: "Berechnen Sie den Durchschnittswert von x w f c p für jede Zelle, nämlich x w f c = [ ∑ p x w f c p ] / P w f c p ; dann für jede gut w , berechne den Durchschnitt dieser x w f c Mittelwerte über alle C w Zellen in gut w- ohne Berücksichtigung ihrer Verteilung über Felder - nämlich ; und schließlich mittle das x w über alle W- Vertiefungen, [ ∑ w x w ] / W. ")
Angesichts all dieser verschiedenen Möglichkeiten, "Durchschnittswerte" zu verwenden, um die Wirkung der Behandlung t zu messen stellt sich natürlich die unmittelbare Frage, welche zu wählen ist. Eine schärfere Version der Frage wäre: Wie kann ich feststellen, unter welchen Szenarien eine bestimmte Variante angemessen / informativ / nützlich wäre?
Und allgemeiner: Gibt es Fallstricke bei der Berechnung von Durchschnittswerten (von Durchschnittswerten ...)?
Vielen Dank!
(Korrekturen willkommen)