Tukey Median Polish, Algorithmus wird bei der RMA- Normalisierung von Microarrays verwendet. Wie Sie vielleicht wissen, sind Microarray-Daten ziemlich verrauscht, daher benötigen sie eine robustere Methode zur Schätzung der Sondenintensität unter Berücksichtigung der Beobachtungen für alle Sonden und Microarrays. Dies ist ein typisches Modell zur Normalisierung der Intensität von Sonden über Arrays hinweg.
i=1,…,I.
Y.i j= μich+ αj+ ϵi j
i = 1 , … , I.j = 1 , … , J.
Wobei die l o g transformierte PM-Intensität für die i t h -Sonde auf dem j t h -Array ist. ϵ i jY.i jl o gicht hjt hϵi j sind Hintergrundgeräusche und es kann angenommen werden, dass sie dem Rauschen bei normaler linearer Regression entsprechen. Eine Verteilungsannahme für kann jedoch restriktiv sein, daher verwenden wir Tukey Median Polish, um die Schätzungen für ^ μ i und ^ α j zu erhalten . Dies ist eine robuste Methode zur Normalisierung über Arrays hinweg, da wir das Signal, die Intensität aufgrund der Sonde, vom Array-Effekt trennen möchten.ϵμich^αj^ . Wir können das Signal erhalten, indem wir für den Array-Effekt ^ α j für alle Arraysnormalisieren. Somit bleiben uns nur die Sondeneffekte plus zufälliges Rauschen.ααj^
Der Link, den ich zuvor zitiert habe, verwendet Tukey-Medianpolitur, um die differentiell exprimierten Gene oder "interessanten" Gene durch Rangfolge nach dem Sondeneffekt abzuschätzen. Das Papier ist jedoch ziemlich alt, und wahrscheinlich haben die Leute damals noch versucht, herauszufinden, wie man Microarray-Daten analysiert. Efrons nichtparametrisches empirisches Bayes'sches Methodenpapier erschien 2001, wurde aber wahrscheinlich nicht weit verbreitet.
Jetzt verstehen wir jedoch viel über Microarrays (statistisch) und sind uns ihrer statistischen Analyse ziemlich sicher.
Microarray-Daten sind ziemlich verrauscht und RMA (das Median Polish verwendet) ist eine der beliebtesten Normalisierungsmethoden, möglicherweise aufgrund seiner Einfachheit. Andere beliebte und ausgefeilte Methoden sind: GCRMA, VSN. Es ist wichtig zu normalisieren, da das Interesse der Sondeneffekt und nicht der Array-Effekt ist.
Wie zu erwarten, könnte die Analyse von einigen Methoden profitiert haben, die die Ausleihe von Informationen über Gene hinweg nutzen. Dies können Bayes'sche oder empirische Bayes'sche Methoden sein. Möglicherweise ist das Papier, das Sie lesen, alt und diese Techniken waren bis dahin nicht verfügbar.
In Bezug auf Ihren zweiten Punkt ändern sie wahrscheinlich die experimentellen Daten. Aber ich denke, diese Änderung ist für einen besseren Zweck und daher gerechtfertigt. Der Grund dafür ist
a) Microarray-Daten sind ziemlich verrauscht. Wenn das Interesse am Sondeneffekt liegt, ist eine Normalisierung der Daten durch RMA, GCRMA, VSN usw. erforderlich und es kann gut sein, eine spezielle Struktur in den Daten auszunutzen. Aber ich würde es vermeiden, den zweiten Teil zu machen. Dies liegt hauptsächlich daran, dass es besser ist, nicht viele Annahmen zu treffen, wenn wir die Struktur nicht im Voraus kennen.
b) Die meisten Microarray-Experimente sind explorativer Natur, dh die Forscher versuchen, einige weitere "interessante" Gene für weitere Analysen oder Experimente einzugrenzen. Wenn diese Gene ein starkes Signal haben, sollten Modifikationen wie Normalisierungen die Endergebnisse nicht (wesentlich) beeinflussen.
Daher können die Änderungen gerechtfertigt sein. Aber ich muss bemerken, dass eine Übertreibung der Normalisierungen zu falschen Ergebnissen führen kann.