Die Verwendung von Medianpolitur für die Merkmalsauswahl


9

In einem Artikel, den ich kürzlich gelesen habe, bin ich in der Datenanalyse auf Folgendes gestoßen:

Die Datentabelle wurde dann in Gewebe und Zelllinien aufgeteilt, und die beiden Untertabellen wurden getrennt median poliert (die Zeilen und Spalten wurden iterativ angepasst, um den Median 0 zu haben), bevor sie wieder zu einer einzigen Tabelle zusammengefügt wurden. Wir haben dann schließlich für die Untergruppe von Genen ausgewählt, deren Expression in mindestens drei der getesteten Proben um mindestens das Vierfache vom Median in diesem Probensatz abweicht

Ich muss sagen, dass ich den Überlegungen hier nicht wirklich folge. Ich habe mich gefragt, ob Sie mir bei der Beantwortung der folgenden zwei Fragen helfen könnten:

  1. Warum ist es wünschenswert / hilfreich, den Median in den Datensätzen anzupassen? Warum sollte es für verschiedene Arten von Proben separat durchgeführt werden?

  2. Wie verändert dies nicht die experimentellen Daten? Ist dies eine bekannte Methode, um eine Reihe von Genen / Variablen aus einem großen Datensatz auszuwählen, oder ist es eher adhoc?

Vielen Dank,


Können Sie bitte näher erläutern, welche Art von Daten Sie / sie betrachten? Ich denke, nach dem, was Sie zitiert haben, scheint mir die Methode sehr ad hoc zu sein.
Suncoolsu

@suncoolsu: Es sind Microarray-Daten, wenn Sie mit dem Konzept vertraut sind. Wenn nicht, könnte ich es vielleicht so zusammenfassen; Welche Gene werden in welchem ​​Umfang in den untersuchten Proben exprimiert? Hier ist eine bessere Erklärung: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu Fast definitiv Daten zur Genexpressionsanalyse.
Kriegar

Ok - ich war mir nicht sicher, ob die Sequenzierung der nächsten Generation auch immer beliebter wird.
Suncoolsu

Antworten:


10

Tukey Median Polish, Algorithmus wird bei der RMA- Normalisierung von Microarrays verwendet. Wie Sie vielleicht wissen, sind Microarray-Daten ziemlich verrauscht, daher benötigen sie eine robustere Methode zur Schätzung der Sondenintensität unter Berücksichtigung der Beobachtungen für alle Sonden und Microarrays. Dies ist ein typisches Modell zur Normalisierung der Intensität von Sonden über Arrays hinweg.

i=1,,I.

Y.ichj=μich+αj+ϵichj
ich=1,,ichj=1,,J.

Wobei die l o g transformierte PM-Intensität für die i t h -Sonde auf dem j t h -Array ist. ϵ i jY.ichjlÖGichthjthϵichj sind Hintergrundgeräusche und es kann angenommen werden, dass sie dem Rauschen bei normaler linearer Regression entsprechen. Eine Verteilungsannahme für kann jedoch restriktiv sein, daher verwenden wir Tukey Median Polish, um die Schätzungen für ^ μ i und ^ α j zu erhalten . Dies ist eine robuste Methode zur Normalisierung über Arrays hinweg, da wir das Signal, die Intensität aufgrund der Sonde, vom Array-Effekt trennen möchten.ϵμich^αj^ . Wir können das Signal erhalten, indem wir für den Array-Effekt ^ α j für alle Arraysnormalisieren. Somit bleiben uns nur die Sondeneffekte plus zufälliges Rauschen.ααj^

Der Link, den ich zuvor zitiert habe, verwendet Tukey-Medianpolitur, um die differentiell exprimierten Gene oder "interessanten" Gene durch Rangfolge nach dem Sondeneffekt abzuschätzen. Das Papier ist jedoch ziemlich alt, und wahrscheinlich haben die Leute damals noch versucht, herauszufinden, wie man Microarray-Daten analysiert. Efrons nichtparametrisches empirisches Bayes'sches Methodenpapier erschien 2001, wurde aber wahrscheinlich nicht weit verbreitet.

Jetzt verstehen wir jedoch viel über Microarrays (statistisch) und sind uns ihrer statistischen Analyse ziemlich sicher.

Microarray-Daten sind ziemlich verrauscht und RMA (das Median Polish verwendet) ist eine der beliebtesten Normalisierungsmethoden, möglicherweise aufgrund seiner Einfachheit. Andere beliebte und ausgefeilte Methoden sind: GCRMA, VSN. Es ist wichtig zu normalisieren, da das Interesse der Sondeneffekt und nicht der Array-Effekt ist.

Wie zu erwarten, könnte die Analyse von einigen Methoden profitiert haben, die die Ausleihe von Informationen über Gene hinweg nutzen. Dies können Bayes'sche oder empirische Bayes'sche Methoden sein. Möglicherweise ist das Papier, das Sie lesen, alt und diese Techniken waren bis dahin nicht verfügbar.

In Bezug auf Ihren zweiten Punkt ändern sie wahrscheinlich die experimentellen Daten. Aber ich denke, diese Änderung ist für einen besseren Zweck und daher gerechtfertigt. Der Grund dafür ist

a) Microarray-Daten sind ziemlich verrauscht. Wenn das Interesse am Sondeneffekt liegt, ist eine Normalisierung der Daten durch RMA, GCRMA, VSN usw. erforderlich und es kann gut sein, eine spezielle Struktur in den Daten auszunutzen. Aber ich würde es vermeiden, den zweiten Teil zu machen. Dies liegt hauptsächlich daran, dass es besser ist, nicht viele Annahmen zu treffen, wenn wir die Struktur nicht im Voraus kennen.

b) Die meisten Microarray-Experimente sind explorativer Natur, dh die Forscher versuchen, einige weitere "interessante" Gene für weitere Analysen oder Experimente einzugrenzen. Wenn diese Gene ein starkes Signal haben, sollten Modifikationen wie Normalisierungen die Endergebnisse nicht (wesentlich) beeinflussen.

Daher können die Änderungen gerechtfertigt sein. Aber ich muss bemerken, dass eine Übertreibung der Normalisierungen zu falschen Ergebnissen führen kann.


+1 Dies ist eine viel bessere Antwort als mein Versuch. Vielen Dank.
Kriegar

@posdef. Ich frage mich, ob an der statistischen Analyse des Papiers ein Statistiker beteiligt war.
Suncoolsu

Vielen Dank für Ihre gründliche Antwort. Ich denke, die Tatsache, dass dies ein Vorverarbeitungsschritt ist, wird in dem Papier nicht gut erklärt (oder nur als bekannt angenommen). Apropos, das Papier wird im Jahr 2000 (in Nature) veröffentlicht, also nehme ich an, dass sie zumindest einen statistischen Blick auf ihre Methoden geworfen haben, wenn sie nicht schriftlich beteiligt sind. Aber natürlich kann ich nur spekulieren .. :)
posdef

@posdef. Ok - cool beantwortet viele Fragen. 2000 war die Zeit, in der die Menschen noch überlegten, wie sie Microarray-Daten analysieren sollten. FDR war damals nichts
Besonderes

4

Sie können einige Hinweise auf den Seiten 4 und 5 finden diese

yich,j=m+einich+bj+eich,j
meinichbjeich,j

meinichbj

Der Vorteil der Verwendung des Medians ist die Robustheit gegenüber einer kleinen Anzahl von Ausreißern. Der Nachteil ist, dass Sie potenziell nützliche Informationen wegwerfen, wenn keine Ausreißer vorhanden sind.


einichbjeich,j

nich,j=nichqj+eich,jlÖG(nich,j)=lÖG(n)+lÖG(pich)+lÖG(qj)+eich,j

@Henry Welche Informationen werden mit Medianpolitur "weggeworfen", wenn es keine "Ausreißer" gibt (und was genau meinen Sie mit "Ausreißer" überhaupt)? Schließlich können Sie die Daten mithilfe des großen Medians, der Zeilen- und Spaltenmediane und der Residuen, die alle die Ausgabe der Medianpolitur darstellen, exakt rekonstruieren . Wenn Sie meinen, dass die Residuen verworfen werden, inwiefern unterscheidet sich "Mittelwertpolitur" (entspricht OLS) in dieser Hinsicht?
whuber

@whuber: Die Residuen werden in beiden Fällen beibehalten. Die mittlere Politur berücksichtigt, wie weit die Beobachtungen vom Zentrum entfernt sind (in gewissem Sinne gleicht sie die Gewichte der Residuen aus), während die mittlere Politur nur untersucht, ob sie sich über oder unter dem Zentrum befinden (in gewissem Sinne gleicht sie das aus Anzahl der Residuen). Daher werden die Gewichtsinformationen nicht verwendet, wenn der Median als Mittelpunkt verwendet wird. Dies kann gut sein, wenn einige der wesentlichen Gewichte / Residuen so zweifelhaft sind, dass dem Ergebnis für das Zentrum nicht vertraut werden kann, wenn nicht, jedoch keine Informationen verwendet werden.
Henry

@ Henry Wenn Sie alle Originaldaten aus der Politur wiederherstellen können, wie werden dann "Informationen" nicht "verwendet"? Übrigens verhält sich Median Polish nicht so, wie Sie es zu beschreiben scheinen: Seine Residuen sind die Unterschiede in den Werten und nicht in den Rängen der Daten.
whuber

3

Sieht so aus, als würden Sie einen Artikel lesen, in dem eine Analyse der Genexpression durchgeführt wird. Nachdem ich einige Untersuchungen mit Microarray-Chips durchgeführt habe, kann ich mitteilen, wie wenig Wissen (hoffentlich richtig) ich über die Verwendung von Medianpolitur habe.

Die Verwendung von Medianpolitur während des Zusammenfassungsschritts der Microarray-Vorverarbeitung ist eine Standardmethode, um Daten von Ausreißern mit Chips mit perfekter Übereinstimmungssonde (zumindest für RMA) zu entfernen.

Bei der mittleren Politur für Microarray-Daten haben Sie den Chip-Effekt und den Probe-Effekt als Zeilen und Spalten:

für jeden Sondensatz (bestehend aus n Nummern derselben Sonde) auf x Chips:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

wobei iv Intensitätswerte sind

Aufgrund der Variabilität der Sondenintensitäten wird fast die gesamte Analyse von Microarray-Daten vor der Zusammenfassung unter Verwendung einer Art Hintergrundkorrektur und Normalisierung vorverarbeitet.

Hier sind einige Links zu den BioC-Mailinglisten-Threads, die über die Verwendung von Median Polish im Vergleich zu anderen Methoden sprechen:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Daten von Geweben und Zelllinien werden normalerweise getrennt analysiert, da sich ihre Expressionsprofile bei der Kultivierung von Zellen gegenüber gesammelten Gewebeproben dramatisch ändern. Ohne mehr Papier ist es schwierig zu sagen, ob eine getrennte Verarbeitung der Proben angemessen war oder nicht.

Normalisierungs-, Hintergrundkorrektur- und Zusammenfassungsschritte in der Analysepipeline sind alles Modifikationen von experimentellen Daten, aber im unverarbeiteten Zustand würden die Chip-Effekte, Batch-Effekte und Verarbeitungseffekte jedes Signal für die Analyse überschatten. Diese Microarray-Experimente erzeugen Listen von Genen, die Kandidaten für Folgeexperimente (qPCR usw.) sind, um die Ergebnisse zu bestätigen.

Wenn Sie ad hoc sind, fragen Sie 5 Personen, welcher Faltungsunterschied erforderlich ist, damit ein Gen als differentiell exprimiert betrachtet werden kann, und Sie erhalten mindestens 3 verschiedene Antworten.


Vielen Dank für die Aktualisierungen Ihrer Antwort. Ich glaube, ich fange jetzt an, eine Idee zu bekommen. Wenn ich das richtig verstehe, wird das Medianpolieren verwendet, um die technische Variabilität in Bezug auf die Sonde und den Chip zu bewerten. ... bevor das Experiment auf 1 Matrix summiert wird, die Expressionswerte für Gene unter verschiedenen Bedingungen enthält?
Posdef

@posdef nach meinem Verständnis ja. Für jeden Sondensatz auf einem Chip (Sonden derselben Sequenz) sind Sonden überall verteilt. plmimagegallery.bmbolstad.com für einige Pseudobilder von Chips. Zusätzlich zur Variabilität innerhalb eines einzelnen Chips gibt es eine Variabilität zwischen Chips. Aufgrund der technischen Variabilität werden Algorithmen für die Rohintensitätswerte ausgeführt, um einen einzelnen "Ausdruckswert" für das Sondenset zu erhalten. Die Matrix dieser Werte wird dann angepasst, um zu bestimmen, ob die Gene unter verschiedenen Bedingungen unterschiedlich exprimiert werden.
Kriegar
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.