Wenn mein Ziel darin besteht, die absolute Änderung der Verhältnisse zu testen, kann ich die Verhältnisse direkt ohne Protokolltransformation vergleichen?


7

Verhältnisse (z. B. = / ) werden häufig verwendet (z. B. Faltungsänderungen der mRNA- oder Proteinexpression, des Body-Mass-Index [BMI] usw.). Viele Leute raten, Variablen, die als Verhältnisse codiert sind (z. B. Fold-Change), logarithmisch zu transformieren, da sie stark nach rechts geneigt sind. Verhältnisse ( / ) sind jedoch relative Änderungen und Verhältnisverteilungen sind nicht normal (en.wikipedia.org/wiki/Ratio_distribution). Wenn sowohl als auch lognormal sind, ist log ( / ) normal (ist / X lognormal, nachdem die Retransformationsverzerrung berücksichtigt wurde?)ZYXYXXYYXYX

Die Vergleiche zwischen den logarithmisch transformierten Verhältnissen sind relative Änderungen der relativen Änderungen (dh der Verhältnisse). Darüber hinaus wurde die Notwendigkeit einer Protokolltransformation für rechtwinklige Variablen ( Y ) in Frage gestellt. In einem kürzlich erschienenen Artikel ( http://www.ncbi.nlm.nih.gov/pubmed/22806695 ) wird beispielsweise vor dem Missbrauch der Protokolltransformation für eine Variable gewarnt. Einige der Ratschläge waren, dass log ( Y ) nur dann eine Normalverteilung garantiert, wenn Y lognormal ist. Es garantiert nämlich keine Normalität, selbst für Variablen mit rechtem Versatz. Darüber hinaus ist das Anti-Log von E (log ( Y )) das geometrische Mittel (GM) von Y , das immer kleiner als E ( Y ) ist, und die Tests der Differenzen von E (Y ) und der GM sind unterschiedlich. Schließlich ist der GM weder robuster noch weniger wahrscheinlich von den Ausreißern betroffen.

Ein anderes Papier ( http://econtent.hogrefe.com/doi/10.1027/1614-2241/a000110 ) zeigte, dass T-Tests an den Rohvariablen auch für logarithmisch normal verteilte Variablen gut funktionieren. Ein drittes Papier ( http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8 ) zeigte, dass die Leistung des t-Tests bei den Verhältnissen und des t-Tests bei den logarithmisch transformierten Verhältnissen ähnlich ist.

Somit stellt sich die Frage, welches das Ergebnis des Interesses ist. Da log ( ) in die ursprünglichen Einheiten zurücktransformiert werden muss, um sinnvoll zu sein, und aufgrund der Retransformationsverzerrung denke ich, dass die Tests von E ( ) aussagekräftiger sind.ZZ

Glücklicherweise sind parametrische Tests (z. B. T-Tests) gegenüber der Verletzung der Normalitätsannahme robust, sobald die Heteroskedastizität berücksichtigt wird (z. B. Welchs T-Test). In diesem Artikel ( http://www.ncbi.nlm.nih.gov/pubmed/24738055 ) wird beispielsweise empfohlen, ANOVA zu verwenden, um die Unterschiede zwischen rohen Faltungsänderungen beim Immunblotting zu testen.

Meine Frage lautet also: Wenn mein Ziel darin besteht, die absolute Änderung der Verhältnisse zu testen, kann ich die Verhältnisse direkt ohne Protokolltransformation vergleichen?

Referenz: Wann ist es bei linearer Regression angebracht, das Protokoll einer unabhängigen Variablen anstelle der tatsächlichen Werte zu verwenden?


Vermisse ich etwas WennX und Y sind dann sicher logarithmisch normal X/Yist auch log-normal ...?
M Turgeon

@Turgeon: Ja, Protokoll (J / X) ist normal. Ich bin mir jedoch nicht sicher, ob Y / X logarithmisch normal ist, wenn die Retransformationsverzerrung berücksichtigt wird. Ich denke, dass die Wikipedia-Seite diese Idee näher erläutern muss.
KuJ

can I compare the ratios directly without log transformation?In zumindest folgenden Fall und implizit, Sie sind dabei den „Vergleich“ von Verhältnissen. Es ist, wenn Sie rechnenχ2Statistik einer Kontingenztabelle. Eine Möglichkeit, seine Formel auszudrücken, istrc[OijGij]N, wo Oijist die obs. freq. in der Zelle undGijist das Verhältnis davon zur erwarteten Frequenz dort. Wenn Sie also den (quadratischen) Chi-Quadrat-Abstand zwischen den Zeilen i und i 'in der Tabelle berechnen, berechnen Sie die Unterschiede zwischen den Verhältnissen:dii=1/Nc[O.j(GijGij)2].
ttnphns

Antworten:


9

Verteilungen von nicht transformierten Verhältnissen haben nicht nur ungerade Formen, die nicht den Annahmen der traditionellen statistischen Analyse entsprechen, sondern es gibt auch keine gute Interpretation eines Unterschieds zwischen zwei Verhältnissen. Wenn Sie ein Beispiel finden, bei dem der Unterschied zwischen zwei Verhältnissen von Bedeutung ist und die Verhältnisse keine Proportionen eines Ganzen darstellen, beschreiben Sie bitte eine solche Situation.

Als Variable, die in der statistischen Analyse verwendet wird, haben Verhältnisse das signifikante Problem, asymmetrische Maße zu sein, dh es ist sehr wichtig, welcher Wert im Nenner liegt. Diese Asymmetrie macht es fast bedeutungslos, Verhältnisse zu addieren oder zu subtrahieren. Log-Verhältnisse sind symmetrisch und können addiert und subtrahiert werden.

Man kann viel Zeit damit verbringen, sich Gedanken darüber zu machen, welche Verteilung eine Teststatistik hat, oder die "Fremdheit" der Verteilung zu korrigieren, aber es ist wichtig, zuerst ein Effektmaß zu wählen, das die richtigen mathematischen und praktischen Eigenschaften hat. Verhältnisse sollen fast immer verglichen werden, indem das Verhältnis der Verhältnisse oder sein Protokoll (dh die doppelte Differenz der Protokolle der ursprünglichen Messungen) genommen werden.


Sehr geehrter Professor Frank Harrell, vielen Dank für Ihre freundliche Antwort. Ich habe die Frage überarbeitet. Zwei Beispiele: 1. Der BMI ist nicht normal ( ncbi.nlm.nih.gov/pubmed/26973438 ) und kann logarithmisch normal sein oder auch nicht. Wenn dies der Fall ist, ist log (BMI) normal. Ist dies nicht der Fall, ist log (BMI) nicht normal. Log (BMI) wird jedoch selten verwendet. 2. Faltenänderungen (Y1 / X, Y2 / X) von Proteinen oder Genen zweier experimenteller Gruppen (Y1, Y2) werden mit einer Kontrollgruppe (X) verglichen. Somit ist der Unterschied in zwei Verhältnissen bedeutsam, aber der relative Unterschied liegt nicht darin, dass beide Versuchsgruppen durch eine gemeinsame Kontrolle normalisiert werden.
KuJ

2
Diese Logik ist nicht korrekt. Unter der Annahme, dass der BMI die abhängige Variable ist, verhält er sich in Bezug auf lineare Modellannahmen besser als wenn nicht protokolliert, obwohl es besser wäre, das an Größe und Anfangsgewicht angepasste Modellgewicht zu modellieren. Die Tatsache, dass Faltungsänderungen in der Proteinexpression verglichen werden, bedeutet nicht, dass Sie zwei Faltungsänderungen subtrahieren. Die geeignetere Maßnahme wäre, das Verhältnis der Faltveränderungen zu ermitteln. Die Normalisierung ist insgesamt ein weiteres Problem. Die Praxis der getrennten Normalisierungsschritte ist statistisch nicht gut, da davon ausgegangen wird, dass die Kontrollen fehlerfrei gemessen werden.
Frank Harrell

1. Meinen Sie damit, dass der GM besser ist als das arithmetische Mittel der Verhältnisse oder der Faltveränderungen (obwohl die Verhältnisse oder Faltveränderungen möglicherweise nicht logarithmisch normal sind und die vom 1. Papier herausgegebenen Vorsichtsmaßnahmen)? 2. Dieses Papier ( link.springer.com/article/… ) zeigte, dass die Leistung des t-Tests bei den Verhältnissen und des t-Tests bei den logarithmisch transformierten Verhältnissen ähnlich ist. Vielen Dank.
KuJ

1
Das Papier ist dann dramatisch falsch. log (Y / X) ist mathematisch eine symmetrische Funktion und die Verteilung der logarithmischen Verhältnisse ist viel symmetrischer als die Verteilung der Verhältnisse.
Frank Harrell

4
Ich möchte unterstreichen, was nicht Teil dieses ausgezeichneten Ratschlags ist. Ob die Verhältnisse vor oder nach der Transformation genau oder sogar annähernd normal sind, kann nicht im Voraus oder allgemein vorhergesagt werden und ist glücklicherweise ziemlich zweitrangig. Der entscheidende Punkt ist, dass die Verhältnisse positiver Zahlen angesichts dessen oft so außerordentlich verzerrt sindX<Y Karten zu 0<X/Y<1 und X>Y Karten zu X/Y>1Das Zeichnen nicht transformierter Daten, das Verwenden dieser Daten in Modellen und das Nachdenken über sie ist fast immer viel umständlicher als das Arbeiten mit ihren Logarithmen.
Nick Cox

6

Die Antwort von @FrankHarrell und die damit verbundenen Kommentare von ihm und @NickCox beantworten die Frage bewundernswert. Ich würde hinzufügen, dass der implizite Fokus auf die Form der Rohverteilungen von Prädiktoren und Ergebnisvariablen fehl am Platz ist; Bei der linearen Modellierung ist die Linearität der Beziehungen der Prädiktoren zum Ergebnis und die Verteilung der Residuen wichtig.

Ich möchte auch Informationen zu zwei Artikeln hinzufügen, die in der ursprünglichen Frage zitiert wurden und einige Quellen für die vom OP festgestellten Schwierigkeiten erklären könnten. Es ist wichtig, Artikel kritisch zu bewerten und nicht nur zu akzeptieren, weil sie zufällig veröffentlicht wurden.

Das zitierte Papier über den Missbrauch von Protokolltransformationen von Feng et al. Weist zu Recht auf einige Missbräuche hin, die mit Protokolltransformationen möglich sind, hinterlässt jedoch tendenziell den Eindruck, dass Protokolltransformationen eher vermieden als intelligent verwendet werden sollten. Zum Beispiel heißt es in der Zeitung:

Die Verwendung von Transformationen im Allgemeinen und der Protokolltransformation im Besonderen kann in der Praxis sehr problematisch sein, um die gewünschten Ziele zu erreichen

mit angeblichen Schwierigkeiten festgestellt wie:

Es gibt keine Eins-zu-Eins-Beziehung zwischen dem ursprünglichen Mittelwert und dem Mittelwert der logarithmisch transformierten Daten. Es ist konzeptionell nicht sinnvoll, die Variabilität der Daten mit ihrem transformierten Gegenstück zu vergleichen. Vergleich der Mittelwerte zweier Stichproben ist nicht dasselbe wie das Vergleichen der Mittel ihrer transformierten Versionen

und abschließend:

Anstatt zu versuchen, eine geeignete Verteilung und / oder Transformation zu finden, die zu den Daten passt, könnte man erwägen, dieses klassische Paradigma ganz aufzugeben ...

Ich sehe nicht, dass die in diesem Papier festgestellten angeblichen Schwierigkeiten Gründe dafür bieten, die informierte Verwendung logarithmischer oder anderer Transformationen zu vermeiden. Andere haben schwerwiegendere Mängel in diesem Papier festgestellt. Bland, Altman und Rohlf schrieben eine direkte Antwort: Zur Verteidigung logarithmischer Transformationen . Die vollständige Antwort steckt offenbar hinter einer Paywall, aber ich glaube, die folgenden Zitate würden eine faire Verwendung darstellen:

Sie illustrieren ihren Artikel jedoch nicht mit realen Daten und scheinen den Kontext, in dem Protokolltransformationen angewendet werden, weitgehend zu ignorieren ... Sie zitieren auch die Personen, die sie kritisieren, aus dem Kontext heraus ... Feng et al. sagen Sie auch: "Obwohl statistisch gut definiert, hat die Menge Exp (E (log X)) keine intuitive und biologische Interpretation." Wir finden kein Problem in der Intuition darüber. Obwohl der Ausdruck kompliziert aussieht, ist er einfach das geometrische Mittel.

Bland, Altman und Rohlf schließen daraus:

Die Protokolltransformation ist ein wertvolles Werkzeug bei der Analyse biologischer und klinischer Daten. Wir sind nicht der Meinung, dass jemand durch dieses schlecht argumentierte und irreführende Papier davon abgehalten werden sollte, es zu verwenden.

Das Papier , das "empfiehlt, ANOVA zu verwenden, um die Unterschiede zwischen den Rohfaltenunterschieden (FD) beim Immunblotting zu testen", befasst sich gut mit einigen technischen Schwierigkeiten bei der Durchführung der Densitometrie von sogenannten "Western Blots" (Schwierigkeiten, die mir schmerzlich bewusst sind). Der fast beiläufige Vorschlag am Ende des Dokuments, "die durchschnittliche FD und die zugehörigen P-Werte für die biologischen Replikate zu bestimmen, indem die FD aus Schritt (2) oben in ein Softwarepaket für statistische Analysen wie PRISM oder Analyze IT importiert wird "scheint keine sehr kritische Bewertung erhalten zu haben. (Es schließt auch nicht aus, dass die FD-Werte in der statistischen Analyse logarithmisch transformiert werden können.)

Ein Vorschlag zur Verwendung von rohem FD widerspricht tatsächlich der zuvor in diesem Artikel vorgestellten Idee, dass diese Analyse "eine sehr ähnliche Methode wie qPCR" oder die quantitative Polymerasekettenreaktion ist. Die statistische Analyse von qPCR erfolgt am besten anhand der Werte von "Zyklen bis zur Schwelle" oderCtWerte. DieseCt Werte haben direkt log2Beziehungen zu den ursprünglichen Mengen der zu analysierenden Nukleinsäuresequenz. Von weiterer Bedeutung bei der Nukleinsäurequantifizierung ist, dass das in der Microarray-Analyse weit verbreitete MA-Diagramm ein Bland-Altman-Diagramm zu logarithmischen Transformationen von Expressionsdaten ist. Wenn Fehler proportional zu interessierenden Werten sind, kann die logarithmische Transformation sehr sinnvoll sein.


Vielen Dank für Ihre ausführlichen Erklärungen. Ihre Antwort hilft mir, dieses Problem klarer zu verstehen.
KuJ

Hervorragende Analyse. Es ist erstaunlich, dass das von Ihnen sezierte Papier veröffentlicht wurde. Es ist voller schlechter Argumente und schlechter Ratschläge. Das Arbeiten im Protokollmaßstab ist äußerst einfach und gehört in jeden Einführungstext.
Nick Cox

1

Wenn beides X und Y sind normal mit Null Mittelwert, dann das Verhältnis X/Y folgt einer Cauchy-Verteilung mit Dichte

p(x)=1πγγ2(xx0)2+γ2

wo x0 ist der Standortparameter, der eine Art Maß für die Zentralität der Masse darstellt, und γdie halbe Breite, die eine Art Standardabweichung für Cauchy ist. Es hat keinen Mittelwert, keine Varianz und keine höheren Momente.


Wenn X Null ist, ist Y / X undefiniert.
KuJ

1
@ KuJ Seit X und YSind Zufallsvariablen, ist die Wahrscheinlichkeit, dass einer von beiden genau gleich Null ist, Null.
HoraceT

Wie können wir statistische Tests durchführen, wenn es keinen Mittelwert, keine Varianz und keine höheren Momente gibt?
KuJ

1
@ KuJ Genau die gleiche Frage wurde gestellt. Siehe stats.stackexchange.com/questions/172101/…
horaceT
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.