Wie kann gezeigt werden, dass zwei Analysemethoden gleichwertig sind?


11

Ich habe zwei verschiedene Analysemethoden, mit denen die Konzentration eines bestimmten Moleküls in einer Matrix gemessen werden kann (z. B. die Salzmenge in Wasser).

Die beiden Methoden sind unterschiedlich und jede hat ihren eigenen Fehler. Welche Möglichkeiten es gibt, die beiden Methoden zu zeigen, ist äquivalent (oder nicht).

Ich denke, dass das Auftragen der Ergebnisse einer Reihe von Proben, die mit beiden Methoden gemessen wurden, in einem Streudiagramm ein guter erster Schritt ist, aber gibt es gute statistische Methoden?


Können Sie in Ihrer Frage weitere Details angeben? Ich verstehe nicht, was "die Konzentration eines bestimmten Moleküls in einer Matrix" ist.
Robin Girard

2
@robin: "Matrix" ist in diesem Zusammenhang die Standardterminologie der analytischen Chemie; es bezieht sich auf das Medium, in dem sich die zu analysierenden Entitäten (die "Analyten") befinden. Wenn Sie beispielsweise die Bleikonzentration im Leitungswasser analysieren, ist Blei der Analyt und Wasser die Matrix.
JM ist kein Statistiker

Antworten:


13

Der einfache Korrelationsansatz ist nicht der richtige Weg, um Ergebnisse aus Methodenvergleichsstudien zu analysieren. Es gibt (mindestens) zwei sehr empfohlene Bücher zu diesem Thema, auf die ich am Ende verwiesen habe (1,2). Kurz gesagt, beim Vergleich von Messmethoden erwarten wir normalerweise, dass (a) unsere Schlussfolgerungen nicht von der für den Vergleich verwendeten Probe abhängen und (b) Messfehler, die mit dem jeweiligen Messinstrument verbunden sind, berücksichtigt werden sollten. Dies schließt jede Methode aus, die auf Korrelationen basiert, und wir werden unsere Aufmerksamkeit auf Varianzkomponenten oder Modelle mit gemischten Effekten richten, die es ermöglichen, die systematische Wirkung des Elements widerzuspiegeln (hier steht das Element für Einzelperson oder Stichprobe, für die Daten gesammelt werden), die sich daraus ergibt (ein).

In Ihrem Fall lassen Sie einzelne Messungen mit zwei verschiedenen Methoden erfassen (ich gehe davon aus, dass keine davon als Goldstandard angesehen werden kann). Grundsätzlich müssen Sie die Unterschiede ( ) gegen die Mittelwerte ( ) aufzeichnen ); Dies nennt man eine . Hier können Sie überprüfen, ob (1) die Abweichungen zwischen den beiden Messreihen konstant sind und (2) die Abweichung der Differenz über den Bereich der beobachteten Werte konstant ist. Grundsätzlich ist dies nur eine 45 ° -Drehung eines einfachen Streudiagramms von gegen , und seine Interpretation kommt einem Diagramm von angepassten vs. Residuenwerten nahe, die bei der linearen Regression verwendet werden. Dann, ( X 1 + X 2 ) / 2X1X2(X1+X2)/2X 2X1X2

  • Wenn die Differenz konstant ist ( konstante Vorspannung ), können Sie die Übereinstimmungsgrenze berechnen (siehe (3)).
  • Wenn die Differenz über den Messbereich nicht konstant ist, können Sie ein lineares Regressionsmodell zwischen den beiden Methoden anpassen (wählen Sie das gewünschte als Prädiktor aus).
  • Wenn die Varianz der Differenzen nicht konstant ist, versuchen Sie, eine geeignete Transformation zu finden, die die Beziehung linear zur konstanten Varianz macht

Weitere Einzelheiten finden Sie in (2), Kapitel 4.

Verweise

  1. Dunn, G (2004). Design und Analyse von Zuverlässigkeitsstudien . Arnold. Siehe die Übersicht im International Journal of Epidemiology .
  2. Carstensen, B (2010). Vergleich klinischer Messmethoden . Wiley. Siehe die begleitende Website , einschließlich R-Code.
  3. Der Originalartikel von Bland und Altman, Statistische Methoden zur Beurteilung der Übereinstimmung zwischen zwei Methoden der klinischen Messung .
  4. Carstensen, B (2004). Vergleich und Vorhersage verschiedener Messmethoden . Biostatistics , 5 (3) , 399–413.

Würde es Ihnen etwas ausmachen zu klären, was Sie unter "(a) unsere Schlussfolgerungen sollten nicht von der für den Vergleich verwendeten Stichprobe abhängen" verstehen? Ich habe Probleme aufgrund der Mehrdeutigkeit von "Probe" in diesem Zusammenhang: Bedeutet dies "statistische Probe" (ein Datensatz, der vermutlich einen Prozess oder eine Population darstellt) oder "Umweltprobe" (ein bisschen Wasser, Boden, Luft oder Gewebe, typischerweise). Mit beiden Bedeutungen kann ich nicht ganz die logische Linie zu Ihrer Schlussfolgerung ziehen, dass dies "jede Methode ausschließt, die auf Korrelationen basiert".
whuber

@whuber Nun, ich meine die Sammlung beobachteter Daten (z. B. Glukosekonzentration), die im Idealfall repräsentativ für den wahrscheinlichen Bereich dessen sein sollten, was gemessen wird. Das Verlassen auf Korrelation kann irreführend sein, da es von den Stichprobeneinheiten abhängt (z. B. Patienten in einem Krankenhaus): Wir können eine höhere Korrelation erzielen, indem wir nur eine oder mehrere extreme Messungen auf beiden Skalen durchführen, obwohl die Beziehung zwischen den beiden Methoden immer noch dieselbe ist . Die Idee ist daher, dass die Verteilung des interessierenden Maßes unsere Schlussfolgerung über die Vergleichbarkeit von Methoden nicht beeinflussen sollte. (...)
chl

@whuber (...) Was wir bewerten möchten, ist die Übereinstimmung über die Daten hinaus , nicht die Beziehung in den Daten (ich zitiere Carstensen 2010, S. 8-9).
Chl

Vielen Dank; das verdeutlicht deine Position gut. Dies ist im Wesentlichen eine Übung zur Kalibrierung, mit der Ausnahme, dass wir anscheinend keinen Referenzstandard zum Vergleich haben. Wir gehen lediglich davon aus, dass die vom Experimentator ausgewählten physikalischen Proben einen Bereich wahrer Konzentrationen abdecken. Während Sie schreiben, ist die Korrelation an sich nicht unbedingt ein nützliches Maß für die Übereinstimmung zwischen den beiden Methoden. Typischerweise ist jedoch, insbesondere für chemische Analysen, die wahre Konzentration bekannt (weil der Experimentator eine bekannte Menge einer Substanz in die Matrix eingeführt hat).
whuber

@whuber Das stimmt. In Ermangelung eines Goldstandards interessiert uns lediglich, inwieweit die beiden Methoden "vergleichbare" Ergebnisse liefern, daher die Idee, sich auf sogenannte Übereinstimmungsgrenzen zu stützen. Obwohl das wahre Maß im Voraus bekannt sein kann, weist jedes Messinstrument seinen eigenen Messfehler auf - zumindest für diejenigen, mit denen ich mich im biomedizinischen (z. B. Blutzuckerkonzentration) und neuropsychologischen (z. B. Depressionsniveau) Bereich befasst habe.
Chl

2

Wenn Sie die wahre Konzentration nicht kennen, ist der einfachste Ansatz eine Korrelation. Ein Schritt darüber hinaus könnte darin bestehen, eine einfache Regression durchzuführen, die das Ergebnis von Methode 2 unter Verwendung von Methode 1 vorhersagt (oder umgekehrt). Wenn die Methoden identisch sind, sollte der Achsenabschnitt 0 sein. Wenn der Achsenabschnitt größer oder kleiner als 0 ist, würde dies die Vorspannung einer Methode relativ zu einer anderen anzeigen. Die nicht standardisierte Steigung sollte nahe 1 liegen, wenn die Methoden im Durchschnitt identische Ergebnisse liefern (nach Kontrolle einer Aufwärts- oder Abwärtsvorspannung im Achsenabschnitt). Der Fehler in der nicht standardisierten Steigung kann als Index dafür dienen, inwieweit die beiden Methoden übereinstimmen.

Es scheint mir, dass die Schwierigkeit mit statistischen Methoden hier darin besteht, zu bestätigen, was typischerweise als Nullhypothese gestellt wird, das heißt, dass es keine Unterschiede zwischen den Methoden gibt. Dies ist kein Todesstoß für die Verwendung statistischer Methoden, solange Sie keinen AP-Wert benötigen und Sie können quantifizieren, was Sie unter "Äquivalent" verstehen, und entscheiden, wie viel Abweichung die beiden Methoden voneinander haben können, bevor Sie nicht mehr Betrachten Sie sie als gleichwertig. In dem oben beschriebenen Regressionsansatz könnten Sie die Methoden als äquivalent betrachten, wenn das Konfidenzintervall um die Steigungsschätzung 1 und der CI um den Achsenabschnitt 0 enthält.


In der Chemometrie sind die Instrumentenreaktionen häufig nichtlinear und heteroskedastisch. Zumindest ein gewisses Maß an Vorsicht bei der Durchführung und Interpretation der Regression.
whuber

1

Ich stimme @drnexus zu. Darüber hinaus könnte ich einen Morgan-Pitman-Test für die Varianzgleichheit der beiden Methoden empfehlen. Dies würde Ihnen sagen, ob eine Methode mehr Varianz aufweist als die andere. Dies an sich ist möglicherweise keine schlechte Sache, da die beiden Tests vermutlich unterschiedliche Kompromisse zwischen Bias und Varianz aufweisen (z. B. kann ein Test immer 50% (voreingenommen, aber keine Varianz) anzeigen, während der andere unvoreingenommen, aber sehr verrauscht ist). Einige Domänenkenntnisse können hier hilfreich sein, um festzustellen, wie viel Kompromiss Sie von Ihrer Methode erwarten. Natürlich wäre, wie von anderen angemerkt, ein "Goldstandard" sehr bevorzugt.


1

Eine ziemlich alte Frage, aber wie sie heute wieder auftauchte:

Das allgemeine Schlüsselwort lautet "Validierung in der analytischen Chemie" und ist daher hier etwas unangebracht (da es hier jedoch keine Website für Chemie gibt (noch: http://area51.stackexchange.com/proposals/4964/chemistry , I. denke, wir können es für den Moment hier lassen)

Hierfür gibt es in der analytischen Chemie einige Standardverfahren.

Bücher:

  • Funk et. al: Qualitätssicherung in der analytischen Chemie, Wiley-VCH.

  • Kromidas (Hrsg.): Handbuch Validierung in der Analytik, Wiley-VCH
    (Ich weiß nicht, ob es eine englische Version gibt und ich habe sie (noch) nicht. Aber das Inhaltsverzeichnis listet die Validierung der multivariaten Kalibrierung auf.)

Auch dazu hat die IUPAC etwas zu sagen:

  • Danzer, K. und Currie, LA: Richtlinien für die Kalibrierung in der analytischen Chemie. Teil I. Grundlagen und Einzelkomponentenkalibrierung, Reine und Angewandte Chemie, IUPAC, 1998, 4, 993-1014

  • Danzer, K. und Otto, M. und Currie, LA: Richtlinien für die Kalibrierung in der analytischen Chemie. Teil 2: Mehrkomponentenkalibrierung Pure and Applied Chemistry, 2004, 76, 1215-1225


0

Ihre Verwendung des Ausdrucks "Analysemethoden" ist für mich etwas verwirrend. Ich gehe davon aus, dass Sie unter "analytischen Methoden" eine bestimmte Modell- / Schätzstrategie verstehen.

Grundsätzlich gibt es zwei Arten von Metriken, mit denen Sie zwischen Schätzern wählen können.

In-Sample-Metriken

  • Wahrscheinlichkeitsverhältnis / Wald-Test / Score-Test
  • R 2
  • Trefferquote in der Stichprobe (Prozentsatz der korrekten Vorhersagen für Stichprobendaten)
  • (Viele andere Metriken abhängig vom Modell- / Schätzungskontext)

Out-of-Sample-Metriken

  • Trefferquoten außerhalb der Stichprobe (Prozentsatz der korrekten Vorhersagen für Daten außerhalb der Stichprobe)

Wenn die Schätzungen äquivalent sind, würden sie bei diesen Metriken gleich gut abschneiden. Sie können auch feststellen, ob sich die Schätzungen statistisch nicht voneinander unterscheiden (wie beim Test der Mittelgleichheit mit zwei Stichproben), aber die Methodik hierfür hängt von den Modell- und Methodenspezifikationen ab.


Entschuldigung, ich meinte eine analytische Messmethode. Ich habe die Frage umformuliert.
Paul Hurleyuk

In diesem Fall denke ich, dass der Zwei-Stichproben-Test der Gleichheit für Mittelwerte / Proportionen das ist, was Sie vielleicht tun möchten.

2
Würde ein Test der Mittelwerte / Proportionen nicht nur eine Punktschätzung darüber liefern, ob die beiden Methoden für einen bestimmten Satz von Antworten die gleiche durchschnittliche Antwort gaben? Könnte dieser Ansatz nicht zu einem Ergebnis von "gleich" führen, selbst wenn die beiden Methoden tatsächlich negativ miteinander korreliert wären?
Russellpierce

Das ist ein guter Punkt.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.