Fehler-in-Variablen-Regression: Ist es gültig, Daten von drei Standorten zu bündeln?

Ich wurde kürzlich von einem Kunden zu einer Bootstrap-Analyse eingeladen, da ein FDA-Gutachter sagte, dass die Regression der Fehler in Variablen ungültig sei, da beim Poolen von Daten von Sites die Analyse das Poolen von Daten von drei Sites beinhaltete, an denen zwei Sites einige Proben enthielten das Gleiche.

HINTERGRUND

Der Kunde hatte eine neue Untersuchungsmethode, von der er nachweisen wollte, dass sie einer vorhandenen genehmigten Methode "äquivalent" ist. Ihr Ansatz bestand darin, die Ergebnisse beider Methoden zu vergleichen, die auf die gleichen Proben angewendet wurden. Drei Stellen wurden verwendet, um die Tests durchzuführen. Variablenfehler (Deming-Regression) wurden auf die Daten an jedem Standort angewendet. Die Idee ist, dass, wenn die Regression zeigte, dass der Steigungsparameter nahe 1 und der Achsenabschnitt nahe 0 ist, dies zeigt, dass die beiden Testtechniken nahezu dieselben Ergebnisse lieferten und daher die neue Methode genehmigt werden sollte. An Ort 1 hatten sie 45 Proben, die 45 Beobachtungen mit Paaren ergaben. Stelle 2 hatte 40 Proben und Stelle 3 43 Proben. Sie führten drei separate Deming-Regressionen durch (unter der Annahme eines Verhältnisses von 1 für die Messfehler für die beiden Methoden). Der Algorithmus minimierte also die Summe der quadrierten senkrechten Abstände.

In ihrer Stellungnahme wies der Kunde darauf hin, dass einige der an den Standorten 1 und 2 verwendeten Proben gleich waren. In der Überprüfung sagte der FDA-Prüfer, dass die Deming-Regression ungültig sei, da gemeinsame Stichproben verwendet wurden, die eine "Interferenz" verursachen, die die Annahmen des Modells ungültig macht. Sie forderten, dass eine Bootstrap-Anpassung auf die Deming-Ergebnisse angewendet wird, um diese Störung zu berücksichtigen.

Zu diesem Zeitpunkt wusste der Kunde nicht, wie ich den Bootstrap machen sollte. Der Begriff Interferenz war seltsam und ich war mir nicht sicher, worauf der Rezensent hinauslief. Ich nahm an, dass der Punkt wirklich war, dass, weil die gepoolten Daten gemeinsame Stichproben hatten, eine Korrelation für die gemeinsamen Stichproben bestehen würde und daher die Modellfehlerterme nicht alle unabhängig wären.

DIE ANALYSE DES KUNDEN

Die drei getrennten Regressionen waren sehr ähnlich. Jeder hatte Steigungsparameter nahe 1 und Abschnitte nahe 0. Das 95% -Konfidenzintervall enthielt jeweils 1 und 0 für die Steigung und den Abschnitt. Der Hauptunterschied war eine geringfügig höhere Restvarianz an Stelle 3. Darüber hinaus verglichen sie diese mit den Ergebnissen aus der Durchführung von OLS und stellten fest, dass sie sehr ähnlich waren (in nur einem Fall enthielt das Konfidenzintervall für die auf OLS basierende Steigung nicht 1). In dem Fall, in dem das OLS-CI für die Steigung nicht 1 enthielt, betrug die Obergrenze des Intervalls etwa 0,99.

Da die Ergebnisse an allen drei Standorten so ähnlich waren, schien es vernünftig, die Standortdaten zu bündeln. Der Kunde führte eine gepoolte Deming-Regression durch, die ebenfalls zu ähnlichen Ergebnissen führte. Angesichts dieser Ergebnisse habe ich einen Bericht für den Kunden verfasst, in dem die Behauptung bestritten wurde, die Regressionen seien ungültig. Mein Argument ist, dass der Kunde zu Recht die Deming-Regression verwendet, um Übereinstimmung / Nichtübereinstimmung zu zeigen, da beide Variablen ähnliche Messfehler aufweisen. Die einzelnen Standortregressionen hatten keine Probleme mit korrelierten Fehlern, da innerhalb eines bestimmten Standorts keine Stichproben wiederholt wurden. Zusammenführen von Daten, um engere Konfidenzintervalle zu erhalten.

Diese Schwierigkeit könnte behoben werden, indem einfach die Daten mit den gemeinsamen Stichproben von Standort 1 zusammengefasst werden, die weggelassen wurden. Auch die drei einzelnen Standortmodelle haben das Problem nicht und sind gültig. Dies scheint mir ein starker Beleg für die Übereinstimmung zu sein, auch ohne die Bündelung. Darüber hinaus wurden die Messungen an den Standorten 1 und 2 für die gemeinsamen Standorte unabhängig voneinander durchgeführt. Ich denke also, dass sogar die gepoolte Analyse unter Verwendung aller Daten gültig ist, da die Messfehler für eine Stichprobe an Standort 1 nicht mit den Messfehlern in der entsprechenden Stichprobe an Standort 2 korreliert sind. Dies läuft darauf hinaus, einen Punkt im Entwurf zu wiederholen Platz, der kein Problem sein sollte. Es entsteht keine Korrelation / "Interferenz".

In meinem Bericht schrieb ich, dass eine Bootstrap-Analyse unnötig sei, da keine Korrelation zu korrigieren sei. Die drei Standortmodelle waren gültig (keine mögliche "Interferenz" innerhalb der Standorte) und eine gepoolte Analyse konnte durchgeführt werden, indem die gemeinsamen Proben an Standort 1 entfernt wurden, wenn das Pooling durchgeführt wurde. Eine solche gepoolte Analyse könnte kein Interferenzproblem haben. Eine Bootstrap-Anpassung wäre nicht erforderlich, da keine Vorspannung zum Anpassen besteht.

FAZIT

Der Kunde stimmte meiner Analyse zu, hatte jedoch Angst, sie an die FDA weiterzuleiten. Sie wollen, dass ich die Bootstrap-Anpassung trotzdem mache.

MEINE FRAGEN

A) Stimmen Sie zu (1) meiner Analyse der Ergebnisse des Kunden und (2) meinem Argument, dass der Bootstrap nicht erforderlich ist.

B) Gibt es, da ich die Deming-Regression booten muss, Verfahren SAS oder R, die mir zur Verfügung stehen, um die Deming-Regression für die Bootstrap-Beispiele durchzuführen?

EDIT: Angesichts des Vorschlags von Bill Huber plane ich, Grenzen für die Regression von Fehlern in Variablen nach Regression sowohl für y für x als auch für x für y zu untersuchen. Wir wissen bereits, dass für eine Version von OLS die Antwort im Wesentlichen mit Fehlern in Variablen identisch ist, wenn die beiden Fehlervarianzen als gleich angenommen werden. Wenn dies für die andere Regression zutrifft, dann zeigt sich meiner Meinung nach, dass die Deming-Regression eine geeignete Lösung bietet. Sind Sie einverstanden?

Um die Anfrage des Kunden zu erfüllen, muss ich die angeforderte Bootstrap-Analyse durchführen, die vage definiert wurde. Aus ethischen Gründen halte ich es für falsch, nur den Bootstrap bereitzustellen, da dies das eigentliche Problem des Kunden nicht wirklich löst, nämlich die Rechtfertigung seines Assay-Messverfahrens. Deshalb werde ich ihnen beide Analysen geben und sie bitten, der FDA zumindest mitzuteilen, dass ich zusätzlich zur Durchführung des Bootstraps eine inverse Regression durchgeführt und die Deming-Regressionen begrenzt habe, die ich für angemessener halte. Ich denke auch, dass die Analyse zeigen wird, dass ihre Methode der Referenz entspricht und die Deming-Regression daher auch angemessen ist.

Ich habe vor, das R-Programm zu verwenden, das @whuber in seiner Antwort vorgeschlagen hat, damit ich die Deming-Regression booten kann. Ich bin nicht sehr vertraut mit R, aber ich denke, ich kann es tun. Ich habe R zusammen mit R Studio installiert. Wird das für einen Anfänger wie mich einfach genug sein?

Auch ich habe SAS und bin komfortabler in SAS programmieren. Wenn also jemand einen Weg kennt, dies in SAS zu tun, würde ich es begrüßen, darüber Bescheid zu wissen.

— Michael R. Chernick
quelle

Ich kenne die Antwort auf diese Frage nicht, aber wäre es auf rein politischer Basis nicht besser, das zu tun, was die FDA will, und (zumindest vermutlich) zu zeigen, dass die Ergebnisse ähnlich sind? (Gute Frage, Übrigens, +1)

— Peter Flom - Reinstate Monica

Ja @PeterFlom Ich stimme zu, dass es keine Rolle spielt, die Analyse für die FDA durchzuführen und zu zeigen, dass es keine Rolle spielt. Aber ich denke, dass ein diplomatischer Hinweis auf die Ergebnisse der Regressionen und ihre Auswirkungen und das Pooling ohne die überlappenden Stichproben das Argument stärkt. Ich werde den Bootstrap machen, aber ich könnte die Hilfe benutzen, um verfügbare Software zu finden, um die Deming-Regression selbst zu machen, ohne sie selbstständig zu codieren.

— Michael R. Chernick

Michael, die Möglichkeit von "Samples", die "Sites" gemeinsam sind, stellt einige natürliche Interpretationen dessen in Frage, was diese (abstrakten) Begriffe bedeuten könnten. Zum Beispiel stellte ich mir "Standorte" zunächst als unterschiedliche geografische Standorte und "Stichproben" als separate Einheiten vor, die diesen Standorten zugeordnet sind und jeweils unabhängigen Messungen unterzogen werden. In diesem Modell ist es unmöglich, dass Proben an verschiedenen Orten gemeinsam sind. Könnten Sie bitte klarstellen, was Sie mit diesen Begriffen meinen?

— Whuber

Überall dort, wo sich die Standorte befinden. Die Proben sind Citratplasma von Individuen. Die Labortests werden an verschiedenen Standorten zu unterschiedlichen Zeiten durchgeführt. Die Vergleiche beziehen sich auf zwei Assay-Messgeräte, die die gleiche Funktion erfüllen sollen. An den Standorten 1 und 2 wurden einige der Proben wiederverwendet, aber die Geräte wurden an den Standorten 1 und 2 unabhängig voneinander betrieben. Deshalb sind die Messfehler wirklich unabhängig, obwohl dieselben Proben (oder Teile derselben Proben) verwendet werden .

— Michael R. Chernick

a) Einverstanden darüber, dass das Auslassen der doppelten Stichprobe aus der gepoolten Analyse die Bedenken hinsichtlich mangelnder Unabhängigkeit beseitigt. b) Sehr wenige SAS-Benutzer werden es "einfach" finden, R für Bootstrap-Analysen mit ungewöhnlichen Regressionsmethoden zu verwenden. Bootstrap-Analysen erfordern wirklich die funktionale Programmierweise des Denkens, und das ist kein Modus, den SAS fördert.

— DWin

Dies ist ein gegenseitiges Kalibrierungsproblem, dh der quantitative Vergleich zweier unabhängiger Messgeräte.

Es scheint zwei Hauptprobleme zu geben. Die erste (die nur in der Frage impliziert ist) besteht darin, das Problem zu formulieren: Wie soll man feststellen, ob eine neue Methode einer genehmigten "äquivalent" ist? Die zweite betrifft die Analyse von Daten, bei denen einige Proben möglicherweise mehrmals gemessen wurden.

Die Frage formulieren

Die beste (und möglicherweise naheliegende) Lösung für das angegebene Problem besteht darin, die neue Methode anhand von Proben mit genau bekannten Werten zu bewerten, die aus vergleichbaren Medien (wie Humanplasma) stammen. (Dies erfolgt normalerweise durch Versetzen von tatsächlichen Proben mit Standardmaterialien bekannter Konzentration.) Da dies nicht erfolgt ist, nehmen wir an, dass dies für die Regulierungsbehörden entweder nicht möglich oder nicht akzeptabel ist (aus welchem Grund auch immer). Wir müssen also nur zwei Messmethoden vergleichen, von denen eine als Referenz dient, da sie für genau und reproduzierbar gehalten werden (jedoch ohne perfekte Präzision).

Tatsächlich fordert der Kunde die FDA auf, die neue Methode als Proxy oder Ersatz für die genehmigte Methode zuzulassen. Als solche müssen sie nachweisen, dass die Ergebnisse der neuen Methode mit hinreichender Genauigkeit vorhersagen, was die genehmigte Methode bestimmt hätte, wenn sie angewendet worden wäre. Der subtile Aspekt dabei ist, dass wir nicht versuchen, die wahren Werte selbst vorherzusagen - wir kennen sie nicht einmal. Daher ist die Regression von Fehlern in Variablen möglicherweise nicht die geeignetste Methode zur Analyse dieser Daten.

Die übliche Lösung in solchen Fällen ist die "inverse Regression" (wie beispielsweise in Draper & Smith, Applied Regression Analysis (Second Edition), Abschnitt 1.7 beschrieben). Kurz gesagt, diese Technik führt eine Regression der Ergebnisse der neuen Methode gegenüber den Ergebnissen der genehmigten Methode durch , erstellt ein geeignetes Vorhersageintervall und invertiert dieses Intervall funktionell , um Bereiche von für beliebige gegebene Werte von . Wenn für den beabsichtigten Bereich von Werten diese Bereiche von "ausreichend klein" sind, dann ist ein wirksamer Proxy für $Y$ $X$ $X$ $Y$ $Y$ $X$ $Y$ $X$ . (Meiner Erfahrung nach ist dieser Ansatz eher konservativ: Diese Intervalle können überraschend groß sein, es sei denn, beide Messungen sind sehr genau, präzise und linear miteinander verbunden.)

Adressierung doppelter Proben

Hierbei handelt es sich um Stichprobenunterstützung und Varianzkomponenten. "Probenträger" bezieht sich auf den physischen Teil eines Subjekts (hier ein Mensch), der tatsächlich gemessen wird. Nachdem ein Teil des Objekts entnommen wurde, muss es normalerweise in Teilproben unterteilt werden, die für den Messvorgang geeignet sind. Wir sind möglicherweise besorgt über die Möglichkeit von Variationen zwischen Unterproben. In einer Flüssigkeitsprobe, die gut gemischt ist, gibt es im Wesentlichen keine Variation der zugrunde liegenden Menge (wie etwa der Konzentration einer Chemikalie) in der gesamten Probe, aber in Proben von Feststoffen oder Halbfeststoffen (die möglicherweise Blut enthalten) kann eine solche Variation vorliegen substanziell. Da Laboratorien häufig nur Mikroliter einer Lösung benötigen, um eine Messung durchzuführen, müssen wir uns um Abweichungen fast im mikroskopischen Maßstab sorgen. Das könnte wichtig sein.

Die Möglichkeit einer solchen Variation innerhalbEine physikalische Probe zeigt an, dass die Variation der Messergebnisse in separate "Komponenten der Varianz" aufgeteilt werden sollte. Eine Komponente ist die Varianz von der Variation innerhalb der Probe, und andere sind Beiträge zur Varianz von jedem unabhängigen Schritt des nachfolgenden Messprozesses. (Diese Schritte können den physikalischen Vorgang der Unterabtastung, die weitere chemische und physikalische Verarbeitung der Probe - wie das Hinzufügen von Stabilisatoren oder das Zentrifugieren -, die Injektion der Probe in das Messinstrument, Variationen innerhalb des Instruments, Variationen zwischen Instrumenten und andere umfassen Variationen aufgrund von Änderungen bei der Bedienung des Instruments, möglicher Kontamination der Umgebung in den Labors usw. Ich hoffe, dies macht deutlich, dass, um diese Frage wirklich gut beantworten zu können, Der Statistiker benötigt ein gründliches Verständnis des gesamten Probenahme- und Analyseprozesses. Alles, was ich tun kann, ist eine allgemeine Anleitung.)

Diese Überlegungen gelten für die vorliegende Frage, da es sich bei einer "Probe", die an zwei verschiedenen "Orten" gemessen wird, tatsächlich um zwei physikalische Proben handelt, die von derselben Person entnommen und dann auf die Laboratorien aufgeteilt wurden. Bei der Messung nach der genehmigten Methode wird ein Stück einer Teilprobe verwendet, und bei der gleichzeitigen Messung nach der neuen Methode wird ein anderes Stück der Teilprobe verwendet. Indem wir die Komponenten der Varianz betrachten, die diese Spaltungen implizieren, können wir das Hauptproblem der Frage lösen. Es sollte nun klar sein, dass Unterschiede zwischen diesen gepaarten Messungen auf zwei Dinge zurückzuführen sind: erstens auf tatsächliche Unterschiede zwischen den Messverfahren - dies versuchen wir zu bewerten - und zweitens auf Unterschiede aufgrund von Abweichungen innerhalbdie Probe sowie Abweichungen, die durch die physikalischen Prozesse der Extraktion der beiden zu messenden Unterproben verursacht werden. Wenn physikalische Überlegungen zur Probenhomogenität und zum Unterabtastungsprozess ergeben, dass die zweite Form der Varianz vernachlässigbar ist, liegt in der Tat keine "Störung" vor, wie vom Prüfer behauptet. Andernfalls müssen diese Varianzkomponenten möglicherweise explizit in der inversen Regressionsanalyse modelliert und geschätzt werden.

— whuber
quelle

Vielen Dank für eine sehr gute Analyse, die den besten Weg zur Lösung dieses Problems vorschlägt. In meiner speziellen Situation hat der Kunde jedoch den Deming-Regressionsansatz gewählt und sucht nicht nach einer anderen Methode. Die Einwände der FDA gegen die Deming-Regression scheinen nur auf die Störung zurückzuführen zu sein, und ihr Vorschlag, das Problem zu umgehen, ist eine Art Bootstrap-Korrektur. Ich wurde nur reingebracht, weil sie nicht wissen, wie man Bootstraps macht. Sie haben keine Statistiker beteiligt und keine statistische Analyse der Ergebnisse vorgelegt, wie ich in meinem Bericht angegeben habe.

— Michael R. Chernick

Ich weiß die Einschränkungen zu schätzen (und hätte diesbezüglich ausdrücklich darauf eingehen müssen). Im Allgemeinen ist es jedoch ein guter Rahmen für die Beantwortung derartiger Fragen, ein geeignetes Modell als Ausgangspunkt zu verwenden. Wenn Sie versuchen, Ihren Weg zu einer Lösung mithilfe eines unangemessenen Ansatzes und eines ungültigen Modells (um einen Kunden zufrieden zu stellen) zu begründen, werden Sie nur die Fehler verschlimmern und können keine eindeutig vertretbare Lösung finden. Was Sie jetzt überlegen könnten, ist, wie sich die Deming-Regression von der inversen Regression unterscheidet und wie die Deming-Regression angepasst werden könnte, um mehrere Varianzkomponenten aufzunehmen.

— whuber

Sie könnten motiviert sein zu demonstrieren, dass die Deming-Regression, wie sie bereits angewendet wurde, in ausreichendem Maße dem entspricht , was eine üblichere oder geeignetere Methode hervorbringen würde: Eine solche Demonstration könnte die bestmögliche Lösung für Ihre Situation sein.

— whuber

Stattdessen wurde lediglich das Problem und die Art der Datenerfassung beschrieben und die Ausgabe der Deming-Regression angezeigt. Wäre ein Statistiker beteiligt gewesen, wären möglicherweise weniger statistische Fragen zur Deming-Regression aufgeworfen worden. Alles, was ich für den Clinet tun kann, ist, einen Fall für die durchgeführte Analyse bereitzustellen (einschließlich einer Erläuterung, warum der größte Teil der Regression ohne die Sorge um Interferenzen durch wiederholte Stichprobenentnahme aus einer gemeinsamen Quelle analysiert werden konnte) und den angeforderten Bootstrap bereitzustellen Anpassung für die Restvarianz im gepoolten Modell.

— Michael R. Chernick

Ich kann ihnen zum jetzigen Zeitpunkt nicht sagen, sie sollen eine inverse Regression durchführen. Wenn eine Messmethode genehmigt wird, kann sie meiner Meinung nach als Referenz angesehen werden, und das Unternehmen muss belegen, dass die neue Methode im Wesentlichen die gleiche Aufgabe wie die Referenz erfüllt. Dafür denke ich, dass die Deming-Regression geeignet und zumindest für die FDA akzeptabel sein kann. Es wäre wahrscheinlich gewesen, wenn die Ausgabe von wiederholten Proben nicht aufgetaucht wäre. Dieses Problem wäre nicht aufgetreten, wenn sie unsere eine der wiederholten Proben beim Pooling belassen hätten.

— Michael R. Chernick