Ich wurde kürzlich von einem Kunden zu einer Bootstrap-Analyse eingeladen, da ein FDA-Gutachter sagte, dass die Regression der Fehler in Variablen ungültig sei, da beim Poolen von Daten von Sites die Analyse das Poolen von Daten von drei Sites beinhaltete, an denen zwei Sites einige Proben enthielten das Gleiche.
HINTERGRUND
Der Kunde hatte eine neue Untersuchungsmethode, von der er nachweisen wollte, dass sie einer vorhandenen genehmigten Methode "äquivalent" ist. Ihr Ansatz bestand darin, die Ergebnisse beider Methoden zu vergleichen, die auf die gleichen Proben angewendet wurden. Drei Stellen wurden verwendet, um die Tests durchzuführen. Variablenfehler (Deming-Regression) wurden auf die Daten an jedem Standort angewendet. Die Idee ist, dass, wenn die Regression zeigte, dass der Steigungsparameter nahe 1 und der Achsenabschnitt nahe 0 ist, dies zeigt, dass die beiden Testtechniken nahezu dieselben Ergebnisse lieferten und daher die neue Methode genehmigt werden sollte. An Ort 1 hatten sie 45 Proben, die 45 Beobachtungen mit Paaren ergaben. Stelle 2 hatte 40 Proben und Stelle 3 43 Proben. Sie führten drei separate Deming-Regressionen durch (unter der Annahme eines Verhältnisses von 1 für die Messfehler für die beiden Methoden). Der Algorithmus minimierte also die Summe der quadrierten senkrechten Abstände.
In ihrer Stellungnahme wies der Kunde darauf hin, dass einige der an den Standorten 1 und 2 verwendeten Proben gleich waren. In der Überprüfung sagte der FDA-Prüfer, dass die Deming-Regression ungültig sei, da gemeinsame Stichproben verwendet wurden, die eine "Interferenz" verursachen, die die Annahmen des Modells ungültig macht. Sie forderten, dass eine Bootstrap-Anpassung auf die Deming-Ergebnisse angewendet wird, um diese Störung zu berücksichtigen.
Zu diesem Zeitpunkt wusste der Kunde nicht, wie ich den Bootstrap machen sollte. Der Begriff Interferenz war seltsam und ich war mir nicht sicher, worauf der Rezensent hinauslief. Ich nahm an, dass der Punkt wirklich war, dass, weil die gepoolten Daten gemeinsame Stichproben hatten, eine Korrelation für die gemeinsamen Stichproben bestehen würde und daher die Modellfehlerterme nicht alle unabhängig wären.
DIE ANALYSE DES KUNDEN
Die drei getrennten Regressionen waren sehr ähnlich. Jeder hatte Steigungsparameter nahe 1 und Abschnitte nahe 0. Das 95% -Konfidenzintervall enthielt jeweils 1 und 0 für die Steigung und den Abschnitt. Der Hauptunterschied war eine geringfügig höhere Restvarianz an Stelle 3. Darüber hinaus verglichen sie diese mit den Ergebnissen aus der Durchführung von OLS und stellten fest, dass sie sehr ähnlich waren (in nur einem Fall enthielt das Konfidenzintervall für die auf OLS basierende Steigung nicht 1). In dem Fall, in dem das OLS-CI für die Steigung nicht 1 enthielt, betrug die Obergrenze des Intervalls etwa 0,99.
Da die Ergebnisse an allen drei Standorten so ähnlich waren, schien es vernünftig, die Standortdaten zu bündeln. Der Kunde führte eine gepoolte Deming-Regression durch, die ebenfalls zu ähnlichen Ergebnissen führte. Angesichts dieser Ergebnisse habe ich einen Bericht für den Kunden verfasst, in dem die Behauptung bestritten wurde, die Regressionen seien ungültig. Mein Argument ist, dass der Kunde zu Recht die Deming-Regression verwendet, um Übereinstimmung / Nichtübereinstimmung zu zeigen, da beide Variablen ähnliche Messfehler aufweisen. Die einzelnen Standortregressionen hatten keine Probleme mit korrelierten Fehlern, da innerhalb eines bestimmten Standorts keine Stichproben wiederholt wurden. Zusammenführen von Daten, um engere Konfidenzintervalle zu erhalten.
Diese Schwierigkeit könnte behoben werden, indem einfach die Daten mit den gemeinsamen Stichproben von Standort 1 zusammengefasst werden, die weggelassen wurden. Auch die drei einzelnen Standortmodelle haben das Problem nicht und sind gültig. Dies scheint mir ein starker Beleg für die Übereinstimmung zu sein, auch ohne die Bündelung. Darüber hinaus wurden die Messungen an den Standorten 1 und 2 für die gemeinsamen Standorte unabhängig voneinander durchgeführt. Ich denke also, dass sogar die gepoolte Analyse unter Verwendung aller Daten gültig ist, da die Messfehler für eine Stichprobe an Standort 1 nicht mit den Messfehlern in der entsprechenden Stichprobe an Standort 2 korreliert sind. Dies läuft darauf hinaus, einen Punkt im Entwurf zu wiederholen Platz, der kein Problem sein sollte. Es entsteht keine Korrelation / "Interferenz".
In meinem Bericht schrieb ich, dass eine Bootstrap-Analyse unnötig sei, da keine Korrelation zu korrigieren sei. Die drei Standortmodelle waren gültig (keine mögliche "Interferenz" innerhalb der Standorte) und eine gepoolte Analyse konnte durchgeführt werden, indem die gemeinsamen Proben an Standort 1 entfernt wurden, wenn das Pooling durchgeführt wurde. Eine solche gepoolte Analyse könnte kein Interferenzproblem haben. Eine Bootstrap-Anpassung wäre nicht erforderlich, da keine Vorspannung zum Anpassen besteht.
FAZIT
Der Kunde stimmte meiner Analyse zu, hatte jedoch Angst, sie an die FDA weiterzuleiten. Sie wollen, dass ich die Bootstrap-Anpassung trotzdem mache.
MEINE FRAGEN
A) Stimmen Sie zu (1) meiner Analyse der Ergebnisse des Kunden und (2) meinem Argument, dass der Bootstrap nicht erforderlich ist.
B) Gibt es, da ich die Deming-Regression booten muss, Verfahren SAS oder R, die mir zur Verfügung stehen, um die Deming-Regression für die Bootstrap-Beispiele durchzuführen?
EDIT: Angesichts des Vorschlags von Bill Huber plane ich, Grenzen für die Regression von Fehlern in Variablen nach Regression sowohl für y für x als auch für x für y zu untersuchen. Wir wissen bereits, dass für eine Version von OLS die Antwort im Wesentlichen mit Fehlern in Variablen identisch ist, wenn die beiden Fehlervarianzen als gleich angenommen werden. Wenn dies für die andere Regression zutrifft, dann zeigt sich meiner Meinung nach, dass die Deming-Regression eine geeignete Lösung bietet. Sind Sie einverstanden?
Um die Anfrage des Kunden zu erfüllen, muss ich die angeforderte Bootstrap-Analyse durchführen, die vage definiert wurde. Aus ethischen Gründen halte ich es für falsch, nur den Bootstrap bereitzustellen, da dies das eigentliche Problem des Kunden nicht wirklich löst, nämlich die Rechtfertigung seines Assay-Messverfahrens. Deshalb werde ich ihnen beide Analysen geben und sie bitten, der FDA zumindest mitzuteilen, dass ich zusätzlich zur Durchführung des Bootstraps eine inverse Regression durchgeführt und die Deming-Regressionen begrenzt habe, die ich für angemessener halte. Ich denke auch, dass die Analyse zeigen wird, dass ihre Methode der Referenz entspricht und die Deming-Regression daher auch angemessen ist.
Ich habe vor, das R-Programm zu verwenden, das @whuber in seiner Antwort vorgeschlagen hat, damit ich die Deming-Regression booten kann. Ich bin nicht sehr vertraut mit R, aber ich denke, ich kann es tun. Ich habe R zusammen mit R Studio installiert. Wird das für einen Anfänger wie mich einfach genug sein?
Auch ich habe SAS und bin komfortabler in SAS programmieren. Wenn also jemand einen Weg kennt, dies in SAS zu tun, würde ich es begrüßen, darüber Bescheid zu wissen.