Nun, wenn Sie die Varianzen in der ungepaarten und in der gepaarten (die im Allgemeinen viel kleiner wären) kannten, bestünden die optimalen Gewichte für die beiden Schätzungen der Differenz in Gruppen darin, Gewichte zu haben, die umgekehrt proportional zur Varianz des Individuums sind Schätzungen der Mittelwertdifferenz.
[Bearbeiten: Es stellt sich heraus, dass die geschätzten Abweichungen als Graybill-Deal-Schätzer bezeichnet werden. Es gab ziemlich viele Zeitungen darüber. Hier ist einer]
Die Notwendigkeit, die Varianz zu schätzen, verursacht einige Schwierigkeiten (das resultierende Verhältnis der Varianzschätzungen ist F, und ich denke, die resultierenden Gewichte haben eine Beta-Verteilung, und eine resultierende Statistik ist etwas kompliziert), aber da Sie über ein Bootstrapping nachdenken, kann dies sein weniger besorgniserregend.
Eine alternative Möglichkeit, die in gewissem Sinne netter sein könnte (oder zumindest ein wenig robuster gegenüber Nicht-Normalität ist, da wir mit Varianzverhältnissen spielen) und im Normalfall nur einen sehr geringen Effizienzverlust aufweist, besteht darin, eine kombinierte Schätzung der Verschiebung zugrunde zu legen gepaarte und ungepaarte Rangprüfungen - jeweils eine Art Hodges-Lehmann-Schätzung, im ungepaarten Fall auf Basis von Medianen paarweiser Stichprobendifferenzen und im gepaarten Fall aus Medianen paarweiser Mittelwerte von Paardifferenzen. Wiederum würde die minimale varianzgewichtete lineare Kombination der beiden mit Gewichten proportional zu Inversen von Varianzen sein. In diesem Fall würde ich mich wahrscheinlich eher auf eine Permutation (/ Randomisierung) als auf einen Bootstrap stützen - aber je nachdem, wie Sie Ihren Bootstrap implementieren, können sie am selben Ort enden.
In beiden Fällen möchten Sie möglicherweise Ihre Varianzen stabilisieren / Ihr Varianzverhältnis verringern. Für das Gewicht in den richtigen Ballpark zu kommen, ist gut, aber Sie verlieren im Normalfall nur sehr wenig Effizienz, wenn Sie es leicht robust machen. ---
Einige zusätzliche Gedanken, die ich vorher nicht klar genug im Kopf hatte:
Dieses Problem hat deutliche Ähnlichkeiten mit dem Behrens-Fisher-Problem, ist jedoch noch schwieriger.
Wenn wir die Gewichte festlegten , konnten wir einfach eine Welch-Satterthwaite-Typ-Annäherung treffen; Die Struktur des Problems ist die gleiche.
Unser Problem ist, dass wir die Gewichte optimieren möchten, was effektiv bedeutet, dass die Gewichtung nicht festgelegt ist - und in der Tat dazu tendiert, die Statistik zu maximieren (zumindest näherungsweise und näherungsweise bei großen Stichproben, da jeder Satz von Gewichten eine zufällige Größe ist, die dieselbe schätzt Zähler, und wir versuchen, den Nenner zu minimieren (die beiden sind nicht unabhängig).
Dies würde, wie ich vermute, die Chi-Quadrat-Approximation verschlechtern und würde die df einer Approximation mit ziemlicher Sicherheit noch weiter beeinflussen.
[Wenn dieses Problem machbar ist, da gerade auch könnte sein , eine gute Faustregel gilt : entpuppen , die Sie auch fast sagen würden‘tun können , wenn Sie nur die gepaarten Daten unter diesen Sätzen von Umständen verwendet wird , nur das ungepaarte unter diesen anderen Gruppen von Bedingungen und im Übrigen ist dieses feste Gewichtsschema normalerweise sehr nahe am Optimum - aber ich werde nicht den Atem anhalten und auf diese Chance warten. Eine solche Entscheidungsregel hätte in jedem Fall zweifellos einen gewissen Einfluss auf die wahre Bedeutung, aber wenn dieser Effekt nicht so groß wäre, würde eine solche Faustregel den Menschen eine einfache Möglichkeit bieten, vorhandene Legacy-Software zu verwenden, so dass dies wünschenswert sein könnte Versuchen Sie, eine solche Regel für Benutzer in einer solchen Situation zu identifizieren.]
---
Bearbeiten: Hinweis für sich selbst - Sie müssen zurückkehren und Details der Arbeit an 'überlappenden Stichproben'-Tests eingeben, insbesondere an T-Tests mit überlappenden Stichproben
---
Mir fällt ein, dass ein Randomisierungstest in Ordnung sein sollte -
Wo die Daten gepaart werden, verteilen Sie die Gruppenbezeichnungen zufällig in Paaren
Wenn die Daten ungepaart sind, aber eine gemeinsame Verteilung haben (unter der Null), lassen Sie die Gruppenzuweisungen zu
Sie können nun die beiden Verschiebungsschätzungen anhand der relativen Varianzschätzungen ( ) gewichten, die gewichtete Verschiebungsschätzung jeder randomisierten Stichprobe berechnen und sehen, wo die Stichprobe in die passt Randomisierungsverteilung.w1=1/(1+v1v2)
(Viel später hinzugefügt)
Möglicherweise relevantes Papier:
Derrick, B., Russ B., Toher, D. und White, P. (2017),
"Test Statistics for the Comparison of Means für zwei Proben, die sowohl gepaarte als auch unabhängige Beobachtungen enthalten"
Journal of Modern Applied Statistical Methods , May Vol. 16, Nr. 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm