Stellen Sie fest, ob sich ein verteilter Prozess mit starkem Schwanz erheblich verbessert hat


12

Ich beobachte die Bearbeitungszeiten eines Prozesses vor und nach einer Änderung, um festzustellen, ob sich der Prozess durch die Änderung verbessert hat. Der Prozess hat sich verbessert, wenn die Bearbeitungszeit reduziert wird. Die Verteilung der Verarbeitungszeit ist fett begrenzt, daher ist ein Vergleich anhand des Durchschnitts nicht sinnvoll. Stattdessen möchte ich wissen, ob die Wahrscheinlichkeit, nach der Änderung eine geringere Verarbeitungszeit zu beobachten, deutlich über 50% liegt.

Sei die Zufallsvariable für die Verarbeitungszeit nach der Änderung und die vorige. Wenn signifikant über dann würde ich sagen, dass sich der Prozess verbessert hat.Y P ( X < Y ) 0,5XYP(X<Y)0.5

Jetzt habe ich Beobachtungen von und Beobachtungen von . Die beobachtete Wahrscheinlichkeit von ist .x i x m y j ynxiXmyjYp = 1P(X<Y)p^=1nmij1xi<yj

Was kann ich angesichts der Beobachtungen und über ?x i y jP(X<Y)xiyj

Antworten:


12

Ihre Schätzung entspricht der Mann-Whitney- Statistik geteilt durch (danke, Glen!) Und entspricht daher der Wilcoxon-Rang-Summen-Statistik (auch bekannt als Wilcoxon-Mann-Whitney-Statistik). : , wobei die Stichprobengröße von (unter der Annahme, dass keine Bindungen bestehen). Sie können daher Tabellen / Software des Wilcoxon-Tests verwenden und sie zurück in transformieren um ein Konfidenzintervall oder einen Wert zu erhalten.p^UmnWW=U+n(n+1)2nyUp

Sei die Stichprobengröße von , = . Dann, asymptotisch,mxNm+n

W=Wm(N+1)2mn(N+1)12N(0,1)

Quelle: Hollander und Wolfe , Nichtparametrische statistische Methoden, grob p. 117, aber wahrscheinlich bringen Sie die meisten nichtparametrischen Statistikbücher dorthin.


@ Glen_b - danke, ich habe die Antwort aktualisiert. Sehr großzügige Vermutung, dass Sie sich dort über die Ursache des Fehlers geäußert haben!
Jbowman

13

@jbowman bietet eine (nette) Standardlösung für das Problem der Schätzung von das als Spannungsstärkemodell bezeichnet wird .θ=P(X<Y)

Eine weitere nichtparametrische Alternative wurde in Baklizi und Eidous (2006) für den Fall vorgeschlagen, dass und unabhängig sind. Dies wird weiter unten beschrieben.YXY

Per Definition haben wir das

θ=P(X<Y)=FX(y)fY(y)dy,

wo ist der CDF von und ist die Dichte des . Dann wird unter Verwendung der Proben von und können wir erhalten Kernschätzern von und und folglich und Schätzer von X f Y Y X Y F XFXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

Dies wird im folgenden R-Code unter Verwendung eines Gaußschen Kernels implementiert.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Um ein Konfidenzintervall für , können Sie ein Bootstrap- Beispiel dieses Schätzers wie folgt erhalten.θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Andere Arten von Bootstrap-Intervallen könnten ebenfalls in Betracht gezogen werden.


2
Interessant und eine gute Papierreferenz (+1). Ich werde es meinem Repertoire hinzufügen!
Jbowman

0

Betrachten Sie den paarigen Unterschied , dann für sind iid Bernoulli - Zufallsvariablen. So ist die Zahl von ist binomische . Dann ist eine unvoreingenommene Schätzung der Wahrscheinlichkeits- und Konfidenzintervalle, und Hypothesentests können auf der Grundlage des Binomials durchgeführt werden.XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n


2
Was ist die Basis der Paarung, Michael?
whuber

Das OP sagte: "Sei X die Zufallsvariable für die Verarbeitungszeit nach der Änderung und Y die vor" Also ist Xi nach dem Eingriff und Yi ist vor.
Michael R. Chernick

Haben Sie bemerkt, dass die Zählungen (möglicherweise) unterschiedlich sind? Sie scheinen anzunehmen . Ich lese, dass ein "Prozess" zeitlich ist und dass das X i es vor einem Ereignis und das es nach einem Ereignis . m=nXiYj
Whuber

1
Du hast recht. Ich denke, ein Test mit zwei Stichproben wie der von jbowman oben vorgeschlagene Wilcoxon wäre angemessen. Interessanterweise zählt die Mann-Whitney-Form des Tests die Anzahl der Xis <Yjs.
Michael R. Chernick
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.