Untergrenze zum Testen der Nähe in der


11

Ich habe mich gefragt, ob für das folgende Problem eine Untergrenze (in Bezug auf die Komplexität der Stichproben) bekannt ist:

Bei Beispiel-Orakelzugriff auf zwei unbekannte Verteilungen D1 , D2 auf {1,,n} testen Sie (whp), ob

  • D1=D2
  • oder d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] zeigte, dass O(1ϵ4)Proben waren ausreichend, aber ich habe keine Erwähnung einer Untergrenze gefunden?

Ich denke, man könnte immer ein Ω(1ϵ2)Untergrenze durch Reduzieren der Aufgabe der Unterscheidung einer fairen vs.ϵvoreingenommenen Münze auf dieses Problem (Simulation einer Verteilung, die nur auf zwei Punkten unterstützt wird, und Beantwortung der Fragen des Testers gemäß den iid-Münzwürfen), aber das immer noch hinterlässt eine quadratische Lücke ...

(Ein weiterer Punkt, an dem ich interessiert wäre, ist eine Untergrenze bei der Schätzung (bis zu einem Additiv ϵ ) dieser L2 -Distanz - auch hier habe ich in der Literatur keinen Hinweis auf ein solches Ergebnis gefunden.)

Danke für Ihre Hilfe,


Dieses Versprechungsproblem scheint dem von Sahai und Vadhan als statistischer Unterschied bezeichneten Problem sehr ähnlich zu sein , das ein vollständiges Problem für die Klasse SZK (statistisches Nullwissen) darstellt. Sie verwenden jedoch den Abstand . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Bearbeiten: auch ich denke, sie gehen davon aus, dass Sie eine Schaltung haben, die die Verteilungen berechnet, nicht Orakelzugriff.)L1
Usul

Hallo zusammen , wie in einem anderen Kommentar erwähnt, ist die Differenz zwischen und L 1 Norm ist tatsächlich entscheidend hier - weiter, in ther Papier, sie gründen eine explizite (und nicht frei wählbar) Schwelle τ = 1 / 3 (in einer der Ausführungen erklären sie, dass dieser Schwellenwert eine bestimmte Einschränkung erfüllen muss); und möchten d 1τ gegen d 21 - τ unterscheiden (was irgendwie näher an toleranten Tests / Abstandsschätzungen liegt als "übliche Tests", bei denen Sie d 2 = 0 gegen d testen möchtenL2L1τ=1/3d1τd21τd2=0 (aber fürjedesfeste ϵ )). d2ϵϵ
Clement C.

Antworten:


6

Es scheint, dass -Proben - wie unten gezeigt - zum Testen ausreichen, so dass die Probenkomplexität genau Θ ( 1 / ϵ 2 ) beträgt ; tatsächlich stellt sich diese Anzahl von Proben aus uns selbst genug für das Lernen D ein Additiv bis ε wrt der L 2 Norm.O(1/ϵ2)Θ(1/ϵ2) DϵL2


Lassen D die empirische Dichtefunktion durch Ziehen erhalten werden m iid Proben s 1 , ... , s m ~ D und Einstellen D ( k )D^ms1,,smD Dann D - D2 2

D^(k)=def1m=1m1{s=k},k[n]
wobeiXk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
. DieXk‚s (fürk[n]) sind nicht unabhängig, aber wir schreiben ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xkk[n] so dass fürm3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
, ED - D 2 2ε2m3ϵ2 und Markov-Ungleichung Anwendung P{D - D2& egr;}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Ich bezog mich auf Usuls Antwort, beginnend mit "Ich werde versuchen, meinen vorherigen Fehler zu büßen, indem ich etwas Gegenteiliges [...] zeige" - was tatsächlich über diesem liegt. Ich habe das nicht erwartet :)) Was das Lernen betrifft obere gebunden ist , kann es , dass die meisten naiver Algorithmus gezeigt werden (dh, derjenige ist, zieht Proben und gibt die empirische Dichte Bestimmt) ergibt eine Verteilung D , die mit einer konstanten Wahrscheinlichkeit , ϵ -nah zu D in L 2 Abstand. m=O(1/ϵ2)D^ϵDL2
Clement C.

@ DW Ich habe gerade meine Antwort bearbeitet.
Clement C.

3

Ich werde für meine früheren Fehler zu büßen versuchen , durch etwas gegenüber zeigt - , dass Proben sind ausreichend (die Untergrenze von1/ϵ2ist fast eng)! Sehen Sie, was Sie denken ...Θ~(1ϵ2)1/ϵ2

Die Schlüsselintuition geht von zwei Beobachtungen aus. Erstens müssen Verteilungen mit hoher Wahrscheinlichkeit ( Ω ( ϵ 2 ) ) vorhanden sein , damit Verteilungen einen -Abstand von ϵ haben . Wenn wir zum Beispiel 1 / ϵ 3 Wahrscheinlichkeitspunkte ϵ 3 hätten , hätten wir D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3.D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Zweitens betrachten wir Gleichverteilungen mit einem -Distanz von ϵ . Wenn wir O ( 1 ) Wahrscheinlichkeitspunkte O ( 1 ) hätten , würden sie sich jeweils um O ( ϵ ) unterscheiden und 1 / ϵ 2 Stichproben würden ausreichen. Wenn wir dagegen O ( 1 / ϵ 2 ) Punkte hätten, müssten sie sich jeweils um O ( ϵ 2 ) und erneut um O ( 1 /) unterscheidenL2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2) Stichproben (eine konstante Anzahl pro Punkt) reichen aus. Wir können also hoffen, dass es unter den zuvor erwähnten Punkten mit hoher Wahrscheinlichkeit immer einen Punkt gibt, der sich "genug" unterscheidet, dass O ( 1 / ϵ 2 ) ihn zeichnet.O(1/ϵ2)O(1/ϵ2)

Algorithmus. Bei und einem Konfidenzparameter M sei X = M log ( 1 / ϵ 2 ) . Zeichne X.ϵMX=Mlog(1/ϵ2) Proben aus jeder Verteilung. Seiai,bidie jeweils höhere, niedrigere Anzahl von Abtastwerten für Punkti. Wenn es einen Punkti[n] gibt,für denaiX istXϵ2ai,biii[n] undai-biaiX8 , deklarieren Sie die Verteilungen unterschiedlich. Andernfalls deklarieren Sie sie gleich.aibiaiX4

Die Korrektheits- und Konfidenzgrenzen ( ) hängen vom folgenden Lemma ab, das besagt, dass die gesamte Abweichung in der L 2 -Distanz von Punkten stammt, deren Wahrscheinlichkeiten sich um Ω ( ϵ 2 ) unterscheiden .1eΩ(M)L2Ω(ϵ2)

Anspruch. Angenommen, . Sei δ i = | D 1 ( i ) - D 2 ( i ) | . Sei S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|. Dann ist i S k δ 2 iϵ2(1-2)Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Beweis . Wir haben Lassen Sie uns die zweite Summe binden; wir wollen i S k δ 2 i maximieren, vorbehaltlich i S k δ i2 . Da die Funktion x x 2 streng konvex ist und zunimmt, können wir das Ziel erhöhen, indem wir ein beliebiges δ nehmen

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2 und Erhöhen von δ i um γ, während δ j um γ verringertwird. Somit wird das Ziel mit so vielen Termen wie möglich bei ihren Maximalwerten und der Rest bei 0 maximiert. Der Maximalwert jedes Terms ist ϵ 2δiδjδiγδjγ0 , und es gibt höchstens2kϵ2k Terme dieses Wertes (da sie höchstens2 ergeben). Also iSkδ 2 i2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Anspruch . Sei . Wenn D 1 - D 2 2ϵ ist , existiert mindestens ein Punkt i [ n ] mit p i > ϵ 2pi=max{D1(i),D2(i)}D1D22ϵi[n] undδiϵpi>ϵ24 .δiϵpi2

Skpiδi>ϵ2kSkk>2

ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

D1=D2eΩ(M)

pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

D1D22ϵϵ2eΩ(M)

ipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2

ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

i#samples(1)X4

Mi#samplesmean


2/3MMXΘ(log1ϵ)

@ClementC. Entschuldigung, ich war nicht sehr klar! Die Behauptung ist, wenn wir ziehen1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))

OK, das habe ich gesammelt. Ich werde den Beweis in diesem Sinne durchgehen - nochmals vielen Dank für die Zeit, die Sie dafür aufgewendet haben!
Clement C.

1

n=2Θ(1/ϵ2)

L2L1

  • D1D2

  • D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • ||D1nD2n||2||D1nD2n||1

Ich weiß nicht, ob dies irgendwohin führen wird oder nicht; Es ist nur eine Idee. Wahrscheinlich haben die Autoren des von Ihnen zitierten Papiers so etwas bereits versucht oder in Betracht gezogen.

Möglicherweise hilfreiche Referenzen:


nL2L1nnL1L1Θ(n2/3/poly(ϵ))

0

EDIT: das ist falsch! Siehe die Diskussion in den Kommentaren - ich werde auf den Fehler unten hinweisen.

1ϵ4

n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Ich denke auch, dass das gleiche Argument besagt, dass , wenn wir an interessiert sindLpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnn1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


D2±1/ϵ2±ϵ2

1
D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2

n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2

1
O(1/ϵ2)m=106nD11000D210001000D1D2, weil die Differenz zwischen 1.000.000 und 1.100.000 100 Standardabweichungen beträgt, dh riesig.
DW

1/ϵ2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.