Es könnte hilfreich sein, einen etwas besseren Überblick über MMD zu geben.
Im Allgemeinen wird MMD durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen . Das heißt, sagen wir haben Verteilungen und über einen Satz . Die MMD wird durch eine Feature-Map , wobei ein sogenannter Hilbert-Raum für den reproduzierenden Kernel ist. Im Allgemeinen ist die MMD
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Als ein Beispiel könnten wir und . In diesem Fall:
sodass diese MMD nur der Abstand zwischen den Mitteln der beiden Verteilungen ist. Übereinstimmende Verteilungen wie diese stimmen mit ihren Mitteln überein, obwohl sie sich in ihrer Varianz oder auf andere Weise unterscheiden können.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Ihr Fall ist etwas anders: Wir haben und mit , wobei eine Matrix ist. Wir haben also
Diese MMD ist die Differenz zwischen zwei verschiedenen Projektionen des Mittelwerts. Wenn oder die Abbildung sonst nicht invertierbar ist,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ als die vorherige: Es unterscheidet nicht zwischen einigen Distributionen, die die vorherige tut.
Sie können auch größere Entfernungen konstruieren. Wenn Sie beispielsweise und , wird die MMD zu und kann nicht nur Verteilungen mit unterschiedlichen Mitteln, sondern auch mit unterschiedlichen Varianzen unterscheiden.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Und Sie können viel stärker werden: Wenn einem allgemeinen reproduzierenden Kernel-Hilbert-Raum zugeordnet ist, können Sie den Kernel-Trick anwenden , um die MMD zu berechnen, und es stellt sich heraus, dass viele Kernel, einschließlich des Gaußschen Kernels, zur MMD führen Null sein, wenn und nur die Verteilungen identisch sind.φ
Wenn Sie , erhalten Sie
das Sie mit Stichproben direkt schätzen können.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Update: Hier kommt das "Maximum" im Namen her.
Die Feature-Map wird in einen reproduzierenden Kernel-Hilbert-Raum abgebildet. Dies sind Funktionsräume , die eine Schlüsseleigenschaft erfüllen (die als Wiedergabeeigenschaft bezeichnet wird ): für jedes .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
Im einfachsten Beispiel, mit , betrachten wir jedes als die Funktion, die einigen , durch . Dann sollte die Wiedergabeeigenschaft sinnvoll sein.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
In komplexeren Einstellungen wie einem Gaußschen Kernel ist eine viel kompliziertere Funktion, aber die Wiedergabeeigenschaft bleibt bestehen.f
Nun können wir eine alternative Charakterisierung der MMD geben:
Die zweite Zeile ist eine allgemeine Tatsache über Normen in Hilbert-Räumen:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ wird durch . Die vierte hängt von einer technischen Bedingung ab, die als Bochner-Integrierbarkeit bekannt ist, gilt jedoch z. B. für begrenzte Kernel oder Distributionen mit begrenzter Unterstützung. Am Ende verwenden wir dann die Wiedergabeeigenschaft.f=g/∥g∥
Diese letzte Zeile wird als "maximale mittlere Diskrepanz" bezeichnet - es ist das Maximum der mittleren Differenz zwischen den beiden Verteilungen über Testfunktionen in der Einheitskugel von .fH