Wie ändert sich die Kosinusähnlichkeit nach einer linearen Transformation?

9

Gibt es eine mathematische Beziehung zwischen:

die Kosinusähnlichkeit $\operatorname{sim}(A, B)$ zweier Vektoren $A$ und $B$ und
die Kosinusähnlichkeit $\operatorname{sim}(MA, MB)$ von $A$ und $B$ , ungleichmäßig skaliert über eine gegebene Matrix $M$ ? Hier ist $M$ eine gegebene Diagonalmatrix mit ungleichen Elementen auf der Diagonale.

Ich habe versucht, die Berechnungen durchzugehen, konnte aber keinen einfachen / interessanten Link (Ausdruck) erreichen. Ich frage mich, ob es einen gibt.

ZB bleiben die Winkel bei ungleichmäßiger Skalierung nicht erhalten, aber wie ist die Beziehung zwischen den ursprünglichen Winkeln und denen nach der ungleichmäßigen Skalierung? Was kann über die Verbindung zwischen einem Satz von Vektoren S1 und einem anderen Satz von Vektoren S2 gesagt werden - wobei S2 durch ungleichmäßige Skalierung von S1 erhalten wird?

linear-algebra cosine-similarity

— Turdus-Merula
quelle

@whuber, danke! Ja, M ist eine gegebene Matrix (eine Skalierungsmatrix - also eine Diagonalmatrix, keine anderen Einschränkungen). In gewissem Sinne wollte ich wissen, was (in Bezug auf die Kosinusähnlichkeit für jedes Vektorpaar) mit einem Vektorraum passiert, der eine nichtlineare Skalierung aufweist.

— Turdus-Merula

2

Es könnte erwähnenswert sein, dass, wenn alle Skalierungsfaktoren nicht negativ sind (wie man natürlich annehmen würde), alle symmetrischen positiv-definitiven Matrizen als "skalierende" Matrizen betrachtet werden können. Die gesuchte Beziehung wird unter anderem bei der Untersuchung und Beschreibung von Verzerrungen in Kartenprojektionen häufig verwendet. Dort konzentriert sich das Interesse auf die maximalen und minimalen Winkel auf der Erdoberfläche, die mit zwei senkrechten Richtungen auf der Karte verbunden wären . Es gibt eine direkte Beziehung zwischen diesen Winkeln und den Verhältnissen der beiden Skalierungsfaktoren.

— whuber

8

Da ziemlich allgemein ist und die Änderung der Kosinusähnlichkeit von und und ihrer Beziehung zu abhängt , ist keine bestimmte Formel möglich. Es gibt jedoch praktisch berechenbare Grenzen dafür, wie stark sich die Kosinusähnlichkeit ändern kann . Sie können durch Extremisieren des Winkels zwischen und gefunden werden, vorausgesetzt, die Kosinusähnlichkeit zwischen und ist ein spezifizierter Wert, beispielsweise (wobei der Winkel zwischen und ist $M$ $A$ $B$ $M$ $MA$ $MB$ $A$ $B$ $\cos(2\phi)$ $2\phi$ $A$ ). Die Antwort sagt uns, um wie viel ein Winkel möglicherweise durch die Transformation gebogen werden kann. $B$ $2\phi$ $M$

Die Berechnungen drohen chaotisch zu sein. Einige clevere Notationsoptionen sowie einige vorläufige Vereinfachungen reduzieren den Aufwand. Es stellt sich heraus, dass die Lösung in zwei Dimensionen alles enthüllt, was wir wissen müssen. Dies ist ein nachvollziehbares Problem, das nur von einer reellen Variablen abhängt und mit Hilfe von Kalkültechniken leicht gelöst werden kann. Ein einfaches geometrisches Argument erweitert diese Lösung auf eine beliebige Anzahl von Dimensionen . $\theta$ $n$

Mathematische Vorbereitungen

Per Definition wird der Kosinus des Winkels zwischen zwei beliebigen Vektoren und erhalten, indem sie auf Längeneinheit normalisiert und ihr Produkt genommen werden. Somit, $A$ $B$

\frac{A^{'} B}{\sqrt{(A^{'} A) (B^{'} B)}} = \cos (2 ϕ)

$\frac{A^\prime B}{\sqrt{(A^\prime A)\, (B^\prime B)}} = \cos(2\phi)$

und Schreiben , den Cosinus des Winkels zwischen den Bildern und unter der Transformation ist $\Sigma = M^\prime M$ $A$ $B$ $M$

\begin{matrix} (1) & \frac{(M A)^{'} (M B)}{\sqrt{((M A)^{'} (M A)) ((M B)^{'} (M B))}} = \frac{A^{'} Σ B}{\sqrt{(A^{'} Σ A) (B^{'} Σ B)}} . \end{matrix}

$\frac{(MA)^\prime (MB)}{\sqrt{((MA)^\prime (MA))\, ((MB)^\prime (MB))}} = \frac{A^\prime \Sigma B}{\sqrt{(A^\prime \Sigma A) (B^\prime \Sigma B)}}.\tag{1}$

Beachten Sie, dass in der Analyse nur ist, $\Sigma$ nicht selbst. Wir können daher die Singular Value Decomposition (SVD) von , um das Problem zu vereinfachen. Es sei daran erinnert, dass dies als Produkt (von rechts nach links) einer orthogonalen Matrix , einer diagonalen Matrix und einer anderen orthogonalen Matrix ausdrückt : $M$ $M$ $M$ $V^\prime$ $D$ $U$

M = U D V^{'} .

$M = U\,D\,V^\prime.$

Mit anderen Worten, es gibt eine Basis von privilegierten Vektoren (die Spalten von ) , auf dem wirkt , indem jede Neuskalierung separat von der diagonalen Eintrag von (was ich nenne ) und anschließend Anwenden einer Drehung (oder einer Antirotation) auf das Ergebnis. Diese endgültige Drehung ändert keine Längen oder Winkel und sollte daher nicht beeinflussen . Sie können dies formal mit der Berechnung sehen $e_1, \ldots, e_n$ $V$ $M$ $e_i$ $i^\text{th}$ $D$ $d_i$ $U$ $\Sigma$

Σ = M^{'} M = (U D V^{'})^{'} (U D V^{'}) = V D (U^{'} U) D V^{'} = V D^{2} V^{'} .

$\Sigma = M^\prime M = (U D V^\prime)^\prime (U D V^\prime) = V D (U^\prime U) D V^\prime = V D^2 V^\prime.$

Um zu studieren , können wir frei durch jede andere Matrix ersetzen , die die gleichen Werte in . Durch die Bestellung von , so dass die in der Größe abnehmen (und unter der Annahme nicht gleich Null ist), eine schöne Auswahl an ist $\Sigma$ $M$ $(1)$ $e_i$ $d_i$ $M$ $M$

M = \frac{1}{d_{1}} D V^{'} .

$M = \frac{1}{{d_1}} D V^\prime.$

Die diagonalen Elemente von sind $(1/{d_1})D$

1 = d_{1} / d_{1} \geq λ_{2} = d_{2} / d_{1} \geq λ_{3} = d_{3} / d_{1} \geq \dots \geq λ_{n} = d_{n} / d_{1} \geq 0.

$1 = d_1/d_1 \ge \lambda_2 = d_2/{d_1} \ge \lambda_3 = d_3/{d_1} \ge \cdots \ge \lambda_n = d_n/{d_1} \ge 0.$

Insbesondere wird die Wirkung von (ob in seiner ursprünglichen oder geänderten Form) auf alle Winkel vollständig durch die Tatsache bestimmt, dass $M$

M e_{i} = λ_{i} e_{i} .

$M e_i = \lambda_i e_i.$

Analyse eines Sonderfalls

Sei . Da das Ändern der Länge von Vektoren den Winkel zwischen ihnen nicht ändert, können wir annehmen, dass und Einheitsvektoren sind. In der Ebene können alle diese Vektoren durch den Winkel bezeichnet werden, den sie mit , so dass wir schreiben können $n=2$ $A$ $B$ $e_1$

A = \cos (θ - ϕ) e_{1} + \sin (θ - ϕ) e_{2} .

$A = \cos(\theta-\phi)e_1 + \sin(\theta-\phi)e_2.$

Deshalb

B = \cos (θ + ϕ) e_{1} + \sin (θ + ϕ) e_{2} .

$B = \cos(\theta+\phi)e_1 + \sin(\theta+\phi)e_2.$

(Siehe Abbildung unten.)

Das Anwenden von ist einfach: Es legt die ersten Koordinaten von und und multipliziert ihre zweiten Koordinaten mit . Daher ist der Winkel von bis ist $M$ $A$ $B$ $\lambda_2$ $MA$ $MB$

f (θ) = \arctan (λ_{2} \tan (θ + ϕ)) - \arctan (λ_{2} \tan (θ - ϕ)) .

$f(\theta) = \arctan(\lambda_2 \tan(\theta+\phi)) - \arctan(\lambda_2 \tan(\theta-\phi)).$

Da eine stetige Funktion ist, ist diese Winkeldifferenz eine stetige Funktion von . In der Tat ist es differenzierbar. Dies ermöglicht es uns, die extremen Winkel zu finden, indem wir die Nullen der Ableitung . Diese Ableitung ist einfach zu berechnen: Sie ist ein Verhältnis trigonometrischer Funktionen. Die Nullen können nur unter den Nullen des Zählers auftreten. Lassen Sie uns also nicht den Nenner berechnen. Wir erhalten $M$ $\theta$ $f^\prime(\theta)$

f^{'} (θ) = \frac{λ_{2} (1 - λ_{2}) (λ_{2} + 1) \sin (2 θ) \sin (2 ϕ)}{*} .

$f^\prime(\theta) = \frac{\lambda_2(1-\lambda_2)(\lambda_2+1)\sin(2\theta)\sin(2\phi)}{*}.$

Die Sonderfälle von , und sind leicht zu verstehen: Sie entsprechen den Situationen, in denen reduzierten Rang hat (und so alle Vektoren auf eine Linie quetscht); wobei ein Vielfaches der Identitätsmatrix ist; und wo und parallel sind (woher kann sich der Winkel zwischen ihnen nicht ändern, unabhängig von ). Der Fall wird durch die Bedingung . $\lambda_2=0$ $\lambda_2=1$ $\phi=0$ $M$ $M$ $A$ $B$ $\theta$ $\lambda_2=-1$ $\lambda_2 \ge 0$

Neben diesen speziellen Fällen treten die Nullstellen nur dort , wo , das heißt, oder . Dies bedeutet, dass die durch bestimmte Linie den Winkel halbiert . Wir wissen jetzt, dass die Extremwerte des Winkels zwischen und unter den Werten von , also berechnen wir sie: $\sin(2\theta)=0$ $\theta=0$ $\theta=\pi/2$ $e_1$ $AB$ $MA$ $MB$ $f(\theta)$

\begin{aligned} f (0) & = \arctan (λ_{2} \tan (ϕ)) - \arctan (λ_{2} \tan (- ϕ)) = 2 \arctan (λ_{2} \tan (ϕ)); \\ f (π / 2) & = \arctan (λ_{2} \tan (π / 2 + ϕ)) - \arctan (λ_{2} \tan (π / 2 - ϕ)) = 2 \arctan (λ_{2} \cot (- ϕ)) . \end{aligned}

$\eqalign{ f(0) &= \arctan(\lambda_2 \tan(\phi)) - \arctan(\lambda_2 \tan(-\phi)) = 2\arctan(\lambda_2\tan(\phi)); \\ f(\pi/2) &= \arctan(\lambda_2 \tan(\pi/2+\phi)) - \arctan(\lambda_2 \tan(\pi/2-\phi)) = 2\arctan(\lambda_2\cot(-\phi)). }$

Die entsprechenden Kosinusse sind

\begin{matrix} (2) & \cos (f (0)) = \frac{1 - λ_{2}^{2} \tan (ϕ)^{2}}{1 + λ_{2}^{2} \tan (ϕ)^{2}} \end{matrix}

$\cos(f(0)) = \frac{1 - \lambda_2^2 \tan(\phi)^2}{1 + \lambda_2^2 \tan(\phi)^2}\tag{2}$

und

\begin{matrix} (3) & \cos (f (π / 2)) = \frac{1 - λ_{2}^{2} \cot (ϕ)^{2}}{1 + λ_{2}^{2} \cot (ϕ)^{2}} = \frac{\tan (ϕ)^{2} - λ_{2}^{2}}{\tan (ϕ)^{2} + λ_{2}^{2}} . \end{matrix}

$\cos(f(\pi/2)) = \frac{1 - \lambda_2^2 \cot(\phi)^2}{1 + \lambda_2^2 \cot(\phi)^2} = \frac{\tan(\phi)^2 - \lambda_2^2 }{\tan(\phi)^2 + \lambda_2^2}.\tag{3}$

Oft reicht es zu verstehen, wie rechte Winkel verzerrt. In diesem Fall ist , was zu , das Sie in die vorhergehenden Formeln einfügen können. $M$ $2\phi=\pi/2$ $\tan(\phi) = \cot(\phi) = 1$

Es ist zu beachten, dass je kleiner wird, desto extremer werden diese Winkel und desto größer ist die Verzerrung. $\lambda_2$

Diese Figur zeigt vier Konfigurationen der Vektoren und $A$ $B$ die durch einen Winkel von . Der Einheitskreis und sein elliptisches Bild unter sind als Referenz schattiert (wobei die Wirkung von gleichmäßig neu skaliert wird, um ). Die Figur Schriften zeigen den Wert von , der Mittelpunkt von und . Das nächste, was ein solches und kann, wenn es durch transformiert wird, ist eine Konfiguration wie die links mit $2\phi = \pi/3$ $M$ $M$ $\lambda_1=1$ $\theta$ $A$ $B$ $A$ $B$ $M$ . Am weitesten voneinander entfernt ist eine Konfiguration wie die rechts mit . Es werden zwei Zwischenmöglichkeiten gezeigt. $\theta=0$ $\theta=\pi/2$

Lösung für alle Dimensionen

Wir haben gesehen, wie wirkt, indem jede Dimension um einen Faktor . Dies verzerrt die Einheitskugel $M$ $i$ $\lambda_i$ in ein Ellipsoid. Das bestimmt seine Hauptachsen. Das sind die Abstände vom Ursprung entlang dieser Achsen zum Ellipsoid. Folglichdie kleinste, , ist derkürzeste Abstand(in jede Richtung) von dem Ursprung zu dem Ellipsoid und die größten, , ist dieweitesten Abstand(in jede Richtung) von dem Ursprung zu dem Ellipsoid. $\{A\,|\, A^\prime A = 1\}$ $e_i$ $\lambda_i$ $\lambda_n$ $\lambda_1$

In höheren Dimensionen sind und Teil eines zweidimensionalen Unterraums. bildet den Einheitskreis in diesem Unterraum auf den Schnittpunkt des Ellipsoids mit einer Ebene ab, die und . Dieser Schnittpunkt ist eine lineare Verzerrung eines Kreises und eine Ellipse. Offensichtlich beträgt der weiteste Abstand zu dieser Ellipse nicht mehr als und der kürzeste Abstand nicht weniger als . $n\gt 2$ $A$ $B$ $M$ $MA$ $MB$ $\lambda_1=1$ $\lambda_n$

Wie wir am Ende des vorhergehenden Abschnitts beobachtet haben, besteht die extremste Möglichkeit darin, dass und in einer Ebene liegen, die zwei der für die das Verhältnis des entsprechenden so klein wie möglich ist. Dies geschieht in der Ebene . Wir haben bereits die Lösung für diesen Fall. $A$ $B$ $e_i$ $\lambda_i$ $e_1, e_n$

Schlussfolgerungen

Die Extreme der Kosinusähnlichkeit, die durch Anwenden von auf zwei Vektoren mit Kosinusähnlichkeit werden können, sind gegeben durch $M$ $\cos(2\phi)$ und . Sie werden erreicht, indem und in gleichen Winkeln zu einer Richtung angeordnet werden, in der einen Vektor maximal verlängert (wie dieRichtung ), und sie in einer Richtung getrennt werden, in der einen Vektor minimal verlängert (wiez. B. dieRichtung ) Richtung). $(2)$ $(3)$ $A$ $B$ $\Sigma=M^\prime M$ $e_1$ $\Sigma$ $e_n$

Diese Extreme können als SVD von berechnet werden . $M$

— whuber
quelle

Das ist eine fantastische Antwort! Vielen Dank für diese ausführliche Diskussion! Ich glaube, dass Sie in Vorzeichen (3) einen Vorzeichenfehler haben, bei dem Sie nur ein Minuszeichen haben sollten.

— LFH

Ich interessiere mich für den Fall, dass der Winkel

Null geht und ich eine Ungleichung zwischen

und

möchte . Stimmt es, dass ich basierend auf Ihrer Berechnung nur das extremste (das kleinste)

und in diesem Fall ist die asymptotische Ungleichung gegeben durch

2 ϕ

$2\phi$

2 ϕ

$2\phi$

f

$f$

λ_{n}

$\lambda_n$

als

?

2 λ_{n} ϕ \leq f \leq 2 λ_{n}^{- 1} ϕ

$2\lambda_n\phi\leq f\leq 2\lambda_n^{-1}\phi$

ϕ \to 0

$\phi\to0$

— LFH

6

Sie interessieren sich wahrscheinlich für:

(M A, M B) = A^{T} (M^{T} M) B,

$(MA,MB)=A^T(M^TM)B,$

Sie können (oder wie Sie es nennen, PCA) diagonalisieren , was Ihnen sagt, dass die Ähnlichkeit von $M^TM=U\Sigma U^T$ unter Transformation verhält, indem Sie auf Ihre Hauptkomponentenprojizierenund anschließend die Ähnlichkeit berechnen in diesem neuen Raum. Um dies etwas näher zu erläutern, seien die Hauptkomponenten mit den Eigenwerten . Dann $A,B$ $M$ $A,B$ $u_i$ $\lambda_i$

U B = \sum_{i} (u_{i}, b_{i}) u_{i}, U A = \sum_{i} (u_{i}, a_{i}) u_{i},

$UB=\sum_i(u_i,b_i)u_i, \ UA=\sum_i(u_i,a_i)u_i,$

was dir gibt:

(M A, M B) = \sum_{i = 1}^{n} (u_{i}, a_{i}) (u_{i}, b_{i}) λ_{i} .

$(MA,MB)=\sum_{i=1}^n (u_i,a_i)(u_i,b_i)\lambda_i.$

Beachten Sie, dass hier eine Skalierung stattfindet: Die dehnen / schrumpfen. Wenn Einheitsvektoren sind und wenn jedes , dann entspricht einer Drehung, und Sie erhalten: ist invertierbar und die polare Zerlegung von erfüllt $\lambda_i$ $A,B$ $\lambda_i=1$ $M$ , was gleichbedeutend ist mit der Aussage, dass innere Produkte sind unter Rotationen invariant. Im Allgemeinen bleibt der Winkel gleich, wenn eine konforme Transformation ist, was in diesem Fall erfordert, dass $\mbox{sim}(MA,MB)=\mbox{sim}(A,B)$ $M$ $M$ $M$ $M=OP$ mit , also . $P=aI$ $M^TM=a^2I$

— Alex R.
quelle

1

Ihre anfängliche Erklärung des Problems vernachlässigt die Normalisierung der Vektoren

,

und

die zur Berechnung der Kosinusähnlichkeit erforderlich sind. Es scheint auch nicht, dass die nachfolgende Analyse diese Normalisierung anspricht. Beachten Sie insbesondere, dass die Kosinusähnlichkeiten auch dann erhalten bleiben, wenn alle Eigenwerte einem (positiven) Wert entsprechen, der von

abweicht . Das zeigt auch in diesem einfachen Fall, dass noch viel mehr gesagt werden kann.

A

$A$

B

$B$

M A

$MA$

M B

$MB$

1

$1$

— whuber

@whuber: Die Kosinusähnlichkeit bleibt genau dann erhalten, wenn

eine konforme Transformation ist, was in diesem Fall der Anforderung entspricht, dass

invertierbar sein muss und

, ein Vielfaches der Identität. Anders ausgedrückt, die polare Zerlegung von

erfüllt ,

, wobei

. Sie haben Recht mit der Normalisierung, aber es scheint albern, über die Kosinusähnlichkeit mit nicht normalisierten Vektoren

zu sprechen .

M

$M$

M

$M$

M^{T} M = a^{2} I

$M^TM=a^2I$

M

$M$

M = O P

$M=OP$

P = a I

$P=aI$

A, B

$A,B$

— Alex R.

2

Gar nicht albern! Da diese "Ähnlichkeit" durch den Kosinus des Winkels zwischen den Vektoren gegeben ist, ist es für zwei beliebige Vektoren ungleich Null sinnvoll. Was ich mit "viel mehr kann gesagt werden" meinte, ist, dass effektive Grenzen des Winkels zwischen den Bildern von

und

in Bezug auf den Winkel zwischen

und

A

$A$

B

$B$

A

$A$

B

$B$

M

$M$