Ich suche nach einer guten Terminologie, um zu beschreiben, was ich versuche, um die Suche nach Ressourcen zu vereinfachen.
Angenommen, ich habe zwei Cluster von Punkten A und B, die jeweils zwei Werten X und Y zugeordnet sind, und ich möchte den "Abstand" zwischen A und B messen, dh wie wahrscheinlich ist es, dass sie aus derselben Verteilung abgetastet wurden (Ich kann davon ausgehen, dass die Verteilungen normal sind). Wenn zum Beispiel X und Y in A, aber nicht in B korreliert sind, sind die Verteilungen unterschiedlich.
Intuitiv würde ich die Kovarianzmatrix von A erhalten und dann untersuchen, wie wahrscheinlich es ist, dass jeder Punkt in B hineinpasst, und umgekehrt (wahrscheinlich mit etwas wie Mahalanobis-Abstand).
Aber das ist ein bisschen "ad-hoc", und es gibt wahrscheinlich eine rigorosere Art, dies zu beschreiben (in der Praxis habe ich natürlich mehr als zwei Datensätze mit mehr als zwei Variablen - ich versuche zu identifizieren, welcher meiner Datensätze sind Ausreißer).
Vielen Dank!