Zweck der Visualisierung von hochdimensionalen Daten?


23

Es gibt viele Techniken zur Visualisierung von hochdimensionalen Datensätzen, wie z. B. T-SNE, Isomap, PCA, überwachtes PCA usw. Und wir gehen durch die Bewegungen der Projektion der Daten in einen 2D- oder 3D-Raum, so dass wir "schöne Bilder" haben ". Einige dieser Einbettungsmethoden (vielfältiges Lernen) werden hier beschrieben .

Bildbeschreibung hier eingeben

Aber ist dieses "hübsche Bild" tatsächlich sinnvoll? Welche möglichen Einsichten kann jemand gewinnen, wenn er versucht, diesen eingebetteten Raum zu visualisieren?

Ich frage, weil die Projektion auf diesen eingebetteten Raum normalerweise bedeutungslos ist. Wenn Sie Ihre Daten beispielsweise auf von PCA generierte Hauptkomponenten projizieren, entsprechen diese Hauptkomponenten (Eiganvektoren) nicht den Funktionen im Dataset. Sie sind ihre eigenen Feature-Space.

In ähnlicher Weise projiziert t-SNE Ihre Daten in einen Bereich, in dem sich Objekte nahe beieinander befinden, wenn sie die KL-Abweichung minimieren. Dies ist nicht mehr der ursprüngliche Funktionsbereich. (Korrigieren Sie mich, wenn ich falsch liege, aber ich glaube nicht, dass die ML-Community große Anstrengungen unternimmt, um die Klassifizierung mithilfe von t-SNE zu unterstützen. Dies ist jedoch ein anderes Problem als die Datenvisualisierung.)

Ich bin nur sehr verwirrt, warum die Leute mit einigen dieser Visualisierungen so viel anfangen.


Es geht nicht nur um das "schöne Bild", sondern der Zweck der Visualisierung von hochdimensionalen Daten ist ähnlich wie bei der Visualisierung von regulären 2/3-dimensionalen Daten. zB Korrelation, Grenzen und Ausreißer.
Eliasah

@eliasah: Das verstehe ich. Der Raum, in den Sie Ihre Daten projizieren, ist jedoch nicht mehr der ursprüngliche Raum, wodurch einige der Formen in den hohen Dimensionen verzerrt werden können. Angenommen, Sie haben einen Blob in 4 Dimensionen. Sobald Sie es in 2D oder 3D projizieren, ist Ihre Struktur bereits zerstört.
hlin117

Nicht, wenn die Daten wie in Ihrer Abbildung in einer niedrigdimensionalen Mannigfaltigkeit liegen. Die Bestimmung dieser Mannigfaltigkeit ist das Ziel des mannigfaltigen Lernens.
Emre

Antworten:


9

Ich nehme als Beispiel die Verarbeitung natürlicher Sprache, da dies das Gebiet ist, in dem ich mehr Erfahrung habe, und ermutige andere, ihre Erkenntnisse in anderen Bereichen wie Computer Vision, Biostatistik, Zeitreihen usw. zu teilen. Ich bin mir sicher, dass es in diesen Bereichen solche gibt ähnliche Beispiele.

Ich stimme zu, dass Modellvisualisierungen manchmal bedeutungslos sein können, aber ich denke, der Hauptzweck von Visualisierungen dieser Art besteht darin, zu überprüfen, ob das Modell tatsächlich mit der menschlichen Intuition oder einem anderen (nicht-rechnerischen) Modell zusammenhängt. Darüber hinaus kann eine explorative Datenanalyse für die Daten durchgeführt werden.

Nehmen wir an, wir haben ein Wort-Einbettungsmodell, das mit Gensim aus dem Wikipedia-Korpus erstellt wurde

model = gensim.models.Word2Vec(sentences, min_count=2)

Wir würden dann einen 100-dimensionalen Vektor für jedes Wort haben, das in dem Korpus dargestellt ist, der mindestens zweimal vorhanden ist. Wenn wir diese Wörter visualisieren wollten, müssten wir sie mit dem t-sne-Algorithmus auf zwei oder drei Dimensionen reduzieren. Hier ergeben sich sehr interessante Eigenschaften.

Nehmen Sie das Beispiel:

Vektor ("König") + Vektor ("Mann") - Vektor ("Frau") = Vektor ("Königin")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

Hier codiert jede Richtung bestimmte semantische Merkmale. Das selbe kann in 3d gemacht werden

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(Quelle: tensorflow.org )

Sehen Sie, wie in diesem Beispiel die Vergangenheitsform an einer bestimmten Position in Bezug auf ihr Partizip steht. Gleiches gilt für das Geschlecht. Gleiches gilt für Länder und Hauptstädte.

In der Welt der Einbettung hatten ältere und naivere Modelle diese Eigenschaft nicht.

Weitere Informationen finden Sie in dieser Stanford-Vorlesung. Einfache Wortvektordarstellungen: word2vec, GloVe

Sie beschränkten sich nur darauf, ähnliche Wörter ohne Rücksicht auf die Semantik zu gruppieren (Geschlecht oder Zeitform wurden nicht als Anweisungen codiert). Es überrascht nicht, dass Modelle, die eine semantische Codierung als Richtungen in niedrigeren Dimensionen haben, genauer sind. Und was noch wichtiger ist, sie können verwendet werden, um jeden Datenpunkt angemessener zu untersuchen.

In diesem speziellen Fall wird t-SNE meiner Meinung nach nicht zur Unterstützung der Klassifizierung per se verwendet, sondern eher zur Überprüfung der Integrität Ihres Modells und manchmal, um einen Einblick in das von Ihnen verwendete Korpus zu erhalten. Was das Problem betrifft, dass sich die Vektoren nicht mehr im ursprünglichen Merkmalsraum befinden. Richard Socher erklärt in der Vorlesung (Link oben), dass niedrigdimensionale Vektoren statistische Verteilungen mit ihrer eigenen größeren Darstellung sowie andere statistische Eigenschaften gemeinsam haben, die eine visuelle Analyse von Einbettungsvektoren in niedrigeren Dimensionen plausibel machen.

Zusätzliche Ressourcen und Bildquellen:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

Zunächst sind Ihre Erklärungen zu den Methoden richtig. Der Punkt ist , dass Embedding - Algorithmen sind nicht nur sichtbar , sondern im Grunde die dimentionality reduziert mit zwei Hauptproblemen in der statistischen Datenanalyse zu bewältigen, nämlich Fluch Dimentionaliy und Low-Probengröße Problem , so dass sie nicht zu zeigen sollen physikalisch Merkmale verstanden und sie sind nicht nur sinnvoll, sondern auch für die Datenanalyse notwendig!

Tatsächlich ist die Visualisierung fast die letzte Anwendung von Einbettungsmethoden. Das Projizieren von hochdimensionalen Daten in einen Raum mit geringeren Dimensionen hilft dabei, die tatsächlichen paarweisen Abstände (hauptsächlich die euklidischen) beizubehalten, die in den hohen Dimensionen verzerrt sind, oder die meisten Informationen zu erfassen, die in die Varianz verschiedener Merkmale eingebettet sind.


10

Richard Hamming wird der Satz zugeschrieben: "Der Zweck des Rechnens ist Einsicht, nicht Zahlen." In dieser wissenschaftlichen Arbeit von 1973 (siehe Diskussion in Was ist der berühmte Datensatz, der völlig anders aussieht, aber ähnliche zusammenfassende Statistiken hat?).), Argumentiert Francis Anscombe, dass "Grafiken für eine gute statistische Analyse unerlässlich sind". Anscombes Quartett ist seit langem ein Favorit: gleiche Statistiken und Regressionen, geringe Dimensionen und doch sehr unterschiedliches Verhalten in Bezug auf Rauschen, Ausreißer und Abhängigkeit. Die Projektion von Daten in 11 Dimensionen auf zwei unten gezeigte Dimensionen ist ziemlich irreführend: Eine hat Korrelation und Streuung, die zweite (von unten) hat exakte Übereinstimmung, mit Ausnahme einer Ausreißer. Der dritte hat eine klare Beziehung, aber keine lineare. Die vierte zeigt, dass die Variablen mit Ausnahme eines Schwellenwerts möglicherweise nicht miteinander verknüpft sind.

Bildbeschreibung hier eingeben

In dem Buch Multivariate Analyse für die Bioverhaltens- und Sozialwissenschaften von Bruce L. Brown et al. , wir können finden:

In seiner Arbeit "Drawing Things Together" aus dem Jahr 1990 behauptet Latour, dass die Denkweise harter Wissenschaftler eine intensive "Besessenheit" vom Graphismus sei

Ob auf 3D-Raum, bis zu sechs dimensionale Darstellungen (Raum, Farbe, Form und Zeit) oder sogar auf die zehnte Dimension beschränkt - der Mensch hat nur begrenzte Sicht. Beziehungen zwischen beobachtbaren Phänomenen: nicht.

Darüber hinaus wird der Fluch der Dimensionen mit Paradoxien für niedrige Dimensionen sortiert, um einige zu nennen:

Selbst wenn alle Normen in endlichen Dimensionen gleich sind, können Beziehungen zwischen Variablen irreführend sein. Dies ist ein Grund dafür, die Abstände von einem Raum zum anderen einzuhalten. Solche Konzepte bilden das Herzstück von Einbettungen für Signale in niedrigeren Dimensionen (z. B. Compressive Sensing und das Johnson-Lindenstauss-Lemma für verzerrungsarme Einbettungen von Punkten aus dem hochdimensionalen in den niedrigdimensionalen euklidischen Raum) oder von Merkmalen ( Streutransformationen für Klassifikationen). .

Die Visualisierung ist daher eine weitere Hilfe, um Einblicke in die Daten zu erhalten, und geht Hand in Hand mit Berechnungen, einschließlich der Dimensionsreduzierung.

nn

Pizza Box Paradoxon

In zwei Dimensionen ist die mittlere blaue Kugel klein. Auch in 3D. Aber sehr schnell wächst die mittlere Kugel und ihr Radius übersteigt den des Würfels. Diese Einsicht ist zum Beispiel für Clustering von entscheidender Bedeutung.


4

Aufgrund der Aussagen und Diskussionen denke ich, dass es einen wichtigen Punkt gibt, den man unterscheiden sollte. Eine Transformation in einen Raum mit niedrigeren Dimensionen kann die Information reduzieren , was etwas anderes ist, als die Information bedeutungslos zu machen . Lassen Sie mich folgende Analogie verwenden:

Das Beobachten von (2D) Bildern unserer Welt (3D) ist eine übliche Praxis. Eine Visualisierungsmethode bietet nur verschiedene „Brillen“, um einen hochdimensionalen Raum zu sehen.

Um einer Visualisierungsmethode zu „vertrauen“, ist es gut, die Interna zu verstehen. Mein Lieblingsbeispiel ist das MDB . Es ist einfach möglich, diese Methode mit einem Optimierungswerkzeug (z . B. R optim ) selbst zu implementieren . So können Sie sehen, wie die Methodenwörter, Sie können den Fehler des Ergebnisses usw. messen .

Am Ende erhalten Sie ein Bild, das die Ähnlichkeit der Originaldaten mit einer gewissen Präzision beibehält. Nicht mehr, aber nicht weniger.


4

Manchmal ist es sinnvoll, hochdimensionale Daten zu visualisieren, da dies möglicherweise Aufschluss über die Physik gibt.

In der Astrophysik gibt es mindestens ein Beispiel, in dem Sie Ihre Daten auf von PCA generierte Hauptkomponenten projizieren, und diese Hauptkomponenten entsprechen vielen physikalischen Einsichten über die Galaxien. Ausführliche Informationen finden Sie in der letzten Abbildung unter http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2

und das Papier in

http://iopscience.iop.org/article/10.1086/425626/pdf

Hier ist die Grundidee. Die Autoren wenden PCA auf viele Spektren (z. B. 10.000) eines Teleskops an. Jedes Spektrum hat ~ 1000 Attribute. Da dieser Datensatz große Dimensionen aufweist, ist es schwierig, ihn zu visualisieren. Die ersten 4 Komponenten von PCA zeigen jedoch viel Physik über die Spektren (siehe Abschnitte 4.1-4.4 in der obigen Veröffentlichung).


4

Das "hübsche Bild" sagt mehr als tausend Worte. Letztendlich müssen Sie Ihre Ergebnisse an jemanden weitergeben, der nicht über ausreichende statistische Kenntnisse verfügt oder der einfach nicht die Zeit, das Interesse oder was auch immer hat, um die vollständige Situation zu erfassen. Das heißt nicht, dass wir der Person nicht helfen können, zumindest ein allgemeines Konzept oder einen Teil der Realität zu verstehen. Dies ist, was Bücher wie Freakonomics tun - es gibt wenig bis gar keine Mathematik, keine Datensätze, und dennoch werden die Ergebnisse immer noch präsentiert.

Schauen Sie sich Marschall Ney vom Retreat in Russland an . Diese massive Vereinfachung der Napoleonischen Kriege vermittelt dennoch eine große Bedeutung und ermöglicht es Menschen mit den unwissendsten Kenntnissen des Krieges, die Brutalität, das Klima, die Landschaft, den Tod und den Anstand zu verstehen, die die Invasion in Russland durchdrungen haben.

Letztendlich handelt es sich bei den Diagrammen nur um Kommunikation, und die menschliche Kommunikation konzentriert sich oftmals auf Zusammenwachsen, Vereinfachung und Kürze.


3

Hervorragende Frage. In Kapitel 4 von "Illuminating the Path, Die Forschungs- und Entwicklungsagenda für visuelle Analytik" von James J. Thomas und Kristin A. Cook wird eine Diskussion über Datendarstellungen und Datentransformationen geführt. In meiner Forschung habe ich mich dieser Frage im Rahmen der PCA- und Faktoranalyse gestellt. Meine kurze Antwort ist, dass die Visualisierungen nützlich sind, wenn man die Datenumwandlung hat, um vom Visualisierungsraum in den ursprünglichen Datenraum zu wechseln. Dies würde zusätzlich im Rahmen einer visuellen Analyse durchgeführt.


Eine Zuordnung des projizierten Raums zum ursprünglichen Raum ist sinnvoll. Gibt es jedoch andere Anwendungsfälle?
hlin117

Ich habe mir auch Kapitel 4 von "Illuminating the Path, Die Forschungs- und Entwicklungsagenda für Visual Analytics" angesehen. Es wird nichts über hochdimensionale Visualisierungen in einem sichtbaren Unterraum erwähnt.
hlin117
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.