Ok, also lassen Sie uns das Beispiel des Kindes analysieren, das seine Spielzeuge in Gruppen zusammenfasst.
Stellen Sie sich vor, das Kind hat nur 3 Spielsachen:
- ein blauer Fußball
- ein blauer Freesbe
- ein grüner Würfel (ok, vielleicht ist es nicht das lustigste Spielzeug, das du dir vorstellen kannst)
Lassen Sie uns die folgende erste Hypothese machen, wie ein Spielzeug hergestellt werden kann:
- Mögliche Farben sind: rot, grün, blau
- Mögliche Formen sind: Kreis, Quadrat, Dreieck
Jetzt können wir (num_colors * num_shapes) = 3 * 3 = 9 mögliche Cluster haben.
Der Junge würde die Spielzeuge wie folgt gruppieren:
- CLUSTER A) enthält den blauen Ball und den blauen Freesbe, da sie die gleiche Farbe und Form haben
- CLUSTER B) enthält den überaus lustigen grünen Würfel
Wenn wir nur diese 2 Dimensionen (Farbe, Form) verwenden, haben wir 2 nicht leere Cluster: In diesem ersten Fall sind 7/9 ~ 77% unseres Raumes leer.
Erhöhen wir nun die Anzahl der Dimensionen, die das Kind berücksichtigen muss. Wir machen auch die folgende Hypothese, wie ein Spielzeug hergestellt werden kann:
- Die Größe des Spielzeugs kann zwischen wenigen Zentimetern und 1 Meter in Zehn-Zentimetern-Schritten variieren: 0-10 cm, 11-20 cm, ..., 91 cm-1 m
- Das Gewicht des Spielzeugs kann in ähnlicher Weise bis zu 1 kg in Schritten von 100 g variieren: 0-100 g, 101-200 g, ..., 901 g-1 kg.
Wenn wir unser Spielzeug JETZT in Gruppen zusammenfassen möchten, haben wir (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 mögliche Gruppen.
Der Junge würde die Spielzeuge wie folgt gruppieren:
- CLUSTER A) enthält den blauen Fußball, weil er blau und schwer ist
- CLUSTER B) enthält das blaue Freesbe, weil es blau und hell ist
- CLUSTER C) enthält den überaus lustigen grünen Würfel
Unter Verwendung der aktuellen 4 Dimensionen (Form, Farbe, Größe, Gewicht) sind nur 3 Cluster nicht leer. In diesem Fall sind also 897/900 ~ 99,7% des Raums leer.
Dies ist ein Beispiel für das, was Sie auf Wikipedia finden ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... wenn die Dimensionalität zunimmt, nimmt das Volumen des Raums so schnell zu, dass die verfügbaren Daten spärlich werden.
Bearbeiten: Ich bin nicht sicher, ob ich einem Kind wirklich erklären kann, warum in hochdimensionalen Räumen die Entfernung manchmal falsch ist, aber lassen Sie uns versuchen, mit unserem Beispiel des Kindes und seines Spielzeugs fortzufahren.
Betrachten wir nur die beiden ersten Merkmale {Farbe, Form}, so sind sich alle einig, dass der blaue Ball dem blauen Freesbe ähnlicher ist als dem grünen Würfel. Fügen
wir nun weitere 98 Features hinzu: Größe, Gewicht, Produktionstag, Material, Weichheit, Preis usw. Nun, es würde mir immer schwerer fallen, zu beurteilen, welches Spielzeug welchem ähnlich ist.
Damit:
- Eine große Anzahl von Merkmalen kann für einen bestimmten Ähnlichkeitsvergleich irrelevant sein und zu einer Verfälschung des Signal-Rausch-Verhältnisses führen.
- In hohen Dimensionen sehen alle Beispiele "gleich" aus.
Wenn Sie mir zuhören, ist ein guter Vortrag "Ein paar nützliche Dinge, die Sie über maschinelles Lernen wissen sollten" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), insbesondere Absatz 6 Art von Argumentation.
Hoffe das hilft!