Als «high-dimensional» getaggte Fragen

Bezieht sich auf eine große Anzahl von Merkmalen oder Dimensionen (Variablen) für Daten. (Verwenden Sie für eine große Anzahl von Datenpunkten das Tag [große Daten]. Wenn das Problem eine größere Anzahl von Variablen als Daten ist, verwenden Sie das Tag [unterbestimmt].)

8
Warum ist der euklidische Abstand in hohen Dimensionen keine gute Metrik?
Ich habe gelesen, dass 'Euklidische Distanz keine gute Distanz in hohen Dimensionen ist'. Ich denke, diese Aussage hat etwas mit dem Fluch der Dimensionalität zu tun, aber was genau? Außerdem, was ist "hohe Dimensionen"? Ich habe hierarchisches Clustering unter Verwendung der euklidischen Distanz mit 100 Merkmalen angewendet. Bis zu wie …




3
Sollte die Reduzierung der Dimensionalität für die Visualisierung als „geschlossenes“ Problem angesehen werden, das von t-SNE gelöst wurde?
Ich habe viel über den sne- Algorithmus zur Dimensionsreduktion gelesen . Ich bin sehr beeindruckt von der Leistung bei "klassischen" Datensätzen wie MNIST, bei denen eine klare Trennung der Ziffern erzielt wird ( siehe Originalartikel ):ttt Ich habe es auch verwendet, um die Funktionen eines neuronalen Netzwerks zu visualisieren, das …


1
Sollten die Daten vor der Anwendung von t-SNE zentriert und skaliert werden?
Einige Funktionen meiner Daten haben große Werte, während andere Funktionen viel kleinere Werte haben. Müssen die Daten vor dem Anwenden von t-SNE zentriert und skaliert werden, um eine Verzerrung in Richtung der größeren Werte zu vermeiden? Ich verwende die sklearn.manifold.TSNE-Implementierung von Python mit der standardmäßigen euklidischen Distanzmetrik.

4
Gibt es in realen Daten wirklich einen „Fluch der Dimensionalität“?
Ich verstehe, was "Fluch der Dimensionalität" ist, und ich habe einige hochdimensionale Optimierungsprobleme gelöst und kenne die Herausforderung der exponentiellen Möglichkeiten. Ich bezweifle jedoch, dass der "Fluch der Dimensionalität" in den meisten Daten der realen Welt existiert (also lassen Sie uns Bilder oder Videos für einen Moment beiseite, ich denke …

1
Hochdimensionale Regression: Warum ist
Ich versuche, mich über die Forschung im Bereich der hochdimensionalen Regression zu informieren. wenn größer als ist, ist das . Es scheint, als würde der Begriff häufig als Konvergenzrate für Regressionsschätzer verwendet.n p > > n log p / npppnnnp > > np>>np >> nLogp / nLog⁡p/n\log p/n Zum Beispiel …

1
Wirkt sich der Fluch der Dimensionalität auf einige Modelle stärker aus als auf andere?
Die Stellen, die ich über den Fluch der Dimensionalität gelesen habe, erklären ihn hauptsächlich in Verbindung mit kNN und linearen Modellen im Allgemeinen. Ich sehe regelmäßig Spitzenreiter in Kaggle, die Tausende von Funktionen in einem Datensatz verwenden, der kaum 100.000 Datenpunkte enthält. Sie verwenden unter anderem hauptsächlich Boosted-Bäume und NN. …

3
PCA zu hochdimensionalen Textdaten vor der zufälligen Waldklassifikation?
Ist es sinnvoll, PCA durchzuführen, bevor eine zufällige Waldklassifizierung durchgeführt wird? Ich habe es mit hochdimensionalen Textdaten zu tun, und ich möchte eine Feature-Reduzierung durchführen, um den Fluch der Dimensionalität zu vermeiden. Ist Random Forests nicht bereits auf eine Art von Dimensionsreduzierung eingestellt?


2
Ist die multiple lineare Regression in drei Dimensionen eine Ebene mit der besten Anpassung oder eine Linie mit der besten Anpassung?
Unser Professor befasst sich nicht mit der Mathematik oder sogar der geometrischen Darstellung multipler linearer Regression, und das hat mich etwas verwirrt. Einerseits wird es auch in höheren Dimensionen immer noch als multiple lineare Regression bezeichnet. Auf der anderen Seite, wenn wir zum Beispiel haben Y = b 0 + …

4
Fluch der Dimensionalität: kNN-Klassifikator
Ich lese Kevin Murphys Buch: Maschinelles Lernen - Eine probabilistische Perspektive. Im ersten Kapitel erklärt der Autor den Fluch der Dimensionalität und es gibt einen Teil, den ich nicht verstehe. Als Beispiel gibt der Autor an: Beachten Sie, dass die Eingaben gleichmäßig entlang eines D-dimensionalen Einheitswürfels verteilt sind. Angenommen, wir …

1
Ist der relative Kontrastsatz von Beyer et al. Papier: "Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum" irreführend?
Dies wird sehr oft zitiert, wenn der Fluch der Dimensionalität erwähnt wird und geht (rechte Formel genannt relativer Kontrast) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Das Ergebnis des Theorems zeigt, dass die Differenz zwischen dem maximalen und dem minimalen Abstand zu einem …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.