Als «dimensionality-reduction» getaggte Fragen

Die Dimensionsreduzierung bezieht sich auf Techniken zum Reduzieren vieler Variablen auf eine kleinere Anzahl, während so viele Informationen wie möglich aufbewahrt werden. Eine bekannte Methode ist [tag pca]

11
Was ist Dimensionsreduktion? Was ist der Unterschied zwischen Merkmalsauswahl und -extraktion?
Aus Wikipedia, Dimensionsreduktion oder Dimensionsreduktion ist der Prozess der Reduzierung der Anzahl der betrachteten Zufallsvariablen und kann in Merkmalsauswahl und Merkmalsextraktion unterteilt werden. Was ist der Unterschied zwischen Merkmalsauswahl und Merkmalsextraktion? Was ist ein Beispiel für eine Dimensionsreduktion bei einer Natural Language Processing-Aufgabe?

6
Wie mache ich SVD und PCA mit Big Data?
Ich habe eine große Datenmenge (ca. 8 GB). Ich möchte maschinelles Lernen nutzen, um es zu analysieren. Daher denke ich, dass ich SVD und dann PCA verwenden sollte, um die Datendimensionalität aus Gründen der Effizienz zu reduzieren. MATLAB und Octave können jedoch einen so großen Datensatz nicht laden. Mit welchen …

6
Maschinelles Lernen zur Einschätzung des Alters von Nutzern anhand von Facebook-Websites, die sie mögen
Ich habe eine Datenbank aus meiner Facebook-Anwendung und versuche, mithilfe von maschinellem Lernen das Alter der Benutzer basierend auf den von ihnen bevorzugten Facebook-Websites einzuschätzen. Es gibt drei entscheidende Merkmale meiner Datenbank: Die Altersverteilung in meinem Trainingsset (insgesamt 12.000 Benutzer) ist auf jüngere Benutzer ausgerichtet (dh ich habe 1157 Benutzer …


1
Sind t-sne-Dimensionen sinnvoll?
Gibt es Bedeutungen für die Dimensionen einer t-sne Einbettung? Wie bei PCA haben wir diesen Sinn für linear transformierte Varianzmaximierungen, aber für t-sne gibt es neben dem Raum, den wir für die Abbildung und Minimierung des KL-Abstands definieren, auch Intuition?

4
Verbessern Sie die Geschwindigkeit der Implementierung von t-sne in Python für große Datenmengen
Ich würde gerne eine Dimensionsreduktion für fast 1 Million Vektoren mit jeweils 200 Dimensionen durchführen ( doc2vec). Ich verwende dafür die TSNEImplementierung aus dem sklearn.manifoldModul und das Hauptproblem ist die zeitliche Komplexität. Trotzdem method = barnes_hutist die Rechengeschwindigkeit immer noch gering. Irgendwann geht ihm sogar der Speicher aus. Ich lasse …


1
Können nähere Punkte in der T-SNE-Visualisierung als ähnlicher angesehen werden?
Ich verstehe aus Hintons Aufsatz, dass T-SNE gute Arbeit bei der Wahrung lokaler Ähnlichkeiten und gute Arbeit bei der Wahrung der globalen Struktur leistet (Clusterbildung). Es ist mir jedoch nicht klar, ob Punkte, die in einer 2D-t-sne-Visualisierung näher erscheinen, als "ähnlichere" Datenpunkte angenommen werden können. Ich verwende Daten mit 25 …

2
Hochdimensionale Daten: Was sind nützliche Techniken?
Aufgrund verschiedener Flüche der Dimensionalität verschlechtern sich Genauigkeit und Geschwindigkeit vieler gängiger Vorhersagetechniken bei hochdimensionalen Daten. Welche der nützlichsten Techniken / Tricks / Heuristiken helfen dabei, hochdimensionale Daten effektiv zu verarbeiten? Beispielsweise, Funktionieren bestimmte statistische / Modellierungsmethoden bei hochdimensionalen Datensätzen gut? Können wir die Leistung unserer Vorhersagemodelle für hochdimensionale Daten …

5
Merkmalsauswahl vs Merkmalsextraktion. Welche wann verwenden?
Die Merkmalsextraktion und Merkmalsauswahl verringern im Wesentlichen die Dimensionalität der Daten, aber die Merkmalsextraktion macht die Daten auch trennbarer, wenn ich recht habe. Welche Technik wäre der anderen vorzuziehen und wann? Ich dachte, da die Featureauswahl die ursprünglichen Daten und deren Eigenschaften nicht ändert, gehe ich davon aus, dass Sie …

3
Warum sind Autoencoder zur Dimensionsreduzierung symmetrisch?
Ich bin kein Experte für Autoencoder oder neuronale Netze. Verzeihen Sie mir, wenn dies eine dumme Frage ist. Zur Dimensionsreduktion oder zur Visualisierung von Clustern in hochdimensionalen Daten können wir einen Autoencoder verwenden, um eine (verlustbehaftete) zweidimensionale Darstellung zu erstellen, indem wir die Ausgabe der Netzwerkschicht mit zwei Knoten untersuchen. …

4
Dimensionalität und Mannigfaltigkeit
Ein häufig gehörter Satz beim unbeaufsichtigten maschinellen Lernen ist Hochdimensionale Eingaben leben typischerweise auf oder in der Nähe eines niedrigdimensionalen Verteilers Was ist eine Dimension? Was ist eine Mannigfaltigkeit? Was ist der Unterschied? Können Sie ein Beispiel geben, um beide zu beschreiben? Mannigfaltigkeit aus Wikipedia: In der Mathematik ist eine …

2
Effiziente Dimensionsreduzierung für große Datenmengen
Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren. sklearn.decomposition.PCAfunktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden sklearn.decomposition.TruncatedSVD, erhalte aber ziemlich schnell einen Speicherfehler. Was sind meine Optionen …

4
Eine Hot-Coding-Alternative für große kategoriale Werte?
Hallo, Datenrahmen mit großen kategorialen Werten über 1600 Kategorien gibt es eine Möglichkeit, Alternativen zu finden, damit ich nicht über 1600 Spalten habe. Ich fand diesen unten interessanten Link http://amunategui.github.io/feature-hashing/#sourcecode Aber sie konvertieren zu Klasse / Objekt, was ich nicht will. Ich möchte meine endgültige Ausgabe als Datenrahmen, damit ich …

4
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.