Data Science feature-selection

11

Was ist Dimensionsreduktion? Was ist der Unterschied zwischen Merkmalsauswahl und -extraktion?

Aus Wikipedia, Dimensionsreduktion oder Dimensionsreduktion ist der Prozess der Reduzierung der Anzahl der betrachteten Zufallsvariablen und kann in Merkmalsauswahl und Merkmalsextraktion unterteilt werden. Was ist der Unterschied zwischen Merkmalsauswahl und Merkmalsextraktion? Was ist ein Beispiel für eine Dimensionsreduktion bei einer Natural Language Processing-Aufgabe?

58 feature-selection feature-extraction dimensionality-reduction

10

Maschinelles Lernen - Features Engineering aus Datums- / Zeitdaten

Was sind die gängigen / bewährten Methoden für den Umgang mit Zeitdaten für maschinelles Lernen? Wenn sich beispielsweise in einem Datensatz eine Spalte mit einem Zeitstempel des Ereignisses befindet, z. B. "2014-05-05", wie können Sie nützliche Funktionen aus dieser Spalte extrahieren, falls vorhanden? Danke im Voraus!

45 machine-learning time-series feature-selection

5

Hat scikit-learn einen Vorwärtsauswahl- / schrittweisen Regressionsalgorithmus?

Ich arbeite an dem Problem mit zu vielen Funktionen und das Training meiner Modelle dauert viel zu lange. Ich habe einen Vorwärtsauswahlalgorithmus implementiert, um Features auszuwählen. Allerdings habe ich mich gefragt, ob Scikit-Learn einen Vorwärtsauswahl- / schrittweisen Regressionsalgorithmus hat.

37 feature-selection scikit-learn

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

Gibt es Tools für das Feature-Engineering?

Insbesondere suche ich nach Tools mit einigen Funktionen, die speziell für das Feature-Engineering vorgesehen sind. Ich möchte in der Lage sein, Lücken, etc. leicht zu glätten, zu visualisieren, zu füllen. Ähnlich wie MS Excel, aber das hat R als zugrunde liegende Sprache anstelle von VB.

29 feature-selection feature-extraction feature-construction

4

Behandelt XGBoost Multikollinearität selbstständig?

Ich verwende derzeit XGBoost für einen Datensatz mit 21 Features (ausgewählt aus einer Liste von ca. 150 Features). Anschließend werden diese per One-Hot-Code codiert, um ~ 98 Features zu erhalten. Einige dieser 98 Features sind etwas redundant, zum Beispiel: Eine Variable (Feature) auch als B angezeigtEINEINA undCBEINBEIN\frac{B}{A} .CEINCEIN\frac{C}{A} Meine Fragen …

23 feature-selection correlation xgboost gbm

3

Wie führe ich ein Feature-Engineering für unbekannte Features durch?

Ich nehme an einem Kaggle-Wettbewerb teil. Der Datensatz hat ungefähr 100 Funktionen und alle sind unbekannt (in Bezug darauf, was sie tatsächlich darstellen). Im Grunde sind es nur Zahlen. Die Leute führen eine Menge Feature-Engineering für diese Features durch. Ich frage mich, wie genau man Feature-Engineering für unbekannte Features durchführen …

19 machine-learning feature-selection feature-extraction feature-engineering kaggle

2

Textkategorisierung: Kombination verschiedener Funktionen

Das Problem, mit dem ich mich befasse, ist die Kategorisierung von Kurztexten in mehrere Klassen. Mein aktueller Ansatz ist die Verwendung von tf-idf-gewichteten Termfrequenzen und das Erlernen eines einfachen linearen Klassifikators (logistische Regression). Dies funktioniert recht gut (ca. 90% Makro F-1 am Testgerät, fast 100% am Trainingsgerät). Ein großes Problem …

19 machine-learning classification feature-selection logistic-regression information-retrieval

4

Gibt es Faustregeln für die Anzahl der Features im Vergleich zur Anzahl der Instanzen? (kleine Datenmengen)

Ich frage mich, ob es Heuristiken in Bezug auf die Anzahl der Merkmale und die Anzahl der Beobachtungen gibt. Wenn eine Anzahl von Merkmalen gleich der Anzahl von Beobachtungen ist, wird das Modell offensichtlich überpasst. Mit sparsamen Methoden (LASSO, elastisches Netz) können wir verschiedene Merkmale entfernen, um das Modell zu …

16 feature-selection model-selection

2

Wie wählt man die Funktionen für ein neuronales Netzwerk?

Ich weiß, dass es keine eindeutige Antwort auf diese Frage gibt, aber nehmen wir an, dass ich ein riesiges neuronales Netzwerk mit vielen Daten habe und eine neue Funktion für die Eingabe hinzufügen möchte. Der "beste" Weg wäre, das Netzwerk mit der neuen Funktion zu testen und die Ergebnisse zu …

16 machine-learning neural-network feature-selection feature-extraction

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Kombinieren von kategorialen und kontinuierlichen Eingabefunktionen für das Training neuronaler Netze

Angenommen, wir haben zwei Arten von Eingabefunktionen: kategorial und kontinuierlich. Die kategorialen Daten können als One-Hot-Code A dargestellt werden, während die kontinuierlichen Daten nur ein Vektor B im N-dimensionalen Raum sind. Es scheint, dass die einfache Verwendung von concat (A, B) keine gute Wahl ist, da A, B völlig unterschiedliche …

16 neural-network feature-selection categorical-data feature-construction

4

Wie spezifiziere ich wichtige Attribute?

Angenommen, ein Satz lose strukturierter Daten (z. B. Webtabellen / verknüpfte offene Daten) besteht aus vielen Datenquellen. Es gibt kein gemeinsames Schema, dem die Daten folgen, und jede Quelle kann zur Beschreibung der Werte Synonymattribute verwenden (z. B. "Nationalität" vs "bornIn"). Mein Ziel ist es, einige "wichtige" Attribute zu finden, …

15 machine-learning statistics feature-selection

4

Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen Datensätzen zu trainieren?

Ich habe ein stark voreingenommenes binäres Dataset - ich habe 1000x mehr Beispiele für die negative Klasse als für die positive Klasse. Ich würde gerne ein Baumensemble (wie Extra Random Trees oder Random Forest) mit diesen Daten trainieren, aber es ist schwierig, Trainingsdatensätze zu erstellen, die genügend Beispiele für die …

14 machine-learning feature-selection unbalanced-classes

5

Merkmalsauswahl vs Merkmalsextraktion. Welche wann verwenden?

Die Merkmalsextraktion und Merkmalsauswahl verringern im Wesentlichen die Dimensionalität der Daten, aber die Merkmalsextraktion macht die Daten auch trennbarer, wenn ich recht habe. Welche Technik wäre der anderen vorzuziehen und wann? Ich dachte, da die Featureauswahl die ursprünglichen Daten und deren Eigenschaften nicht ändert, gehe ich davon aus, dass Sie …

14 feature-selection feature-extraction dimensionality-reduction

Als «feature-selection» getaggte Fragen