Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung

1
Entscheidungsbäume Variable (Feature) Skalierung und Variable (Feature) Normalisierung (Tuning) in welchen Implementierungen erforderlich?
In vielen Algorithmen für maschinelles Lernen ist die Feature-Skalierung (auch bekannt als variable Skalierung, Normalisierung) ein häufiger Vorverarbeitungsschritt. Wikipedia - Feature-Skalierung - Diese Frage war knapp. Frage 41704 - Wie und warum funktionieren Normalisierung und Feature-Skalierung? Ich habe zwei Fragen speziell in Bezug auf Entscheidungsbäume: Gibt es Implementierungen von Entscheidungsbäumen, …

3
Sollte die Funktionsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden?
Sollte die Merkmalsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden? Ich habe einige Diskussionen und Artikel wie Guyon (2003) und Singhi und Liu (2006) durchgearbeitet, bin mir aber immer noch nicht sicher, ob ich die richtige Antwort finden soll. Mein Versuchsaufbau ist wie folgt: Datensatz: 50 gesunde Kontrollpersonen und …

1
Wie wählt LASSO unter kollinearen Prädiktoren aus?
Ich suche nach einer intuitiven Antwort, warum ein GLM LASSO-Modell einen bestimmten Prädiktor aus einer Gruppe stark korrelierter auswählt und warum dies anders ist als die Auswahl der besten Teilmengenfunktionen. Aus der in Abb. 2 in Tibshirani 1996 gezeigten Geometrie des LASSO gehe ich davon aus, dass LASSO den Prädiktor …

3
Funktionsauswahl unter Verwendung gegenseitiger Informationen in Matlab
Ich versuche, die Idee der gegenseitigen Information auf die Merkmalsauswahl anzuwenden, wie in diesen Vorlesungsunterlagen (auf Seite 5) beschrieben. Meine Plattform ist Matlab. Ein Problem, das ich bei der Berechnung gegenseitiger Informationen aus empirischen Daten finde, ist, dass die Anzahl immer nach oben verzerrt ist. Ich habe ungefähr 3 ~ …


4
Gibt es eine Möglichkeit, die Kreuzvalidierung zu verwenden, um eine Variablen- / Merkmalsauswahl in R durchzuführen?
Ich habe einen Datensatz mit ungefähr 70 Variablen, die ich reduzieren möchte. Ich möchte den Lebenslauf verwenden, um die nützlichsten Variablen auf folgende Weise zu finden. 1) Wählen Sie zufällig etwa 20 Variablen aus. 2) Verwenden Sie stepwise/ LASSO/ lars/ etc, um die wichtigsten Variablen auszuwählen. 3) Wiederholen Sie ~ …

4
Verbesserung der SVM-Klassifikation von Diabetes
Ich benutze SVM, um Diabetes vorherzusagen. Ich verwende den BRFSS- Datensatz für diesen Zweck. Der Datensatz hat die Abmessungen und ist verzerrt. Der Prozentsatz von s in der Zielvariablen beträgt während die s die verbleibenden .11 % 89 %432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Ich verwende nur 15aus 136unabhängigen …


1
Wie quantifiziere ich die Redundanz von Features?
Ich habe drei Funktionen, mit denen ich ein Klassifizierungsproblem lösen kann. Ursprünglich erzeugten diese Features boolesche Werte, sodass ich ihre Redundanz bewerten konnte, indem ich mir ansah, wie stark sich die Sätze positiver und negativer Klassifikationen überschneiden. Jetzt habe ich die Funktionen erweitert, um stattdessen echte Werte (Scores) zu erzeugen, …


3
Identifizieren gefilterter Features nach Feature-Auswahl mit scikit learn
Hier ist mein Code für die Feature-Auswahlmethode in Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Aber nachdem ich neues X (abhängige Variable - X_new) erhalten habe, woher weiß …


3
Können unabhängige Variablen mit geringer Korrelation mit abhängigen Variablen signifikante Prädiktoren sein?
Ich habe acht unabhängige Variablen und eine abhängige. Ich habe eine Korrelationsmatrix erstellt, und 5 von ihnen haben eine geringe Korrelation mit dem DV. Ich habe dann eine schrittweise multiple Regression durchgeführt, um zu sehen, ob eine / alle IVs den DV vorhersagen können. Die Regression zeigte, dass nur zwei …

3
So reduzieren Sie Prädiktoren auf die richtige Weise für ein logistisches Regressionsmodell
Daher habe ich einige Bücher (oder Teile davon) über Modellierung gelesen (unter anderem F. Harrells "Regressionsmodellierungsstrategien"), da ich derzeit ein logistisches Modell erstellen muss, das auf binären Antwortdaten basiert. Ich habe sowohl kontinuierliche, kategoriale als auch binäre Daten (Prädiktoren) in meinem Datensatz. Grundsätzlich habe ich momentan ungefähr 100 Prädiktoren, was …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.