Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung

2
Featureauswahl mit zufälligen Wäldern
Ich habe einen Datensatz mit hauptsächlich finanziellen Variablen (120 Features, 4k-Beispiele), die größtenteils stark korreliert und sehr verrauscht sind (z. B. technische Indikatoren). Daher möchte ich für die spätere Verwendung beim Modelltraining (binäre Klassifizierung) maximal 20-30 auswählen - erhöhen verringern). Ich dachte darüber nach, zufällige Wälder für das Feature-Ranking zu …


4
Text Mining: Wie gruppiert man Texte (zB Nachrichtenartikel) mit künstlicher Intelligenz?
Ich habe einige neuronale Netze (MLP (vollständig verbunden), Elman (wiederkehrend)) für verschiedene Aufgaben aufgebaut, z. B. zum Spielen von Pong, zum Klassifizieren handgeschriebener Ziffern und anderer Dinge ... Zusätzlich habe ich versucht, einige erste Faltungs-Neuronale Netze aufzubauen, z. B. zum Klassifizieren von mehrstelligen handschriftlichen Notizen, aber ich bin völlig neu …

1
Gini-Abnahme und Gini-Verunreinigung von Kinderknoten
Ich arbeite an der Wichtigkeitsmessung des Gini-Features für zufällige Gesamtstrukturen. Daher muss ich die Gini-Abnahme der Knotenverunreinigung berechnen. So mache ich das, was zu einem Konflikt mit der Definition führt und andeutet, dass ich mich irgendwo irren muss ... :) Für einen binären Baum kann ich unter Berücksichtigung der Wahrscheinlichkeiten …



3
Bedeuten größere Koeffizienten für lineare Klassifikatoren wichtigere Merkmale?
Ich bin ein Software-Ingenieur, der am maschinellen Lernen arbeitet. Nach meinem Verständnis bilden lineare Regression (wie OLS) und lineare Klassifikation (wie logistische Regression und SVM) eine Vorhersage auf der Grundlage eines inneren Produkts zwischen trainierten Koeffizienten und Merkmalsvariablen :w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = …


1
Wie genau funktioniert die Auswahl von Chi-Quadrat-Features?
Ich weiß, dass für jedes Feature-Class-Paar der Wert der Chi-Quadrat-Statistik berechnet wird und mit einem Schwellenwert verglichen wird. Ich bin allerdings etwas verwirrt. Wenn es Merkmale und k gibtmmmkkk Klassen gibt, wie erstellt man die Kontingenztabelle? Wie entscheidet man, welche Features beibehalten und welche entfernt werden sollen? Jede Klarstellung wird …

1
Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …


1
Was ist der vorwärts stufenweise Regressionsalgorithmus?
Vielleicht bin ich nur müde, aber ich habe Probleme, den Forward Stagewise Regression-Algorithmus zu verstehen. Aus "Elemente des statistischen Lernens" Seite 60: Die vorwärts-stufenweise Regression (FS) ist noch stärker eingeschränkt als die vorwärts-schrittweise Regression. Es beginnt wie eine schrittweise Vorwärtsregression mit einem Achsenabschnitt von [dem Mittelwert von] y und zentrierten …

1
GAM vs LOESS vs Splines
Kontext : Ich möchte eine Linie in einem Streudiagramm zeichnen, die nicht parametrisch erscheint, daher verwende ich geom_smooth()in ggplotin R. Es gibt automatisch geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …

5
Ist es besser, eine explorative Datenanalyse nur für den Trainingsdatensatz durchzuführen?
Ich mache eine explorative Datenanalyse (EDA) für einen Datensatz. Dann werde ich einige Features auswählen, um eine abhängige Variable vorherzusagen. Die Frage ist: Soll ich die EDA nur für meinen Trainingsdatensatz durchführen? Oder sollte ich die Trainings- und Testdatensätze zusammenfügen und dann die EDA auf beiden durchführen und die Funktionen …

1
Sensitivitätsanalyse in tiefen neuronalen Netzen
Nach einer bereits beantworteten Frage ( Auslesen der Wichtigkeit von Einschicht-Feed-Forward- Netzen) suche ich nach Rückschlüssen auf die Relevanz von Eingaben in neuronalen Netzen. Angesichts eines tiefen Netzes, in dem die Rekonstruktion der Eingangsbedeutung durch Rückwärtsdurchlaufen der Schichten vom interessierenden Ausgangsknoten schwierig oder zeitaufwendig sein kann, habe ich mich gefragt, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.