Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung

8
Algorithmen zur automatischen Modellauswahl
Ich möchte einen Algorithmus zur automatischen Modellauswahl implementieren. Ich denke über eine schrittweise Regression nach, aber alles wird funktionieren (es muss jedoch auf linearen Regressionen basieren). Mein Problem ist, dass ich keine Methodik oder Open-Source-Implementierung finden kann (ich woke in Java). Die Methodik, die ich vorhabe, wäre ungefähr so: Berechnen …

3
Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Merkmalsauswahl und Kreuzvalidierung
Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb …

6
Featureauswahl für "endgültiges" Modell bei der Durchführung einer Gegenprüfung beim maschinellen Lernen
Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …


6
Variablenauswahl für prädiktive Modellierung im Jahr 2016 wirklich erforderlich?
Diese Frage wurde bereits vor einigen Jahren im Lebenslauf gestellt. Angesichts von 1) um Größenordnungen besserer Computertechnologie (z. B. Parallel Computing, HPC usw.) und 2) neuerer Techniken, z. Erstens einen Kontext. Nehmen wir an, das Ziel ist nicht das Testen von Hypothesen, nicht das Schätzen von Effekten, sondern die Vorhersage …

9
Was sind die Nachteile der Verwendung des Lassos zur Variablenauswahl für die Regression?
Nach meinem Wissen behandelt die Verwendung von Lasso für die Variablenauswahl das Problem der korrelierten Eingaben. Da es der Regression des kleinsten Winkels entspricht, ist es auch rechnerisch nicht langsam. Viele Leute (zum Beispiel Leute, von denen ich weiß, dass sie Biostatistiken machen) scheinen jedoch eine schrittweise oder stufenweise variable …


2
Eine genauere Diskussion der Variablenauswahl
Hintergrund Ich mache klinische Forschung in der Medizin und habe mehrere Statistikkurse besucht. Ich habe noch nie eine Arbeit mit linearer / logistischer Regression veröffentlicht und möchte die Variablenauswahl korrekt durchführen. Interpretierbarkeit ist wichtig, also keine ausgefallenen maschinellen Lerntechniken. Ich habe mein Verständnis der Variablenauswahl zusammengefasst. Würde es jemandem etwas …

3
Verwendung der Hauptkomponentenanalyse (PCA) zur Merkmalsauswahl
Ich bin neu in der Featureauswahl und habe mich gefragt, wie Sie PCA für die Featureauswahl verwenden würden. Berechnet PCA für jede Eingabevariable eine relative Bewertung, mit der Sie nichtinformative Eingabevariablen herausfiltern können? Grundsätzlich möchte ich in der Lage sein, die ursprünglichen Merkmale in den Daten nach Varianz oder Menge …

3
Kann eine zufällige Gesamtstruktur für die Feature-Auswahl in der multiplen linearen Regression verwendet werden?
Da RF mit Nichtlinearität umgehen kann, aber keine Koeffizienten bereitstellt, ist es ratsam, Zufallsgesamtstrukturen zu verwenden, um die wichtigsten Merkmale zu erfassen und diese Merkmale dann in ein Modell mit mehreren linearen Regressionen zu integrieren, um ihre Koeffizienten zu erhalten.

6
Funktionen zur Zeitreihenklassifizierung
Ich betrachte das Problem der (Mehrklassen-) Klassifikation basierend auf Zeitreihen variabler Länge , das heißt, eine Funktion über eine globale Darstellung der Zeitreihe durch einen Satz ausgewählter Merkmale fester Größe unabhängig von , und verwenden Sie dann Standardklassifizierungsmethoden für diesen Feature-Set. Ich bin nicht an Prognosen interessiert, dh an der …

5
Wie interpretiert man SVM-Feature-Gewichte?
Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.