Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung

1
Erklären Sie die Schritte des LLE-Algorithmus (Local Linear Embedding).
Ich verstehe, dass das Grundprinzip des Algorithmus für LLE aus drei Schritten besteht. Ermitteln der Nachbarschaft jedes Datenpunkts anhand einer Metrik wie k-nn. Suchen Sie für jeden Nachbarn Gewichte, die die Auswirkung des Nachbarn auf den Datenpunkt angeben. Konstruieren Sie die niedrig dimensionale Einbettung der Daten basierend auf den berechneten …



2
Warum verringert die Erhöhung der Anzahl der Funktionen die Leistung?
Ich versuche, eine Vorstellung davon zu bekommen, warum das Erhöhen der Anzahl von Funktionen die Leistung verringern kann. Ich verwende derzeit einen LDA-Klassifikator, der bei bestimmten Funktionen eine bessere zweigeteilte Leistung erbringt, bei mehr Funktionen jedoch eine schlechtere Leistung. Meine Klassifikationsgenauigkeit wird mit einem geschichteten 10-fachen xval durchgeführt. Gibt es …


1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Wie wählt man Variablen in einem Regressionsmodell aus?
Der traditionelle Ansatz zur Variablenauswahl besteht darin, Variablen zu finden, die am meisten zur Vorhersage einer neuen Reaktion beitragen. Kürzlich habe ich von einer Alternative dazu erfahren. Bei der Modellierung von Variablen, die die Wirkung einer Behandlung bestimmen - wie zum Beispiel in einer klinischen Studie mit einem Arzneimittel - …

2
Domain-Agnostic Feature Engineering, das semantische Bedeutung behält?
Feature Engineering ist oft ein wichtiger Bestandteil des maschinellen Lernens (es wurde stark genutzt, um den KDD Cup 2010 zu gewinnen ). Ich finde jedoch, dass die meisten Feature-Engineering-Techniken entweder Zerstören Sie jede intuitive Bedeutung der zugrunde liegenden Funktionen oder sind sehr spezifisch für eine bestimmte Domäne oder sogar bestimmte …

5
Kann ich PCA zur Variablenauswahl für die Clusteranalyse verwenden?
Ich muss die Anzahl der Variablen reduzieren, um eine Clusteranalyse durchzuführen. Meine Variablen sind stark korreliert, daher habe ich mir überlegt, eine Faktoranalyse-PCA (Principal Component Analysis) durchzuführen. Wenn ich jedoch die resultierenden Bewertungen verwende, sind meine Cluster nicht ganz korrekt (im Vergleich zu früheren Klassifizierungen in der Literatur). Frage: Kann …

3
Clustering Wahrscheinlichkeitsverteilungen - Methoden & Metriken?
Ich habe einige Datenpunkte, die jeweils 5 Vektoren agglomerierter diskreter Ergebnisse enthalten, wobei die Ergebnisse jedes Vektors durch eine andere Verteilung generiert werden (die spezifische Art, von der ich nicht sicher bin, ist Weibull, wobei der Formparameter etwa exponentiell zur Potenz variiert) Gesetz (1 bis 0, ungefähr).) Ich versuche, einen …

4
Wie wende ich die Methode der iterativ neu gewichteten kleinsten Quadrate (IRLS) auf das LASSO-Modell an?
Ich habe eine logistische Regression mit dem IRLS-Algorithmus programmiert . Ich möchte eine LASSO-Bestrafung anwenden , um automatisch die richtigen Funktionen auszuwählen. Bei jeder Iteration wird Folgendes gelöst: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} Sei eine nicht negative reelle Zahl. Ich bestrafe nicht den in The Elements of. Statistisches Lernen . Das Gleiche gilt …

4
Was führt dazu, dass Lasso bei der Funktionsauswahl instabil ist?
Bei der komprimierten Abtastung gibt es einen Satz, der garantiert, dass argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc hat eine eindeutige, spärliche Lösungccc (siehe Anhang für weitere Details). Gibt es einen ähnlichen Satz für Lasso? Wenn es einen solchen Satz gibt, garantiert er …



2
Bayes-Schätzer sind immun gegen Selektionsverzerrungen
Sind Bayes-Schätzer immun gegen Selektionsverzerrungen? Die meisten Veröffentlichungen, in denen die Schätzung in hoher Dimension erörtert wird, z. B. Daten zur gesamten Genomsequenz, werfen häufig das Problem der Selektionsverzerrung auf. Die Auswahlverzerrung ergibt sich aus der Tatsache, dass, obwohl wir Tausende potenzieller Prädiktoren haben, nur wenige ausgewählt werden und auf …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.