Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung

2
Unterschied zwischen der Auswahl von Merkmalen basierend auf „F-Regression“ und basierend auf
Wird beim Vergleichen von Features F-regressiondasselbe verwendet wie beim Korrelieren von Features mit der Beschriftung und beim Beobachten des Werts?R2R2R^2 Ich habe oft gesehen, dass meine Kollegen F regressionin ihrer Pipeline für maschinelles Lernen eine für die Featureauswahl verwenden sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Einige sagen mir bitte - warum gibt es die …

1
Bayesianisches Lasso gegen Spitze und Platte
Frage: Was sind die Vor- und Nachteile einer vorherigen Verwendung für die Variablenauswahl? Angenommen , ich habe die Wahrscheinlichkeit: , wo ich setzen kann entweder eine der priors: oder: y∼N(Xw,σ2I)y∼N(Xw,σ2I)y\sim\mathcal{N}(Xw,\sigma^2I)wi∼πδ0+(1−π)N(0,100)π=0.9,wi∼πδ0+(1−π)N(0,100)π=0.9, w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,, wi∼exp(−λ|wi|)λ∼Γ(1,1).wi∼exp⁡(−λ|wi|)λ∼Γ(1,1). w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,. Ich setze , um zu betonen, dass die meisten Gewichte Null …

3
Wie sollten Feature-Auswahl und Hyperparameter-Optimierung in der Pipeline für maschinelles Lernen angeordnet werden?
Mein Ziel ist es, Sensorsignale zu klassifizieren. Das bisherige Konzept meiner Lösung lautet: i) Konstruieren von Features aus dem Rohsignal ii) Auswählen relevanter Features mit ReliefF und einem Clustering-Ansatz iii) Anwenden von NN, Random Forest und SVM Ich bin jedoch in einem Dilemma gefangen. In ii) und iii) gibt es …

2
Warum wird die Auswahl der besten Teilmenge im Vergleich zu Lasso nicht bevorzugt?
Ich lese über die Auswahl der besten Teilmengen im Buch Elemente des statistischen Lernens. Wenn ich 3 Prädiktoren , erstelle ich 2 3 = 8 Teilmengen:x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 Teilmenge ohne Prädiktoren Teilmenge mit Prädiktor x1x1x_1 Teilmenge mit Prädiktor x2x2x_2 Teilmenge mit Prädiktor x3x3x_3 Teilmenge mit Prädiktoren x1,x2x1,x2x_1,x_2 Teilmenge mit Prädiktoren x1,x3x1,x3x_1,x_3 Teilmenge …

2
Widersprüchliche Ansätze zur Variablenauswahl: AIC, p-Werte oder beides?
Soweit ich weiß, ist die Variablenauswahl basierend auf p-Werten (zumindest im Regressionskontext) stark fehlerhaft. Es sieht so aus, als ob die Variablenauswahl basierend auf AIC (oder ähnlichem) auch von einigen aus ähnlichen Gründen als fehlerhaft angesehen wird, obwohl dies ein wenig unklar erscheint (siehe z. B. meine Frage und einige …



2
Gibt es Umstände, unter denen schrittweise Regression angewendet werden sollte?
In der Vergangenheit war die schrittweise Regression in vielen biomedizinischen Veröffentlichungen überstrapaziert. Dies scheint sich jedoch durch eine bessere Aufklärung der zahlreichen Themen zu verbessern. Viele ältere Rezensenten fragen jedoch noch danach. Unter welchen Umständen spielt die schrittweise Regression eine Rolle und sollte gegebenenfalls angewendet werden?



2
Ermitteln der besten Funktionen in Interaktionsmodellen
Ich habe eine Liste von Proteinen mit ihren Merkmalswerten. Eine Beispieltabelle sieht folgendermaßen aus: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 Zeilen sind Proteine ​​und Spalten sind Merkmale. Ich habe auch eine Liste von Proteinen, die ebenfalls interagieren. beispielsweise Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 Problem : Für eine vorläufige Analyse möchte …

3
Warum benötigen neuronale Netze die Auswahl / Entwicklung von Funktionen?
Insbesondere im Zusammenhang mit Kaggle-Wettbewerben habe ich festgestellt, dass es bei der Leistung des Modells ausschließlich um die Auswahl / Entwicklung von Funktionen geht. Ich kann zwar vollständig verstehen, warum dies bei den konventionelleren / altmodischen ML-Algorithmen der Fall ist, sehe aber nicht, warum dies bei Verwendung tiefer neuronaler Netze …

1
Warum wird in Random Forest eine zufällige Teilmenge von Features auf Knotenebene und nicht auf Baumebene ausgewählt?
Meine Frage: Warum werden in zufälligen Gesamtstrukturen zufällige Teilmengen von Features für die Aufteilung auf Knotenebene in jedem Baum berücksichtigt, anstatt auf Baumebene ? Hintergrund: Dies ist so etwas wie eine historische Frage. Tin Kam Ho veröffentlichte diesen Aufsatz über die Konstruktion von "Entscheidungswäldern", indem er 1998 zufällig eine Teilmenge …

2
Ist es falsch, Features basierend auf dem p-Wert auszuwählen?
Es gibt mehrere Beiträge zum Auswählen von Features. Eine der Methoden beschreibt die Wichtigkeit von Merkmalen basierend auf t-Statistiken. In R, varImp(model)angewendet auf ein lineares Modell mit standardisierten Merkmalen, wird der Absolutwert der t-Statistik für jeden Modellparameter verwendet. Im Grunde genommen wählen wir ein Feature basierend auf seiner t-Statistik aus, …

1
Variablenauswahl vs Modellauswahl
Ich verstehe also, dass die Variablenauswahl Teil der Modellauswahl ist. Woraus besteht die Modellauswahl genau? Ist es mehr als das Folgende: 1) Wählen Sie eine Distribution für Ihr Modell 2) erklärende Variablen wählen,? Ich frage dies, weil ich einen Artikel von Burnham & Anderson lese : AIC vs BIC, in …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.