Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung

1
Warum werden Interaktionen bei multipler Regression als Produkte und nicht als etwas anderes der Prädiktoren modelliert?
Betrachten Sie die multiple lineare Regression. Diese Frage mag täuschend einfach sein, aber ich versuche intuitiv zu verstehen, warum, wenn ich beispielsweise Prädiktoren X1 und X2 habe, Interaktionen zwischen diesen Prädiktoren von X1 * X2 angemessen erfasst werden können. Ich weiß, dass Interaktionsbegriffe als Produkte modelliert werden, nur weil mir …

2
Merkmalsauswahl auf einem Bayes'schen hierarchischen verallgemeinerten linearen Modell
Ich möchte eine hierarchische GLM schätzen, aber mit Merkmalsauswahl, um zu bestimmen, welche Kovariaten auf Bevölkerungsebene relevant sind, um sie einzubeziehen. Angenommen, ich habe GGG Gruppen mit NNN Beobachtungen und KKK möglichen Kovariaten. Das heißt, ich habe eine Entwurfsmatrix von Kovariaten , Ergebnissen . Die Koeffizienten für diese Kovariaten sind …

1
Gruppe elastisches Netz
Das Lasso und das elastische Netz können keine Variablen mit mehr als zwei Kategorien verarbeiten. Daher ist für die Anwendung dieser Methoden eine Aufteilung der kategorialen Variablen in Dummies erforderlich. Dies kann zu mehreren Problemen führen, und daher gibt es Erweiterungen für das Lasso zum Gruppen-Lasso oder zum spärlichen Gruppen-Lasso …

1
Verwenden von von LDA generierten Themenwörtern zur Darstellung eines Dokuments
Ich möchte eine Dokumentklassifizierung durchführen, indem ich jedes Dokument als eine Reihe von Funktionen darstelle. Ich weiß, dass es viele Möglichkeiten gibt: BOW, TFIDF, ... Ich möchte Latent Dirichlet Allocation (LDA) verwenden, um die Themenschlüsselwörter von JEDEM EINZELNEN Dokument zu extrahieren. Das Dokument wird durch diese Themenwörter dargestellt. Ich weiß …


2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

6
Ist die Verwendung derselben Daten für die Merkmalsauswahl und Kreuzvalidierung voreingenommen oder nicht?
Wir haben einen kleinen Datensatz (ca. 250 Beispiele * 100 Features), auf dem wir nach Auswahl der besten Feature-Teilmenge einen binären Klassifikator erstellen möchten. Nehmen wir an, wir partitionieren die Daten in: Schulung, Validierung und Prüfung Für die Merkmalsauswahl wenden wir ein Wrapper-Modell an, das auf der Auswahl von Merkmalen …

3
Kann ich eine umfassende Suche mit Kreuzvalidierung für die Funktionsauswahl durchführen?
Ich habe einige Beiträge zur Funktionsauswahl und Kreuzvalidierung gelesen, habe aber noch Fragen zum richtigen Verfahren. Angenommen, ich habe einen Datensatz mit 10 Funktionen und möchte die besten Funktionen auswählen. Angenommen, ich verwende einen Klassifikator für den nächsten Nachbarn. Kann ich mithilfe der Kreuzvalidierung eine umfassende Suche durchführen, um die …

1
Konfidenzintervalle bei Verwendung des Bayes-Theorems
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …

1
Sparse lineare Regression 0-Norm und 1-Norm
Wir haben eine Antwort Y∈RnY∈RnY \in \Bbb R^n und Prädiktoren X=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} Das Problem, das wir lösen wollen, ist argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 Es ist jedoch NP-schwer, also lösen …


1
Gibt es in PCA eine systematische Möglichkeit, Variablen zu löschen, um die Trennung zweier Populationen zu maximieren?
Ich versuche mithilfe der Hauptkomponentenanalyse zu untersuchen, ob es möglich ist, mit gutem Vertrauen zu erraten, aus welcher Population ("Aurignacian" oder "Gravettian") ein neuer Datenpunkt stammt. Ein Datenpunkt wird durch 28 Variablen beschrieben, von denen die meisten relative Häufigkeiten archäologischer Artefakte sind. Die verbleibenden Variablen werden als Verhältnisse anderer Variablen …

1
AIC versus Likelihood Ratio Test bei der Auswahl von Modellvariablen
Die Software, die ich derzeit zum Erstellen eines Modells verwende, vergleicht ein "aktuelles Lauf" -Modell mit einem "Referenzmodell" und meldet (falls zutreffend) sowohl einen Chi-Quadrat-p-Wert basierend auf Likelihood-Ratio-Tests als auch AIC-Werte für jedes Modell. Ich weiß, dass ein Vorteil von AIC gegenüber Likelihood-Ratio-Tests darin besteht, dass AIC mit nicht verschachtelten …

2
Lasso und statistische Signifikanz ausgewählter Variablen
Ich betrachte ein Regressionsmodell, bei dem eine sehr große Anzahl möglicher erklärender Variablen bewertet wird und schließlich eine kleine Anzahl über die Lasso-Methode der Variablenauswahl ausgewählt wird. Dasλλ\lambda Der Abstimmungsparameter im Lasso wird anhand der Leistung der Kreuzvalidierungsprognose ausgewählt, die ziemlich normal ist. Wenn ich jedoch die Liste der ausgewählten …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.