Als «feature-selection» getaggte Fragen

Methoden und Prinzipien zur Auswahl einer Teilmenge von Attributen zur Verwendung bei der weiteren Modellierung


2
Ist es tatsächlich in Ordnung, vor der Kreuzvalidierung eine unbeaufsichtigte Funktionsauswahl durchzuführen?
In den Elementen des statistischen Lernens habe ich die folgende Aussage gefunden: Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden. Zum Beispiel könnten wir die 1000 Prädiktoren mit der höchsten Varianz über alle 50 Stichproben auswählen, bevor wir mit der Kreuzvalidierung beginnen. Da …

2
Funktionsauswahl für Clustering-Probleme
Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …

6
Vorbereiten / Erstellen von Funktionen für die Erkennung von Anomalien (Netzwerksicherheitsdaten)
Mein Ziel ist es, Netzwerkprotokolle (z. B. Apache, Syslog, Active Directory-Sicherheitsüberwachung usw.) mithilfe von Clustering / Anomalieerkennung für Intrusion Detection-Zwecke zu analysieren. Aus den Protokollen habe ich viele Textfelder wie IP-Adresse, Benutzername, Hostname, Zielport, Quellport usw. (insgesamt 15-20 Felder). Ich weiß nicht, ob es einige Angriffe in den Protokollen gibt, …

4
Lasso-ing die Reihenfolge einer Verzögerung?
Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j …

1
Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?
Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?
Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …



3
Berechnung der besten Teilmenge von Prädiktoren für die lineare Regression
Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das …



3
Wie werden Hauptkomponenten als Prädiktoren in GLM verwendet?
Wie würde ich die Ausgabe einer Hauptkomponentenanalyse (PCA) in einem verallgemeinerten linearen Modell (GLM) verwenden, vorausgesetzt, die PCA wird für die Variablenauswahl für das GLM verwendet? Erläuterung: Ich möchte PCA verwenden, um die Verwendung korrelierter Variablen im GLM zu vermeiden. PCA gibt mir jedoch Ausgaben wie .2*variable1+.5*variable3usw. Ich bin es …

1
Warum Lasso für die Funktionsauswahl?
Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.