Statistiken und Big Data feature-selection

3

Ich möchte die Wichtigkeit jedes Eingabe-Features mithilfe eines tiefen Modells berechnen. Ich fand jedoch nur einen Artikel über die Auswahl von Funktionen mithilfe von Deep Learning - die Auswahl von Funktionen . Sie fügen eine Ebene von Knoten ein, die direkt mit jedem Feature verbunden sind, vor der ersten verborgenen …

9 feature-selection deep-learning deep-belief-networks rbm

2

Ist es tatsächlich in Ordnung, vor der Kreuzvalidierung eine unbeaufsichtigte Funktionsauswahl durchzuführen?

In den Elementen des statistischen Lernens habe ich die folgende Aussage gefunden: Es gibt eine Einschränkung: Erste unbeaufsichtigte Screening-Schritte können durchgeführt werden, bevor die Proben weggelassen werden. Zum Beispiel könnten wir die 1000 Prädiktoren mit der höchsten Varianz über alle 50 Stichproben auswählen, bevor wir mit der Kreuzvalidierung beginnen. Da …

9 machine-learning cross-validation feature-selection

2

Funktionsauswahl für Clustering-Probleme

Ich versuche, verschiedene Datensätze mit unbeaufsichtigten Algorithmen (Clustering) zu gruppieren. Das Problem ist, dass ich viele Funktionen (~ 500) und eine kleine Anzahl von Fällen (200-300) habe. Bisher habe ich nur Klassifizierungsprobleme gemacht, für die ich Daten immer als Trainingssätze gekennzeichnet hatte. Dort habe ich ein Kriterium (dh random.forest.importance oder …

9 r clustering feature-selection unsupervised-learning

6

Vorbereiten / Erstellen von Funktionen für die Erkennung von Anomalien (Netzwerksicherheitsdaten)

Mein Ziel ist es, Netzwerkprotokolle (z. B. Apache, Syslog, Active Directory-Sicherheitsüberwachung usw.) mithilfe von Clustering / Anomalieerkennung für Intrusion Detection-Zwecke zu analysieren. Aus den Protokollen habe ich viele Textfelder wie IP-Adresse, Benutzername, Hostname, Zielport, Quellport usw. (insgesamt 15-20 Felder). Ich weiß nicht, ob es einige Angriffe in den Protokollen gibt, …

9 feature-selection outliers unsupervised-learning feature-construction

4

Lasso-ing die Reihenfolge einer Verzögerung?

Angenommen, ich habe Längsschnittdaten der Form (ich habe mehrere Beobachtungen, dies ist nur die Form einer einzigen). Ich bin an Einschränkungen für interessiert . Ein uneingeschränktes entspricht der Einnahme von mit .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j …

9 feature-selection lasso shrinkage

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Zufälliger Permutationstest zur Merkmalsauswahl

Ich bin verwirrt über die Permutationsanalyse für die Merkmalsauswahl in einem logistischen Regressionskontext. Können Sie den zufälligen Permutationstest klar erläutern und erläutern, wie er für die Merkmalsauswahl gilt? Möglicherweise mit genauem Algorithmus und Beispielen. Wie ist der Vergleich mit anderen Schrumpfungsmethoden wie Lasso oder LAR?

9 regression logistic feature-selection permutation-test shrinkage

4

Wie führe ich mehrere Post-hoc-Chi-Quadrat-Tests an einem 2 x 3-Tisch durch?

Mein Datensatz umfasst entweder die Gesamtmortalität oder das Überleben eines Organismus an drei Standorttypen: Inshore, Midchannel und Offshore. Die Zahlen in der folgenden Tabelle geben die Anzahl der Standorte an. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Ich würde gerne wissen, ob die Anzahl …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Ist es möglich, Kernel-PCA für die Funktionsauswahl zu verwenden?

Ist es möglich, die Kernel-Hauptkomponentenanalyse (kPCA) für die latente semantische Indizierung (LSI) auf dieselbe Weise wie die PCA zu verwenden? Ich führe LSI in R mit der prcompPCA-Funktion durch und extrahiere die Merkmale mit den höchsten Belastungen aus den ersten Komponenten. Dadurch erhalte ich die Funktionen, die die Komponente am …

9 r pca feature-selection kernel-trick

3

Die Verwendung von Medianpolitur für die Merkmalsauswahl

In einem Artikel, den ich kürzlich gelesen habe, bin ich in der Datenanalyse auf Folgendes gestoßen: Die Datentabelle wurde dann in Gewebe und Zelllinien aufgeteilt, und die beiden Untertabellen wurden getrennt median poliert (die Zeilen und Spalten wurden iterativ angepasst, um den Median 0 zu haben), bevor sie wieder zu …

9 feature-selection median genetics

3

Berechnung der besten Teilmenge von Prädiktoren für die lineare Regression

Welche Methoden stehen für die Auswahl von Prädiktoren in multivariater linearer Regression mit geeigneten Prädiktoren zur Verfügung, um eine "optimale" Teilmenge der Prädiktoren zu finden, ohne alle 2 p Teilmengen explizit zu testen ? In 'Applied Survival Analysis' beziehen sich Hosmer & Lemeshow auf Kuks Methode, aber ich kann das …

9 modeling regression multivariable model-selection feature-selection

1

Warum ist Lasso in Matlab viel langsamer als Glmnet in R (10 min gegenüber ~ 1 s)?

Ich habe festgestellt, dass die Funktion Lasso in MATLAB relativ langsam ist. Ich habe viele Regressionsprobleme mit normalerweise 1 bis 100 Prädiktoren und 200 bis 500 Beobachtungen. In einigen Fällen erwies sich Lasso als extrem langsam (um ein Regressionsproblem zu lösen, dauerte es einige Minuten). Ich entdeckte, dass dies der …

9 regression feature-selection regularization

1

Umgang mit sich ändernden Eingangsvektorlängen mit neuronalen Netzen

Ich möchte ein neuronales Netzwerk mit einer Zeichenfolge als Eingabevektor trainieren. Lernbeispiele sind unterschiedlich lang und aus diesem Grund weiß ich nicht, wie ich sie darstellen soll. Angenommen, ich habe zwei Beispiele für Sequenzen, hier Namen: john doe maurice delanoe Das erste Beispiel hat die Länge 8, das zweite die …

9 machine-learning neural-networks feature-selection natural-language

3

Wie werden Hauptkomponenten als Prädiktoren in GLM verwendet?

Wie würde ich die Ausgabe einer Hauptkomponentenanalyse (PCA) in einem verallgemeinerten linearen Modell (GLM) verwenden, vorausgesetzt, die PCA wird für die Variablenauswahl für das GLM verwendet? Erläuterung: Ich möchte PCA verwenden, um die Verwendung korrelierter Variablen im GLM zu vermeiden. PCA gibt mir jedoch Ausgaben wie .2*variable1+.5*variable3usw. Ich bin es …

9 pca generalized-linear-model feature-selection

1

Warum Lasso für die Funktionsauswahl?

Angenommen, ich habe einen hochdimensionalen Datensatz und möchte eine Feature-Auswahl durchführen. Eine Möglichkeit besteht darin, ein Modell zu trainieren, das die wichtigsten Merkmale in diesem Datensatz identifizieren kann, und dieses zu verwenden, um die am wenigsten wichtigen wegzuwerfen. In der Praxis würde ich dafür den SelectFromModel- Transformator von sklearn verwenden …

9 feature-selection linear-model lasso ridge-regression

Als «feature-selection» getaggte Fragen