Statistiken und Big Data feature-selection

8

Algorithmen zur automatischen Modellauswahl

Ich möchte einen Algorithmus zur automatischen Modellauswahl implementieren. Ich denke über eine schrittweise Regression nach, aber alles wird funktionieren (es muss jedoch auf linearen Regressionen basieren). Mein Problem ist, dass ich keine Methodik oder Open-Source-Implementierung finden kann (ich woke in Java). Die Methodik, die ich vorhabe, wäre ungefähr so: Berechnen …

193 references feature-selection model-selection aic stepwise-regression

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Merkmalsauswahl und Kreuzvalidierung

Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb …

76 cross-validation feature-selection

6

Featureauswahl für "endgültiges" Modell bei der Durchführung einer Gegenprüfung beim maschinellen Lernen

Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …

76 machine-learning classification cross-validation feature-selection genetics

3

Warum bietet das Lasso eine variable Auswahl?

Ich habe Elemente des statistischen Lernens gelesen und möchte wissen, warum das Lasso eine variable Auswahl bietet und die Gratregression nicht. Beide Methoden minimieren die verbleibende Quadratsumme und beschränken die möglichen Werte der Parameter . Für das Lasso ist die Bedingung , während sie für den Kamm für einige ist …

76 regression feature-selection lasso regularization

6

Variablenauswahl für prädiktive Modellierung im Jahr 2016 wirklich erforderlich?

Diese Frage wurde bereits vor einigen Jahren im Lebenslauf gestellt. Angesichts von 1) um Größenordnungen besserer Computertechnologie (z. B. Parallel Computing, HPC usw.) und 2) neuerer Techniken, z. Erstens einen Kontext. Nehmen wir an, das Ziel ist nicht das Testen von Hypothesen, nicht das Schätzen von Effekten, sondern die Vorhersage …

67 machine-learning modeling feature-selection model-selection prediction

9

Was sind die Nachteile der Verwendung des Lassos zur Variablenauswahl für die Regression?

Nach meinem Wissen behandelt die Verwendung von Lasso für die Variablenauswahl das Problem der korrelierten Eingaben. Da es der Regression des kleinsten Winkels entspricht, ist es auch rechnerisch nicht langsam. Viele Leute (zum Beispiel Leute, von denen ich weiß, dass sie Biostatistiken machen) scheinen jedoch eine schrittweise oder stufenweise variable …

60 regression feature-selection lasso

3

Variablen werden häufig angepasst (z. B. standardisiert), bevor ein Modell erstellt wird. Wann ist dies eine gute und wann eine schlechte Idee?

Unter welchen Umständen möchten oder möchten Sie eine Variable vor der Modellanpassung skalieren oder standardisieren? Und welche Vor- / Nachteile hat die Skalierung einer Variablen?

56 modeling predictive-models feature-selection theory standardization

2

Eine genauere Diskussion der Variablenauswahl

Hintergrund Ich mache klinische Forschung in der Medizin und habe mehrere Statistikkurse besucht. Ich habe noch nie eine Arbeit mit linearer / logistischer Regression veröffentlicht und möchte die Variablenauswahl korrekt durchführen. Interpretierbarkeit ist wichtig, also keine ausgefallenen maschinellen Lerntechniken. Ich habe mein Verständnis der Variablenauswahl zusammengefasst. Würde es jemandem etwas …

55 regression feature-selection model-selection

3

Verwendung der Hauptkomponentenanalyse (PCA) zur Merkmalsauswahl

Ich bin neu in der Featureauswahl und habe mich gefragt, wie Sie PCA für die Featureauswahl verwenden würden. Berechnet PCA für jede Eingabevariable eine relative Bewertung, mit der Sie nichtinformative Eingabevariablen herausfiltern können? Grundsätzlich möchte ich in der Lage sein, die ursprünglichen Merkmale in den Daten nach Varianz oder Menge …

54 r pca feature-selection

3

Kann eine zufällige Gesamtstruktur für die Feature-Auswahl in der multiplen linearen Regression verwendet werden?

Da RF mit Nichtlinearität umgehen kann, aber keine Koeffizienten bereitstellt, ist es ratsam, Zufallsgesamtstrukturen zu verwenden, um die wichtigsten Merkmale zu erfassen und diese Merkmale dann in ein Modell mit mehreren linearen Regressionen zu integrieren, um ihre Koeffizienten zu erhalten.

50 regression machine-learning feature-selection random-forest regression-strategies

6

Funktionen zur Zeitreihenklassifizierung

Ich betrachte das Problem der (Mehrklassen-) Klassifikation basierend auf Zeitreihen variabler Länge , das heißt, eine Funktion über eine globale Darstellung der Zeitreihe durch einen Satz ausgewählter Merkmale fester Größe unabhängig von , und verwenden Sie dann Standardklassifizierungsmethoden für diesen Feature-Set. Ich bin nicht an Prognosen interessiert, dh an der …

43 time-series classification feature-selection signal-processing

5

Wie interpretiert man SVM-Feature-Gewichte?

Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …

42 svm feature-selection python scikit-learn

5

Verwendung von LASSO aus dem Paket lars (oder glmnet) in R zur Variablenauswahl

Tut mir leid, wenn diese Frage etwas grundlegend ist. Ich möchte die LASSO-Variablenauswahl für ein Modell mit mehreren linearen Regressionen in R verwenden. Ich habe 15 Prädiktoren, von denen einer kategorisch ist (wird das ein Problem verursachen?). Nach dem Setzen von und ich die folgenden Befehle:yXxxyyy model = lars(x, y) …

39 feature-selection lasso glmnet lars

8

Wann sollte eine Variable in eine Regression einbezogen werden, obwohl sie statistisch nicht signifikant ist?

Ich bin ein Wirtschaftsstudent mit etwas Erfahrung in Ökonometrie und R. Ich würde gerne wissen, ob es jemals eine Situation gibt, in der wir eine Variable in eine Regression einbeziehen sollten, obwohl sie statistisch nicht signifikant ist.

37 statistical-significance feature-selection

Als «feature-selection» getaggte Fragen