In vielen Algorithmen für maschinelles Lernen ist die Feature-Skalierung (auch bekannt als variable Skalierung, Normalisierung) ein häufiger Vorverarbeitungsschritt. Wikipedia - Feature-Skalierung - Diese Frage war knapp. Frage 41704 - Wie und warum funktionieren Normalisierung und Feature-Skalierung? Ich habe zwei Fragen speziell in Bezug auf Entscheidungsbäume: Gibt es Implementierungen von Entscheidungsbäumen, …
Sollte die Merkmalsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden? Ich habe einige Diskussionen und Artikel wie Guyon (2003) und Singhi und Liu (2006) durchgearbeitet, bin mir aber immer noch nicht sicher, ob ich die richtige Antwort finden soll. Mein Versuchsaufbau ist wie folgt: Datensatz: 50 gesunde Kontrollpersonen und …
Ich suche nach einer intuitiven Antwort, warum ein GLM LASSO-Modell einen bestimmten Prädiktor aus einer Gruppe stark korrelierter auswählt und warum dies anders ist als die Auswahl der besten Teilmengenfunktionen. Aus der in Abb. 2 in Tibshirani 1996 gezeigten Geometrie des LASSO gehe ich davon aus, dass LASSO den Prädiktor …
Ich versuche, die Idee der gegenseitigen Information auf die Merkmalsauswahl anzuwenden, wie in diesen Vorlesungsunterlagen (auf Seite 5) beschrieben. Meine Plattform ist Matlab. Ein Problem, das ich bei der Berechnung gegenseitiger Informationen aus empirischen Daten finde, ist, dass die Anzahl immer nach oben verzerrt ist. Ich habe ungefähr 3 ~ …
Ich habe Zugriff auf einen sehr großen Datensatz. Die Daten stammen aus MEG- Aufnahmen von Personen, die Musikausschnitte aus einem von vier Genres hören. Die Daten sind wie folgt: 6 Themen 3 Experimentelle Wiederholungen (Epochen) 120 Prüfungen pro Epoche 8 Sekunden Daten pro Versuch bei 500 Hz (= 4000 Abtastungen) …
Ich habe einen Datensatz mit ungefähr 70 Variablen, die ich reduzieren möchte. Ich möchte den Lebenslauf verwenden, um die nützlichsten Variablen auf folgende Weise zu finden. 1) Wählen Sie zufällig etwa 20 Variablen aus. 2) Verwenden Sie stepwise/ LASSO/ lars/ etc, um die wichtigsten Variablen auszuwählen. 3) Wiederholen Sie ~ …
Ich benutze SVM, um Diabetes vorherzusagen. Ich verwende den BRFSS- Datensatz für diesen Zweck. Der Datensatz hat die Abmessungen und ist verzerrt. Der Prozentsatz von s in der Zielvariablen beträgt während die s die verbleibenden .11 % 89 %432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Ich verwende nur 15aus 136unabhängigen …
Eine neue Frage hier. Ich führe derzeit eine nichtparametrische Regression mit dem np-Paket in R durch. Ich habe 7 Funktionen und mit einem Brute-Force-Ansatz habe ich die besten 3 identifiziert. Aber bald werde ich viel mehr als 7 Funktionen haben! Meine Frage ist, was die derzeit besten Methoden zur Merkmalsauswahl …
Ich habe drei Funktionen, mit denen ich ein Klassifizierungsproblem lösen kann. Ursprünglich erzeugten diese Features boolesche Werte, sodass ich ihre Redundanz bewerten konnte, indem ich mir ansah, wie stark sich die Sätze positiver und negativer Klassifikationen überschneiden. Jetzt habe ich die Funktionen erweitert, um stattdessen echte Werte (Scores) zu erzeugen, …
Hier ist mein Code für die Feature-Auswahlmethode in Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Aber nachdem ich neues X (abhängige Variable - X_new) erhalten habe, woher weiß …
Ich frage mich, ob es eine gute Idee ist, diese Variablen mit einem negativen Variablen-Wichtigkeitswert ("% IncMSE") in einem Regressionskontext zu entfernen. Und wenn es mir eine bessere Vorhersage gibt? Was denkst du?
Ich habe acht unabhängige Variablen und eine abhängige. Ich habe eine Korrelationsmatrix erstellt, und 5 von ihnen haben eine geringe Korrelation mit dem DV. Ich habe dann eine schrittweise multiple Regression durchgeführt, um zu sehen, ob eine / alle IVs den DV vorhersagen können. Die Regression zeigte, dass nur zwei …
Daher habe ich einige Bücher (oder Teile davon) über Modellierung gelesen (unter anderem F. Harrells "Regressionsmodellierungsstrategien"), da ich derzeit ein logistisches Modell erstellen muss, das auf binären Antwortdaten basiert. Ich habe sowohl kontinuierliche, kategoriale als auch binäre Daten (Prädiktoren) in meinem Datensatz. Grundsätzlich habe ich momentan ungefähr 100 Prädiktoren, was …
Ich habe einen Datensatz mit drei Variablen, wobei alle Variablen quantitativ sind. Nennen wir es , und . Ich passe ein Regressionsmodell in einer Bayes'schen Perspektive über MCMC mit anyyyx1x1x_1x2x2x_2rjags Ich habe eine explorative Analyse durchgeführt und das Streudiagramm von , dass ein quadratischer Term verwendet werden sollte. Dann habe …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.