Betrachten Sie die multiple lineare Regression. Diese Frage mag täuschend einfach sein, aber ich versuche intuitiv zu verstehen, warum, wenn ich beispielsweise Prädiktoren X1 und X2 habe, Interaktionen zwischen diesen Prädiktoren von X1 * X2 angemessen erfasst werden können. Ich weiß, dass Interaktionsbegriffe als Produkte modelliert werden, nur weil mir …
Ich möchte eine hierarchische GLM schätzen, aber mit Merkmalsauswahl, um zu bestimmen, welche Kovariaten auf Bevölkerungsebene relevant sind, um sie einzubeziehen. Angenommen, ich habe GGG Gruppen mit NNN Beobachtungen und KKK möglichen Kovariaten. Das heißt, ich habe eine Entwurfsmatrix von Kovariaten , Ergebnissen . Die Koeffizienten für diese Kovariaten sind …
Das Lasso und das elastische Netz können keine Variablen mit mehr als zwei Kategorien verarbeiten. Daher ist für die Anwendung dieser Methoden eine Aufteilung der kategorialen Variablen in Dummies erforderlich. Dies kann zu mehreren Problemen führen, und daher gibt es Erweiterungen für das Lasso zum Gruppen-Lasso oder zum spärlichen Gruppen-Lasso …
Ich möchte eine Dokumentklassifizierung durchführen, indem ich jedes Dokument als eine Reihe von Funktionen darstelle. Ich weiß, dass es viele Möglichkeiten gibt: BOW, TFIDF, ... Ich möchte Latent Dirichlet Allocation (LDA) verwenden, um die Themenschlüsselwörter von JEDEM EINZELNEN Dokument zu extrahieren. Das Dokument wird durch diese Themenwörter dargestellt. Ich weiß …
Ich bin ein Anfänger in der R- und Feature-Auswahl und habe versucht, mit dem Boruta-Paket meine Anzahl von Variablen auszuwählen (zu verringern) (n = 40). Ich dachte, dass diese Methode auch die mögliche Korrelation zwischen Variablen berücksichtigt, jedoch sind zwei (von den 20 ausgewählten Variablen) stark korreliert und zwei andere …
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
Wir haben einen kleinen Datensatz (ca. 250 Beispiele * 100 Features), auf dem wir nach Auswahl der besten Feature-Teilmenge einen binären Klassifikator erstellen möchten. Nehmen wir an, wir partitionieren die Daten in: Schulung, Validierung und Prüfung Für die Merkmalsauswahl wenden wir ein Wrapper-Modell an, das auf der Auswahl von Merkmalen …
Ich habe einige Beiträge zur Funktionsauswahl und Kreuzvalidierung gelesen, habe aber noch Fragen zum richtigen Verfahren. Angenommen, ich habe einen Datensatz mit 10 Funktionen und möchte die besten Funktionen auswählen. Angenommen, ich verwende einen Klassifikator für den nächsten Nachbarn. Kann ich mithilfe der Kreuzvalidierung eine umfassende Suche durchführen, um die …
Ich berechne einige bedingte Wahrscheinlichkeiten und zugehörige 95% -Konfidenzintervalle. In vielen meiner Fälle habe ich eine einfache Anzahl von xErfolgen aus nVersuchen (aus einer Kontingenztabelle), sodass ich ein Binomial-Konfidenzintervall verwenden kann, wie es binom.confint(x, n, method='exact')in in angegeben ist R. In anderen Fällen habe ich solche Daten jedoch nicht, daher …
Wir haben eine Antwort Y∈RnY∈RnY \in \Bbb R^n und Prädiktoren X=(x1,x2,⋯,xm)T∈Rn×mX=(x1,x2,⋯,xm)T∈Rn×mX = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m} Das Problem, das wir lösen wollen, ist argmink∈Rm(∥Y−Xk∥22+λ∥k∥0)→k0argmink∈Rm(‖Y−Xk‖22+λ‖k‖0)→k0\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0 Es ist jedoch NP-schwer, also lösen …
Normalerweise arbeite ich mehr auf der Seite der Effektschätzung / kausalen Inferenz von Dingen, wo die Leute mit der Mehrfachzuschreibung für fehlende Daten ziemlich vertraut sind, aber im Moment arbeite ich an einem Projekt, das mehr auf der Seite des maschinellen Lernens liegt. Wir erwarten, dass einige Daten fehlen, da …
Ich versuche mithilfe der Hauptkomponentenanalyse zu untersuchen, ob es möglich ist, mit gutem Vertrauen zu erraten, aus welcher Population ("Aurignacian" oder "Gravettian") ein neuer Datenpunkt stammt. Ein Datenpunkt wird durch 28 Variablen beschrieben, von denen die meisten relative Häufigkeiten archäologischer Artefakte sind. Die verbleibenden Variablen werden als Verhältnisse anderer Variablen …
Die Software, die ich derzeit zum Erstellen eines Modells verwende, vergleicht ein "aktuelles Lauf" -Modell mit einem "Referenzmodell" und meldet (falls zutreffend) sowohl einen Chi-Quadrat-p-Wert basierend auf Likelihood-Ratio-Tests als auch AIC-Werte für jedes Modell. Ich weiß, dass ein Vorteil von AIC gegenüber Likelihood-Ratio-Tests darin besteht, dass AIC mit nicht verschachtelten …
Ich betrachte ein Regressionsmodell, bei dem eine sehr große Anzahl möglicher erklärender Variablen bewertet wird und schließlich eine kleine Anzahl über die Lasso-Methode der Variablenauswahl ausgewählt wird. Dasλλ\lambda Der Abstimmungsparameter im Lasso wird anhand der Leistung der Kreuzvalidierungsprognose ausgewählt, die ziemlich normal ist. Wenn ich jedoch die Liste der ausgewählten …
Ich benutze das bigrfR-Paket, um einen Datensatz mit ca. zu analysieren. 50.000 Beobachtungen x 120 Variablen, klassifiziert in zwei Gruppen. Nachdem ich einen Wald mit 1000 Bäumen gezüchtet habe, untersuche ich die Bedeutung und Beziehung der 120 Merkmale in Bezug auf die beiden Klassen mit den Funktionen fastimpund interactions, die …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.