Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

2
Wenn nur die Vorhersage von Interesse ist, warum sollte man dann Lasso über dem Kamm verwenden?
Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen". Ich verstehe, warum Lasso wünschenswert sein …

2
Wie interpretiere ich glmnet?
Ich versuche, ein multivariates lineares Regressionsmodell mit ungefähr 60 Prädiktorvariablen und 30 Beobachtungen anzupassen , daher verwende ich das glmnet- Paket für die regulierte Regression, da p> n. Ich habe Dokumentationen und andere Fragen durchgearbeitet, kann die Ergebnisse aber immer noch nicht interpretieren. Hier ist ein Beispielcode (mit 20 Prädiktoren …


3
Experimentelle Beweise für Visualisierungen im Tufte-Stil?
F: Gibt es experimentelle Beweise für minimalistische Visualisierungen im Tufte-Stil, die Daten sprechen, und nicht für Visualisierungen von beispielsweise Nigel Holmes ? Ich fragte, wie ich den R-Plots hier Chart-Junk hinzufügen könne , und die Responder warfen mir eine kräftige Menge Snark zu. Es muss also einige experimentelle Beweise geben, …

4
Wie wird mit einer herkömmlichen Programmiersprache aus einer Normalverteilung mit bekanntem Mittelwert und bekannter Varianz eine Stichprobe erstellt?
Ich hatte noch nie einen Statistikkurs und hoffe, dass ich hier an der richtigen Stelle nachfragen kann. Angenommen, ich habe nur zwei Daten, die eine Normalverteilung beschreiben: den Mittelwert μμ\mu und die Varianz σ2σ2\sigma^2 . Ich möchte einen Computer verwenden, um zufällig eine Stichprobe aus dieser Distribution zu ziehen, sodass …

6
Wie kann man quasi zwei Vektoren von Strings (in R) zuordnen?
Ich bin mir nicht sicher, wie dies bezeichnet werden soll. Bitte korrigieren Sie mich, wenn Sie einen besseren Begriff kennen. Ich habe zwei Listen. Eines von 55 Elementen (z. B. ein Vektor von Zeichenfolgen), das andere von 92. Die Elementnamen sind ähnlich, aber nicht identisch. Ich wünsche den besten Kandidaten …
36 r  text-mining 


4
Was ist eine Instrumentalvariable?
In der angewandten Wirtschaft und Statistik werden instrumentelle Variablen immer häufiger. Können wir für die Uneingeweihten einige nichttechnische Antworten auf die folgenden Fragen haben: Was ist eine Instrumentalvariable? Wann würde man eine instrumentelle Variable einsetzen wollen? Wie findet oder wählt man eine Instrumentalvariable?


3
Maschinelles Lernen: Soll ich für binäre Vorhersagen eine kategoriale Kreuzentropie oder einen binären Kreuzentropieverlust verwenden?
Zunächst wurde mir klar, dass ich, wenn ich binäre Vorhersagen durchführen muss, mindestens zwei Klassen durch Ausführen einer One-Hot-Codierung erstellen muss. Ist das richtig? Gilt die binäre Kreuzentropie jedoch nur für Vorhersagen mit nur einer Klasse? Wenn ich einen kategorialen Cross-Entropy-Verlust verwenden würde, der normalerweise in den meisten Bibliotheken (wie …




1
Variationsinferenz versus MCMC: Wann muss man sich entscheiden?
Ich glaube, ich habe eine allgemeine Vorstellung von VI und MCMC, einschließlich der verschiedenen Geschmacksrichtungen von MCMC wie Gibbs Sampling, Metropolis Hastings usw. Dieses Papier bietet eine wunderbare Darstellung beider Methoden. Ich habe folgende Fragen: Wenn ich bayesianische Schlussfolgerungen ziehen möchte, warum sollte ich dann eine Methode der anderen vorziehen? …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.