Statistiken und Big Data

2

Wenn nur die Vorhersage von Interesse ist, warum sollte man dann Lasso über dem Kamm verwenden?

Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen". Ich verstehe, warum Lasso wünschenswert sein …

36 machine-learning prediction lasso regularization ridge-regression

2

Wie interpretiere ich glmnet?

Ich versuche, ein multivariates lineares Regressionsmodell mit ungefähr 60 Prädiktorvariablen und 30 Beobachtungen anzupassen , daher verwende ich das glmnet- Paket für die regulierte Regression, da p> n. Ich habe Dokumentationen und andere Fragen durchgearbeitet, kann die Ergebnisse aber immer noch nicht interpretieren. Hier ist ein Beispielcode (mit 20 Prädiktoren …

36 r regression regularization glmnet

2

Warum ist die Dirichlet-Verteilung bei der Multinomialverteilung die Priorität?

Im LDA-Themenmodell-Algorithmus habe ich diese Annahme gesehen. Aber ich weiß nicht, warum ich Dirichlet-Distribution gewählt habe? Ich weiß nicht, ob wir die gleichmäßige Verteilung über Multinomial als Paar verwenden können.

36 bayesian dirichlet-distribution conjugate-prior

3

Experimentelle Beweise für Visualisierungen im Tufte-Stil?

F: Gibt es experimentelle Beweise für minimalistische Visualisierungen im Tufte-Stil, die Daten sprechen, und nicht für Visualisierungen von beispielsweise Nigel Holmes ? Ich fragte, wie ich den R-Plots hier Chart-Junk hinzufügen könne , und die Responder warfen mir eine kräftige Menge Snark zu. Es muss also einige experimentelle Beweise geben, …

36 data-visualization

4

Wie wird mit einer herkömmlichen Programmiersprache aus einer Normalverteilung mit bekanntem Mittelwert und bekannter Varianz eine Stichprobe erstellt?

Ich hatte noch nie einen Statistikkurs und hoffe, dass ich hier an der richtigen Stelle nachfragen kann. Angenommen, ich habe nur zwei Daten, die eine Normalverteilung beschreiben: den Mittelwert μμ\mu und die Varianz σ2σ2\sigma^2 . Ich möchte einen Computer verwenden, um zufällig eine Stichprobe aus dieser Distribution zu ziehen, sodass …

36 normal-distribution sampling computing

6

Wie kann man quasi zwei Vektoren von Strings (in R) zuordnen?

Ich bin mir nicht sicher, wie dies bezeichnet werden soll. Bitte korrigieren Sie mich, wenn Sie einen besseren Begriff kennen. Ich habe zwei Listen. Eines von 55 Elementen (z. B. ein Vektor von Zeichenfolgen), das andere von 92. Die Elementnamen sind ähnlich, aber nicht identisch. Ich wünsche den besten Kandidaten …

36 r text-mining

8

Worum geht es in Bayes 'Theorem?

Was sind die Hauptideen, dh Konzepte, die mit dem Bayes-Theorem zusammenhängen ? Ich frage nicht nach Ableitungen der komplexen mathematischen Notation.

36 probability bayesian theory

4

Was ist eine Instrumentalvariable?

In der angewandten Wirtschaft und Statistik werden instrumentelle Variablen immer häufiger. Können wir für die Uneingeweihten einige nichttechnische Antworten auf die folgenden Fragen haben: Was ist eine Instrumentalvariable? Wann würde man eine instrumentelle Variable einsetzen wollen? Wie findet oder wählt man eine Instrumentalvariable?

36 regression econometrics instrumental-variables

5

Wahrscheinlichkeitsverteilung für verschiedene Wahrscheinlichkeiten

Wenn ich die Wahrscheinlichkeit von 9 Erfolgen in 16 Versuchen mit einer Wahrscheinlichkeit von 0,6 erhalten wollte, könnte ich eine Binomialverteilung verwenden. Was könnte ich verwenden, wenn jede der 16 Studien eine andere Erfolgswahrscheinlichkeit hat?

36 distributions probability binomial

3

Maschinelles Lernen: Soll ich für binäre Vorhersagen eine kategoriale Kreuzentropie oder einen binären Kreuzentropieverlust verwenden?

Zunächst wurde mir klar, dass ich, wenn ich binäre Vorhersagen durchführen muss, mindestens zwei Klassen durch Ausführen einer One-Hot-Codierung erstellen muss. Ist das richtig? Gilt die binäre Kreuzentropie jedoch nur für Vorhersagen mit nur einer Klasse? Wenn ich einen kategorialen Cross-Entropy-Verlust verwenden würde, der normalerweise in den meisten Bibliotheken (wie …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

Kostenfunktion des neuronalen Netzes ist nicht konvex?

Die Kostenfunktion des neuronalen Netzes ist , und es wird behauptet, dass es nicht konvex ist . Ich verstehe nicht ganz, warum das so ist, da es meiner Ansicht nach der Kostenfunktion der logistischen Regression ziemlich ähnlich ist, oder?J( W, B )J(W,b)J(W,b) Wenn es nicht konvex ist, ist also die …

36 neural-networks loss-functions

4

Wie kann SVM einen unendlichen Merkmalsraum finden, in dem eine lineare Trennung immer möglich ist?

Was ist die Intuition dahinter, dass eine SVM mit einem Gaußschen Kern einen unendlich dimensionalen Merkmalsraum hat?

36 svm feature-selection kernel-trick

5

Warum werden Regressionsprobleme als "Regressionsprobleme" bezeichnet?

Ich habe mich nur gefragt, warum Regressionsprobleme "Regressionsprobleme" genannt werden. Was ist die Geschichte hinter dem Namen? Eine Definition für Regression: "Rückfall in einen weniger perfekten oder entwickelten Zustand."

36 regression terminology history etymology

1

Variationsinferenz versus MCMC: Wann muss man sich entscheiden?

Ich glaube, ich habe eine allgemeine Vorstellung von VI und MCMC, einschließlich der verschiedenen Geschmacksrichtungen von MCMC wie Gibbs Sampling, Metropolis Hastings usw. Dieses Papier bietet eine wunderbare Darstellung beider Methoden. Ich habe folgende Fragen: Wenn ich bayesianische Schlussfolgerungen ziehen möchte, warum sollte ich dann eine Methode der anderen vorziehen? …

36 machine-learning bayesian mcmc variational-bayes approximate-inference

2

Wie normalisiere ich Daten zwischen -1 und 1?

Ich habe die Min-Max-Normalisierungsformel gesehen, die jedoch Werte zwischen 0 und 1 normalisiert. Wie würde ich meine Daten zwischen -1 und 1 normalisieren? Ich habe sowohl negative als auch positive Werte in meiner Datenmatrix.

36 dataset normalization