Statistiken und Big Data

5

Wie visualisiere / verstehe ich, was ein neuronales Netzwerk macht?

Neuronale Netze werden aufgrund ihrer komplexen Struktur häufig als "Black Boxes" behandelt. Dies ist nicht ideal, da es oft von Vorteil ist, einen intuitiven Überblick über die interne Funktionsweise eines Modells zu haben. Was sind Methoden, um die Funktionsweise eines trainierten neuronalen Netzwerks zu visualisieren? Wie können wir alternativ leicht …

37 data-visualization neural-networks

2

Wahrscheinlichkeitsungleichungen

Ich suche nach einigen Wahrscheinlichkeitsungleichungen für Summen von unbegrenzten Zufallsvariablen. Ich würde mich sehr freuen, wenn mir jemand ein paar Gedanken machen könnte. Mein Problem besteht darin, eine exponentielle Obergrenze für die Wahrscheinlichkeit zu finden, dass die Summe der unbegrenzten iid-Zufallsvariablen, die tatsächlich die Multiplikation von zwei iid-Gaußschen Variablen sind, …

37 probability mathematical-statistics probability-inequalities mgf

3

Anwendung maschineller Lernmethoden auf StackExchange-Websites

Ich habe in diesem Semester einen Kurs zum maschinellen Lernen, und der Professor hat uns gebeten, ein reales Problem zu finden und es mit einer der in der Klasse eingeführten Methoden des maschinellen Lernens zu lösen: Entscheidungsbäume Künstliche neurale Netzwerke Support-Vektor-Maschinen Instanzbasiertes Lernen ( kNN , LWL ) Bayesian Networks …

37 machine-learning

5

Was ist der Zweck charakteristischer Funktionen?

Ich hoffe, dass jemand dem Laien erklären kann, was eine charakteristische Funktion ist und wie sie in der Praxis verwendet wird. Ich habe gelesen, dass es sich um die Fourier-Transformation des PDF handelt. Ich glaube, ich weiß, was es ist, aber ich verstehe den Zweck immer noch nicht. Wenn jemand …

37 probability mathematical-statistics characteristic-function

2

Kullback-Leibler gegen Kolmogorov-Smirnov Abstand

Ich kann feststellen, dass es viele formale Unterschiede zwischen den Abstandsmaßen Kullback-Leibler und Kolmogorov-Smirnov gibt. Beide werden jedoch verwendet, um den Abstand zwischen Verteilungen zu messen. Gibt es eine typische Situation, in der einer anstelle des anderen verwendet werden sollte? Was ist der Grund dafür?

37 distributions distance-functions kolmogorov-smirnov kullback-leibler

2

Wann und wie standardisierte erklärende Variablen in der linearen Regression verwendet werden

Ich habe 2 einfache Fragen zur linearen Regression: Wann wird empfohlen, die erklärenden Variablen zu standardisieren? Wie kann man nach einer Schätzung mit standardisierten Werten mit neuen Werten vorhersagen (wie sollte man die neuen Werte standardisieren)? Einige Referenzen wären hilfreich.

37 regression predictive-models references standardization predictor

5

Kümmern sich arbeitende Statistiker um den Unterschied zwischen frequentistischer und bayesianischer Folgerung?

Als Außenstehender scheint es zwei konkurrierende Ansichten darüber zu geben, wie man statistische Schlussfolgerungen ziehen sollte. Werden die beiden unterschiedlichen Methoden von arbeitenden Statistikern als gültig angesehen? Ist die Auswahl einer Frage eher eine philosophische Frage? Oder wird die aktuelle Situation als problematisch angesehen und versucht, die verschiedenen Ansätze irgendwie …

37 bayesian frequentist

8

Ist es möglich, eine Nullhypothese zu beweisen?

Wie die Frage besagt - ist es möglich, die Nullhypothese zu beweisen? Nach meinem (eingeschränkten) Verständnis der Hypothese lautet die Antwort nein, aber ich kann keine strenge Erklärung dafür finden. Hat die Frage eine endgültige Antwort?

37 hypothesis-testing proof equivalence

11

Open Source Statistische Lehrbücher?

Es gab einige Fragen zu statistischen Lehrbüchern , wie zum Beispiel die Frage Freie statistische Lehrbücher . Ich suche jedoch nach Lehrbüchern, die Open Source sind, zum Beispiel mit einer Creative Commons- Lizenz. Der Grund dafür ist, dass Sie in Kursmaterialien in anderen Bereichen immer noch Text zu grundlegenden Statistiken …

37 references open-source

7

Kann eine Kreuzvalidierung zur kausalen Inferenz verwendet werden?

In allen mir vertrauten Zusammenhängen wird die Kreuzvalidierung ausschließlich mit dem Ziel verwendet, die Vorhersagegenauigkeit zu erhöhen. Kann die Logik der Kreuzvalidierung bei der Schätzung der unverzerrten Beziehungen zwischen Variablen erweitert werden? Während dieser Artikel von Richard Berk die Verwendung eines Hold-Out-Beispiels für die Parameterauswahl im "endgültigen" Regressionsmodell demonstriert (und …

37 cross-validation causality

7

Warum löst die Regularisierung nicht den Datenhunger von Deep Neural Nets?

Ein Problem, das ich im Zusammenhang mit neuronalen Netzen im Allgemeinen und Deep Neural Networks im Besonderen häufig gesehen habe, ist, dass sie "datenhungrig" sind - das heißt, dass sie nur dann eine gute Leistung erbringen, wenn wir einen großen Datenbestand haben mit dem man das netzwerk trainiert. Meines Wissens …

37 neural-networks deep-learning regularization

1

Warum unterscheiden sich meine p-Werte zwischen der logistischen Regressionsausgabe, dem Chi-Quadrat-Test und dem Konfidenzintervall für den OP?

Ich habe eine logistische Regression aufgebaut, bei der die Ergebnisvariable nach der Behandlung geheilt wird ( Curevs. No Cure). Alle Patienten in dieser Studie erhielten eine Behandlung. Ich bin daran interessiert zu sehen, ob Diabetes mit diesem Ergebnis zusammenhängt. In R sieht meine logistische Regressionsausgabe folgendermaßen aus: Call: glm(formula = …

37 r hypothesis-testing logistic generalized-linear-model odds-ratio

2

Wann ist t-SNE irreführend?

Zitat eines Autors: Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet. Es klingt ziemlich gut, aber das ist der Autor. Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb): Was haben Sie von diesem Wettbewerb …

37 data-visualization dimensionality-reduction tsne

3

Hat das Vorzeichen von Punktzahlen oder Ladungen in PCA oder FA eine Bedeutung? Darf ich das Vorzeichen umkehren?

Ich führte eine Hauptkomponentenanalyse (PCA) mit R mit zwei verschiedenen Funktionen ( prcompund princomp) durch und stellte fest, dass sich die PCA-Werte im Vorzeichen unterschieden. Wie kann es sein? Bedenken Sie: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 …

37 r pca factor-analysis

3

Leiten Sie die Varianz des Regressionskoeffizienten in der einfachen linearen Regression ab

Bei der einfachen linearen Regression ist , wobei . Ich habe den Schätzer abgeleitet: wobei und die Beispielmittel für und .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Jetzt möchte ich die …

37 regression mathematical-statistics variance linear-model regression-coefficients