Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


2
Wahrscheinlichkeitsungleichungen
Ich suche nach einigen Wahrscheinlichkeitsungleichungen für Summen von unbegrenzten Zufallsvariablen. Ich würde mich sehr freuen, wenn mir jemand ein paar Gedanken machen könnte. Mein Problem besteht darin, eine exponentielle Obergrenze für die Wahrscheinlichkeit zu finden, dass die Summe der unbegrenzten iid-Zufallsvariablen, die tatsächlich die Multiplikation von zwei iid-Gaußschen Variablen sind, …

3
Anwendung maschineller Lernmethoden auf StackExchange-Websites
Ich habe in diesem Semester einen Kurs zum maschinellen Lernen, und der Professor hat uns gebeten, ein reales Problem zu finden und es mit einer der in der Klasse eingeführten Methoden des maschinellen Lernens zu lösen: Entscheidungsbäume Künstliche neurale Netzwerke Support-Vektor-Maschinen Instanzbasiertes Lernen ( kNN , LWL ) Bayesian Networks …




5
Kümmern sich arbeitende Statistiker um den Unterschied zwischen frequentistischer und bayesianischer Folgerung?
Als Außenstehender scheint es zwei konkurrierende Ansichten darüber zu geben, wie man statistische Schlussfolgerungen ziehen sollte. Werden die beiden unterschiedlichen Methoden von arbeitenden Statistikern als gültig angesehen? Ist die Auswahl einer Frage eher eine philosophische Frage? Oder wird die aktuelle Situation als problematisch angesehen und versucht, die verschiedenen Ansätze irgendwie …


11
Open Source Statistische Lehrbücher?
Es gab einige Fragen zu statistischen Lehrbüchern , wie zum Beispiel die Frage Freie statistische Lehrbücher . Ich suche jedoch nach Lehrbüchern, die Open Source sind, zum Beispiel mit einer Creative Commons- Lizenz. Der Grund dafür ist, dass Sie in Kursmaterialien in anderen Bereichen immer noch Text zu grundlegenden Statistiken …

7
Kann eine Kreuzvalidierung zur kausalen Inferenz verwendet werden?
In allen mir vertrauten Zusammenhängen wird die Kreuzvalidierung ausschließlich mit dem Ziel verwendet, die Vorhersagegenauigkeit zu erhöhen. Kann die Logik der Kreuzvalidierung bei der Schätzung der unverzerrten Beziehungen zwischen Variablen erweitert werden? Während dieser Artikel von Richard Berk die Verwendung eines Hold-Out-Beispiels für die Parameterauswahl im "endgültigen" Regressionsmodell demonstriert (und …


1
Warum unterscheiden sich meine p-Werte zwischen der logistischen Regressionsausgabe, dem Chi-Quadrat-Test und dem Konfidenzintervall für den OP?
Ich habe eine logistische Regression aufgebaut, bei der die Ergebnisvariable nach der Behandlung geheilt wird ( Curevs. No Cure). Alle Patienten in dieser Studie erhielten eine Behandlung. Ich bin daran interessiert zu sehen, ob Diabetes mit diesem Ergebnis zusammenhängt. In R sieht meine logistische Regressionsausgabe folgendermaßen aus: Call: glm(formula = …

2
Wann ist t-SNE irreführend?
Zitat eines Autors: Das t-Distributed Stochastic Neighbor Embedding (t-SNE) ist eine ( preisgekrönte ) Technik zur Dimensionsreduktion, die sich besonders für die Visualisierung hochdimensionaler Datensätze eignet. Es klingt ziemlich gut, aber das ist der Autor. Ein weiteres Zitat des Autors (zum oben genannten Wettbewerb): Was haben Sie von diesem Wettbewerb …

3
Hat das Vorzeichen von Punktzahlen oder Ladungen in PCA oder FA eine Bedeutung? Darf ich das Vorzeichen umkehren?
Ich führte eine Hauptkomponentenanalyse (PCA) mit R mit zwei verschiedenen Funktionen ( prcompund princomp) durch und stellte fest, dass sich die PCA-Werte im Vorzeichen unterschieden. Wie kann es sein? Bedenken Sie: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 …
37 r  pca  factor-analysis 

3
Leiten Sie die Varianz des Regressionskoeffizienten in der einfachen linearen Regression ab
Bei der einfachen linearen Regression ist , wobei . Ich habe den Schätzer abgeleitet: wobei und die Beispielmittel für und .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Jetzt möchte ich die …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.