Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


4
Replizieren der "robusten" Option von Stata in R
Ich habe versucht, die Ergebnisse der Option Stata robustin R zu replizieren . Ich habe den rlmBefehl aus dem MASS-Paket und auch den Befehl lmrobaus dem Paket "robustbase" verwendet. In beiden Fällen unterscheiden sich die Ergebnisse erheblich von der Option "robust" in Stata. Kann jemand bitte etwas in diesem Zusammenhang …

3
Empirische Begründung für die eine Standardfehlerregel bei Verwendung der Kreuzvalidierung
Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre. Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden. …

3
Ist eine Standardisierung erforderlich, bevor die logistische Regression angepasst wird?
Meine Frage ist, ob wir den Datensatz standardisieren müssen, um sicherzustellen, dass alle Variablen den gleichen Maßstab zwischen [0,1] haben, bevor die logistische Regression angepasst wird. Die Formel lautet: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mein Datensatz enthält 2 Variablen, sie beschreiben dasselbe für zwei Kanäle, aber die Lautstärke ist unterschiedlich. Angenommen, es ist die …

1
Rang in R - absteigende Reihenfolge [geschlossen]
Ich suche nach Rangdaten, bei denen in einigen Fällen der größere Wert den Rang 1 hat. Ich bin relativ neu in R, sehe aber nicht, wie ich diese Einstellung in der Rangfunktion anpassen kann. x <- c(23,45,12,67,34,89) rank(x) erzeugt: [1] 2 4 1 5 3 6 wenn ich es will: …
39 r 



3
Warum sind Entscheidungsbäume nicht rechenintensiv?
In einer Einführung in das statistische Lernen mit Anwendungen in R schreiben die Autoren, dass das Anpassen eines Entscheidungsbaums sehr schnell ist, aber das ergibt für mich keinen Sinn. Der Algorithmus muss jedes Feature durchlaufen und auf jede mögliche Weise partitionieren, um die optimale Aufteilung zu finden. Bei numerischen Features …
38 cart 

6
Warum erhalte ich einen Entscheidungsbaum mit 100% Genauigkeit?
Ich erhalte eine 100% ige Genauigkeit für meinen Entscheidungsbaum. Was mache ich falsch? Das ist mein Code: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] …


4
Soll ich zum Zeichnen mit R ggplot2 oder ggvis lernen?
Soll ich zum Zeichnen mit R ggplot2 oder ggvis lernen? Ich möchte nicht unbedingt beides lernen, wenn einer von ihnen in irgendeiner Hinsicht überlegen ist. Warum erstellt die R-Community immer wieder neue Pakete mit überlappenden Funktionen? In dem einleitenden Blogpost wird kein Wort darüber verloren, warum ggvis erstellt wird, da …

3
Was bedeutet ein Konfidenzintervall aus Bootstrapped Resamples?
Ich habe auf dieser Website zahlreiche Fragen zu Bootstrapping und Konfidenzintervallen geprüft, bin aber immer noch verwirrt. Ein Grund für meine Verwirrung ist wahrscheinlich, dass ich in meinen statistischen Kenntnissen nicht weit genug fortgeschritten bin, um viele der Antworten zu verstehen. Ich bin ungefähr in der Mitte eines Statistik-Einführungskurses und …

3
Warum wird die polynomiale Regression als Sonderfall der multiplen linearen Regression angesehen?
Wenn die polynomiale Regression nichtlineare Beziehungen modelliert, wie kann sie als Sonderfall der multiplen linearen Regression betrachtet werden? Wikipedia stellt fest: "Obwohl die polynomiale Regression ein nichtlineares Modell an die Daten anpasst, ist sie als statistisches Schätzproblem linear in dem Sinne, dass die Regressionsfunktion in den geschätzten unbekannten Parametern linear …


2
Wann passen Poisson- und negative Binomialregressionen zu denselben Koeffizienten?
Ich habe festgestellt, dass bei R-, Poisson- und negativen Binomial- (NB-) Regressionen für kategoriale, aber nicht kontinuierliche Prädiktoren immer dieselben Koeffizienten zu passen scheinen. Beispiel: Hier ist eine Regression mit einem kategorialen Prädiktor: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.