Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

5
Beziehung zwischen und Korrelationskoeffizient
Angenommen, ich habe zwei eindimensionale Arrays, und . Jedes enthält 100 Datenpunkte. sind die tatsächlichen Daten und ist die Modellvorhersage. In diesem Fall wäre der Wert: In der Zwischenzeit wäre dies gleich dem Quadratwert des Korrelationskoeffizienten Wenn ich nun die beiden vertausche: sind die tatsächlichen Daten und ist die Modellvorhersage. …

4
Sollten Kovariaten, die statistisch nicht signifikant sind, bei der Erstellung eines Modells berücksichtigt werden?
Ich habe mehrere Kovariaten in meiner Berechnung für ein Modell, und nicht alle sind statistisch signifikant. Sollte ich die entfernen, die nicht sind? Diese Frage diskutiert das Phänomen, beantwortet aber nicht meine Frage: Wie interpretiere ich den nicht signifikanten Effekt einer Kovariate in ANCOVA? Die Antwort auf diese Frage enthält …



2
Simulation logistischer Regressionskraftanalysen - entworfene Experimente
Diese Frage beantwortet @Greg Snow in Bezug auf eine Frage, die ich bezüglich der Leistungsanalyse mit logistischer Regression und SAS gestellt habe Proc GLMPOWER. Wenn ich ein Experiment entwerfe und die Ergebnisse in einer faktoriellen logistischen Regression auswerten möchte, wie kann ich mithilfe der Simulation (und hier ) eine Leistungsanalyse …

1
Wie interpretiere und berichte ich eta squared / partial eta squared in statistisch signifikanten und nicht signifikanten Analysen?
Ich habe Daten, die eta-Quadrat-Werte und partielle eta-Quadrat-Werte haben, die als Maß für die Effektgröße für Gruppenmittelwertdifferenzen berechnet wurden. Was ist der Unterschied zwischen eta im Quadrat und partiellem eta im Quadrat? Können beide nach den gleichen Cohen-Richtlinien interpretiert werden (1988, denke ich: 0,01 = klein, 0,06 = mittel, 0,13 …

4
Was bedeutet das "." (Punkt) in R?
Ich lese gerade das Buch "R in a Nutshell". Und es scheint, als hätte ich den Teil übersprungen, in dem das "." wie in "sample.formula" erklärt wurde. > sample.formula <- as.formula(y~x1+x2) Ist sample ein Objekt mit einer Feldformel wie in anderen Sprachen? Und wenn ja, wie kann ich herausfinden, welche …
39 r 

2
Das logistische Regressionsmodell konvergiert nicht
Ich habe einige Daten zu Fluglinienflügen (in einem Datenrahmen mit dem Namen flights) und möchte prüfen, ob die Flugzeit einen Einfluss auf die Wahrscheinlichkeit einer erheblich verspäteten Ankunft hat (dh 10 oder mehr Minuten). Ich nahm an, dass ich logistische Regression verwenden würde, mit der Flugzeit als Prädiktor und ob …
39 r  logistic  separation 

6
Least-Angle-Regression vs. Lasso
Die Least-Angle-Regression und das Lasso tendieren dazu, sehr ähnliche Regularisierungspfade zu erzeugen (identisch, außer wenn ein Koeffizient Null überschreitet). Beide können durch praktisch identische Algorithmen effizient angepasst werden. Gibt es jemals einen praktischen Grund, eine Methode der anderen vorzuziehen?
39 regression  lasso 

3
Modus, Klasse und Typ von R-Objekten
Ich habe mich gefragt, was die Unterschiede zwischen Modus, Klasse und Typ von R-Objekten sind. Der Typ eines R-Objekts kann durch die Funktion typeof (), mode by mode () und class by class () ermittelt werden. Auch irgendwelche anderen ähnlichen Funktionen und Konzepte, die ich vermisst habe? Danke und Grüße!
39 r 


3
Clojure versus R: Vor- und Nachteile für die Datenanalyse
Ich hatte einen Plan, R in naher Zukunft zu lernen. Als ich eine andere Frage las, erfuhr ich von Clojure. Jetzt weiß ich nicht was ich tun soll. Ich denke, ein großer Vorteil von R ist für mich, dass einige Leute in der Volkswirtschaftslehre es verwenden, einschließlich eines meiner Vorgesetzten …
39 r 


1
Warum verwenden wir die Kullback-Leibler-Divergenz anstatt die Entropie in der t-SNE-Zielfunktion zu kreuzen?
In meinen Augen ist die KL-Abweichung von der Probenverteilung zur wahren Verteilung einfach der Unterschied zwischen Kreuzentropie und Entropie. Warum verwenden wir die Kreuzentropie als Kostenfunktion in vielen maschinellen Lernmodellen, verwenden aber die Kullback-Leibler-Divergenz in t-sne? Gibt es einen Unterschied in der Lerngeschwindigkeit?

5
LDA gegen word2vec
Ich versuche zu verstehen, was Ähnlichkeit zwischen Latent Dirichlet Allocation und word2vec ist, um die Ähnlichkeit von Wörtern zu berechnen. Soweit ich weiß, ordnet LDA Wörter einem Vektor der Wahrscheinlichkeiten latenter Themen zu, während word2vec sie einem Vektor reeller Zahlen zuordnet (im Zusammenhang mit der Singulärwertzerlegung punktweiser gegenseitiger Informationen, siehe …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.