Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


2
Wann funktioniert die L1-Regularisierung besser als die L2-Regularisierung und umgekehrt?
Hinweis: Ich weiß, dass L1 die Eigenschaft zur Featureauswahl hat. Ich versuche zu verstehen, welche ich wählen soll, wenn die Funktionsauswahl völlig irrelevant ist. Wie kann man entscheiden, welche Regularisierung (L1 oder L2) verwendet werden soll? Was sind die Vor- und Nachteile jeder L1 / L2-Regularisierung? Wird empfohlen, zuerst die …

2
Wer hat p-Werte zuerst benutzt / erfunden?
Ich versuche, eine Reihe von Blog-Posts über p-Werte zu schreiben, und ich dachte, es wäre interessant, dorthin zurückzukehren, wo alles begann - das scheint Pearsons 1900-Papier zu sein. Wenn Sie mit diesem Papier vertraut sind, werden Sie sich daran erinnern, dass dies das Testen der Anpassungsgüte umfasst. Pearson ist ein …


2
Betreutes Lernen, unbeaufsichtigtes Lernen und Bestärkungslernen: Workflow-Grundlagen
Überwachtes Lernen 1) Ein menschliches baut einen Klassifizierer basierend auf Eingabe und Ausgabedaten 2) Dieser Klassifikator wird mit einem Trainingsdatensatz trainiert 3) Dieser Klassifikator wird mit einem Testdatensatz getestet 4) Bereitstellung, wenn die Ausgabe zufriedenstellend ist Um verwendet zu werden, wenn "Ich weiß, wie man diese Daten klassifiziert, ich brauche …

2
Was ist der Unterschied zwischen Zensur und Kürzung?
In dem Buch Statistische Modelle und Methoden für Lebensdauerdaten heißt es: Zensieren: Wenn eine Beobachtung aufgrund einer zufälligen Ursache unvollständig ist. Trunkierung: Wenn die Unvollständigkeit der Beobachtung auf einen systematischen Auswahlprozess zurückzuführen ist, der dem Studiendesign eigen ist. Was bedeutet "systematischer Auswahlprozess, der dem Studiendesign inhärent ist" in der Definition …

2
Gibt es ein zuverlässiges nichtparametrisches Konfidenzintervall für den Mittelwert einer verzerrten Verteilung?
Stark verzerrte Verteilungen wie die Protokollnormale führen nicht zu genauen Bootstrap-Konfidenzintervallen. Hier ist ein Beispiel, das zeigt, dass der linke und der rechte Heckbereich weit vom idealen Wert von 0,025 entfernt sind, unabhängig davon, welche Bootstrap-Methode Sie in R versuchen: require(boot) n <- 25 B <- 1000 nsim <- 1000 …

7
Inferenz vs. Schätzung?
Was sind die Unterschiede zwischen "Inferenz" und "Schätzung" im Kontext des maschinellen Lernens ? Als Neuling, ich glaube , dass wir folgern Zufallsvariablen und schätzen die Modellparameter. Ist mein Verständnis richtig? Wenn nicht, was genau sind die Unterschiede und wann soll ich welche verwenden? Und welches ist das Synonym für …

3
Latent Class Analysis vs. Cluster Analysis - Unterschiede in den Schlussfolgerungen?
Was sind die Unterschiede in den Schlussfolgerungen, die aus einer Latent Class Analysis (LCA) gegenüber einer Cluster-Analyse gezogen werden können? Ist es richtig, dass eine Ökobilanz eine zugrunde liegende latente Variable annimmt, die zu den Klassen führt, während die Clusteranalyse eine empirische Beschreibung von korrelierten Attributen aus einem Clustering-Algorithmus ist? …


6
Wenn 'Korrelation keine Kausalität impliziert', wie kann ich dann die Kausalität nachweisen, wenn ich eine statistisch signifikante Korrelation finde?
Ich verstehe, dass Korrelation keine Kausalität ist . Angenommen, wir erhalten eine hohe Korrelation zwischen zwei Variablen. Wie überprüfen Sie, ob diese Korrelation tatsächlich kausal bedingt ist? Oder können wir unter welchen Bedingungen genau experimentelle Daten verwenden, um einen Kausalzusammenhang zwischen zwei oder mehr Variablen herzuleiten?

2
Warum sollten wir t Fehler anstelle von normalen Fehlern verwenden?
In diesem Blog-Beitrag von Andrew Gelman gibt es folgende Passage: Die Bayes'schen Modelle von vor 50 Jahren scheinen hoffnungslos einfach (außer natürlich für einfache Probleme), und ich gehe davon aus, dass die heutigen Bayes'schen Modelle in 50 Jahren hoffnungslos einfach erscheinen werden. (Nur als einfaches Beispiel: Wir sollten wahrscheinlich überall …


2
Faltungsneuronale Netze: Sind die zentralen Neuronen in der Ausgabe nicht überrepräsentiert?
[Diese Frage wurde auch beim Stapelüberlauf gestellt] Die Frage in Kürze Ich untersuche faltungsbedingte neuronale Netze und glaube, dass diese Netze nicht jedes Eingangsneuron (Pixel / Parameter) gleichwertig behandeln. Stellen Sie sich vor, wir haben ein tiefes Netzwerk (viele Ebenen), das auf ein Eingabebild eine Faltung anwendet. Die Neuronen in …

2
Was ist Quasi-Binomialverteilung (im Kontext von GLM)?
Ich hoffe, jemand kann einen intuitiven Überblick darüber geben, was Quasibinomialverteilung ist und was sie bewirkt. Diese Punkte interessieren mich besonders: Wie sich das Quasibinom von der Binomialverteilung unterscheidet. Wenn die Antwortvariable eine Proportion ist (Beispielwerte sind 0,23, 0,11, 0,78, 0,98), wird ein Quasibinomialmodell in R ausgeführt, ein Binomialmodell jedoch …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.