Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


7
Bias und Varianz in der Leave-One-Out- vs. K-Fold-Kreuzvalidierung
Wie vergleichen sich verschiedene Kreuzvalidierungsmethoden in Bezug auf Modellvarianz und Verzerrung? Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein ausschließlicher Lebenslauf immer die beste Wahl? KKK. Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt …



14
Warum haben robuste (und widerstandsfähige) Statistiken die klassischen Techniken nicht ersetzt?
Bei der Lösung von Geschäftsproblemen mithilfe von Daten wird häufig davon ausgegangen, dass mindestens eine der Annahmen, die die klassischen Statistiken untermauern, ungültig ist. Meistens stört sich niemand daran, diese Annahmen zu überprüfen, so dass Sie es nie wirklich wissen. Zum Beispiel ist die Tatsache, dass so viele der gängigen …


5
Was bedeutet eine geschlossene Lösung?
Ich bin ziemlich oft auf den Begriff "geschlossene Lösung" gestoßen. Was bedeutet eine geschlossene Lösung? Wie kann man feststellen, ob es für ein bestimmtes Problem eine formschlüssige Lösung gibt? Bei der Online-Suche habe ich einige Informationen gefunden, aber nichts im Zusammenhang mit der Entwicklung eines statistischen oder probabilistischen Modells / …


4
Was ist der Unterschied zwischen Null-Inflations- und Hürdenmodellen?
Ich frage mich, ob es einen deutlichen Unterschied zwischen den sogenannten Null-Inflations-Verteilungen (Modellen) und den sogenannten Hürden-bei-Null-Verteilungen (Modellen) gibt. Die Begriffe kommen in der Literatur häufig vor, und ich vermute, dass sie nicht gleich sind. Erklären Sie mir bitte den Unterschied in einfachen Begriffen.



3
Kommt es bei der logistischen Regression auf eine unausgeglichene Stichprobe an?
Okay, ich denke, ich habe eine ausreichend gute Stichprobe, unter Berücksichtigung der 20: 1-Faustregel: eine ziemlich große Stichprobe (N = 374) für insgesamt 7 Kandidaten-Prädiktorvariablen. Mein Problem ist das Folgende: Unabhängig davon, welchen Satz von Prädiktorvariablen ich verwende, werden die Klassifikationen nie besser als eine Spezifität von 100% und eine …

6
Gibt es Beispiele, bei denen glaubwürdige Intervalle nach Bayes offenbar häufigen Konfidenzintervallen unterlegen sind?
Eine kürzlich gestellte Frage zum Unterschied zwischen Vertrauen und glaubwürdigen Intervallen veranlasste mich, den Artikel von Edwin Jaynes zu diesem Thema erneut zu lesen: Jaynes, ET, 1976. "Confidence Intervals vs Bayesian Intervals", in Grundlagen der Wahrscheinlichkeitstheorie, statistischen Inferenz und statistischen Theorien der Wissenschaft, WL Harper und CA Hooker (Hrsg.), D. …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.