Statistiken und Big Data

14

Einfacher Algorithmus zur Online-Ausreißererkennung einer generischen Zeitreihe

Ich arbeite mit einer großen Anzahl von Zeitreihen. Bei diesen Zeitreihen handelt es sich im Grunde genommen um Netzwerkmessungen, die alle 10 Minuten durchgeführt werden. Einige davon sind periodisch (dh die Bandbreite), andere nicht (dh die Menge des Routingverkehrs). Ich hätte gerne einen einfachen Algorithmus für eine Online- "Ausreißererkennung". Grundsätzlich …

88 time-series outliers mathematical-statistics real-time

30

Gibt es eine Möglichkeit, sich die Definitionen der Fehler vom Typ I und Typ II zu merken?

Ich bin kein Statistiker, sondern ein Software-Ingenieur. Doch die Statistik kommt sehr hoch. Während meines Studiums für die Certified Software Development Associate-Prüfung tauchen häufig Fragen speziell zu Fehlern des Typs I und des Typs II auf (Mathematik und Statistik machen 10% der Prüfung aus). Ich habe Probleme, immer die richtigen …

88 terminology type-i-and-ii-errors

2

Wie viel Angst sollten wir vor Konvergenzwarnungen in lme4 haben

Wenn wir einen Glimmer nachrüsten, erhalten wir möglicherweise eine Warnung, die uns mitteilt, dass das Modell Schwierigkeiten hat, sich anzunähern ... z >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Eine andere Möglichkeit, die Konvergenz zu überprüfen, …

88 r mixed-model lme4-nlme

3

Was ist ein Rangmangel und wie geht man damit um?

Die Anpassung einer logistischen Regression mit lme4 endet mit Error in mer_finalize(ans) : Downdated X'X is not positive definite. Eine wahrscheinliche Ursache für diesen Fehler ist offenbar ein Rangmangel. Was ist ein Rangmangel und wie soll ich damit umgehen?

87 r logistic lme4-nlme

5

Was sind die Hauptunterschiede zwischen K-Mitteln und K-nächsten Nachbarn?

Ich weiß, dass k-means unbeaufsichtigt ist und für Clustering usw. verwendet wird und dass k-NN überwacht wird. Aber ich wollte konkrete Unterschiede zwischen den beiden kennen?

86 machine-learning k-means k-nearest-neighbour

2

Gibt es angesichts der Leistungsfähigkeit von Computern heutzutage jemals einen Grund, einen Chi-Quadrat-Test anstelle von Fischers genauem Test durchzuführen?

In Anbetracht der Tatsache, dass Software die exakte Testberechnung nach Fisher heutzutage so einfach durchführen kann , gibt es einen Umstand, in dem der Chi-Quadrat-Test theoretisch oder praktisch dem exakten Test nach Fisher vorzuziehen ist? Zu den Vorteilen des genauen Tests nach Fisher gehören: Skalierung auf Kontingenztabellen größer als 2x2 …

86 chi-squared contingency-tables fishers-exact

3

Was sind Beispiele, bei denen ein "naiver Bootstrap" fehlschlägt?

Angenommen, ich habe einen Satz von Beispieldaten aus einer unbekannten oder komplexen Verteilung und möchte einen Rückschluss auf eine Statistik der Daten ziehen. Meine Standardeinstellung besteht darin, nur eine Reihe von Bootstrap-Beispielen mit Ersetzung zu generieren und meine Statistik für jedes Bootstrap-Beispiel zu berechnen , um eine geschätzte Verteilung für …

86 hypothesis-testing confidence-interval bootstrap

9

Was genau ist ein Konfidenzintervall?

Ich weiß ungefähr und informell, was ein Konfidenzintervall ist. Ich kann mich jedoch nicht mit einem wichtigen Detail auseinandersetzen: Laut Wikipedia: Ein Konfidenzintervall sagt nicht voraus, dass der wahre Wert des Parameters mit einer bestimmten Wahrscheinlichkeit in dem Konfidenzintervall liegt, wenn die tatsächlich erhaltenen Daten vorliegen. Ich habe auch ähnliche …

86 confidence-interval definition

9

Gibt es eine intuitive Erklärung, warum Multikollinearität ein Problem bei der linearen Regression ist?

Das Wiki diskutiert die Probleme, die auftreten, wenn Multikollinearität ein Problem in der linearen Regression ist. Das Grundproblem ist, dass Multikollinearität zu instabilen Parameterschätzungen führt, was es sehr schwierig macht, die Auswirkung unabhängiger Variablen auf abhängige Variablen zu bewerten. Ich verstehe die technischen Gründe für die Probleme (möglicherweise kann , …

85 regression intuition multicollinearity

17

Einbeziehen der Interaktion, jedoch nicht der Haupteffekte in ein Modell

Gilt es jemals, eine bidirektionale Interaktion in ein Modell aufzunehmen, ohne die Haupteffekte einzubeziehen? Was ist, wenn es bei Ihrer Hypothese nur um die Interaktion geht, müssen Sie dann noch die Haupteffekte berücksichtigen?

85 regression modeling interaction regression-coefficients

24

Faustregeln für „moderne“ Statistiken

Ich mag G van Belles Buch über statistische Faustregeln und in geringerem Maße allgemeine Fehler in der Statistik (und wie man sie vermeidet) von Phillip I Good und James W. Hardin. Sie adressieren häufige Fallstricke bei der Interpretation von Ergebnissen aus experimentellen Studien und Beobachtungsstudien und geben praktische Empfehlungen für …

85 modeling eda rule-of-thumb

16

Unter welchen Bedingungen impliziert Korrelation Kausalität?

Wir alle wissen, dass das Mantra "Korrelation bedeutet keine Kausalität" in allen Statistikstudenten des ersten Studienjahres enthalten ist. Es gibt einige schöne Beispiele hier die Idee zu illustrieren. Aber manchmal Korrelation tut Verursachung bedeuten. Das folgende Beispiel stammt von dieser Wikipedia-Seite Zum Beispiel könnte man ein Experiment mit identischen Zwillingen …

85 correlation causality

4

Wie wähle ich die Bibliothek nlme oder lme4 R für Modelle mit gemischten Effekten?

Ich habe ein paar gemischten Effekte für Modelle (insbesondere Längs Modelle) mit lme4in Rmöchte aber wirklich um die Modelle beherrschen und den Code, der mit sich geht. Bevor ich jedoch mit beiden Beinen eintauche (und ein paar Bücher kaufe), möchte ich sicher sein, dass ich die richtige Bibliothek lerne. Ich …

85 r mixed-model lme4-nlme

8

Wenn mean so empfindlich ist, warum sollte man es dann überhaupt verwenden?

Es ist bekannt, dass der Median gegen Ausreißer resistent ist. Wenn dies der Fall ist, wann und warum sollten wir den Mittelwert zuerst verwenden? Eine Sache, an die ich denken kann, ist vielleicht, das Vorhandensein von Ausreißern zu verstehen, dh wenn der Median weit vom Mittelwert entfernt ist, ist die …

84 mathematical-statistics mean median

1

Wie wende ich das Neuronale Netz auf die Vorhersage von Zeitreihen an?

Ich bin neu im maschinellen Lernen und habe versucht herauszufinden, wie man ein neuronales Netzwerk auf Zeitreihenprognosen anwendet. Ich habe eine Ressource gefunden, die mit meiner Anfrage zusammenhängt, aber ich scheine immer noch etwas verloren zu sein. Ich denke, eine grundlegende Erklärung ohne zu viele Details würde helfen. Nehmen wir …

83 time-series forecasting neural-networks