Vor langer Zeit habe ich gelernt, dass eine normale Verteilung notwendig ist, um einen T-Test mit zwei Stichproben durchzuführen. Heute erzählte mir eine Kollegin, dass für N> 50 keine Normalverteilung notwendig sei. Ist das wahr? Wenn ja, liegt das am zentralen Grenzwertsatz?
Wenn Sie in die Vergangenheit reisen und sich sagen könnten, dass Sie zu Beginn Ihrer Karriere als Statistiker ein bestimmtes Buch lesen sollten, welches wäre das?
Ich weiß, dass Leute gerne Duplikate schließen, daher bitte ich nicht um eine Referenz, um Statistiken zu lernen (wie hier ). Ich habe in Mathematik promoviert, aber noch nie Statistik gelernt. Was ist der kürzeste Weg zum äquivalenten Wissen zu einem erstklassigen BS-Statistik-Abschluss und wie messe ich, wenn ich das …
Die Mathematik hat ihre berühmten Millenniumsprobleme (und historisch gesehen Hilberts 23 ), Fragen, die dazu beigetragen haben, die Richtung des Feldes zu bestimmen. Ich habe jedoch keine Ahnung, wie die Riemann-Hypothesen und die P-gegen-NP-Werte der Statistik aussehen würden. Also, was sind die übergreifenden offenen Fragen in der Statistik? Bearbeitet, um …
Ich habe einen Datensatz mit ungefähr 30 unabhängigen Variablen und möchte ein verallgemeinertes lineares Modell (GLM) erstellen, um die Beziehung zwischen ihnen und der abhängigen Variablen zu untersuchen. Mir ist bewusst, dass die Methode, die mir für diese Situation beigebracht wurde, die schrittweise Regression, jetzt als statistische Sünde angesehen wird …
Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb …
"Im Grunde sind alle Modelle falsch, aber einige sind nützlich." --- Box, George EP; Norman R. Draper (1987). Empirische Modellbildung und Response-Oberflächen, p. 424, Wiley. ISBN 0471810339. Was genau bedeutet der obige Satz?
Ich verstehe die Grundlagen des Ziels von Support Vector Machines in Bezug auf die Klassifizierung einer Eingabe in mehrere verschiedene Klassen, aber was ich nicht verstehe, sind einige der wichtigsten Details. Für den Anfang bin ich ein bisschen durch die Verwendung von Slack-Variablen verwirrt. Was ist ihr Zweck? Ich mache …
Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …
Ich habe Elemente des statistischen Lernens gelesen und möchte wissen, warum das Lasso eine variable Auswahl bietet und die Gratregression nicht. Beide Methoden minimieren die verbleibende Quadratsumme und beschränken die möglichen Werte der Parameter . Für das Lasso ist die Bedingung , während sie für den Kamm für einige ist …
Da es sich bei der logistischen Regression um ein statistisches Klassifizierungsmodell handelt, das sich mit kategorienabhängigen Variablen befasst, warum wird es nicht als logistische Klassifizierung bezeichnet ? Sollte der Name "Regression" nicht Modellen vorbehalten sein, die sich mit stetigen abhängigen Variablen befassen?
Vor ein paar Jahren habe ich einen Strahlungsdetektor entwickelt, der das Intervall zwischen Ereignissen misst, anstatt sie zu zählen. Ich ging davon aus, dass ich bei der Messung nicht zusammenhängender Proben im Durchschnitt die Hälfte des tatsächlichen Intervalls messen würde. Als ich die Schaltung jedoch mit einer kalibrierten Quelle testete, …
Ich verwende den Random Forest-Algorithmus als robusten Klassifikator für zwei Gruppen in einer Microarray-Studie mit Tausenden von Features. Was ist der beste Weg, um die zufällige Gesamtstruktur so darzustellen, dass genügend Informationen vorhanden sind, um sie in einem Papier reproduzierbar zu machen? Gibt es eine Plotmethode in R, um den …
Bei der linearen Regression können wir die Diagnosediagramme (Residuendiagramme, normale QQ-Diagramme usw.) überprüfen, um zu überprüfen, ob die Annahmen der linearen Regression verletzt werden. Bei der logistischen Regression habe ich Probleme, Ressourcen zu finden, die erläutern, wie die Anpassung des logistischen Regressionsmodells diagnostiziert wird. In einigen Kursnotizen zu GLM wird …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.