Ich suche nach einer Erklärung, wie die relative variable Wichtigkeit in gradientenverstärkten Bäumen berechnet wird, die nicht allzu allgemein / simpel ist wie: Die Kennzahlen basieren auf der Häufigkeit, mit der eine Variable zum Teilen ausgewählt wurde, gewichtet durch die quadratische Verbesserung des Modells als Ergebnis jeder Teilung und gemittelt …
In einigen Quellen, einschließlich dieser , habe ich gelesen , dass Random Forests unempfindlich gegenüber Ausreißern sind (wie es beispielsweise bei Logistic Regression und anderen ML-Methoden der Fall ist). Zwei Teile der Intuition sagen mir jedoch etwas anderes: Bei jeder Erstellung eines Entscheidungsbaums müssen alle Punkte klassifiziert werden. Dies bedeutet, …
Ich versuche, den Ursprung der gekrümmten Form von Konfidenzbändern zu verstehen, die mit einer linearen OLS-Regression verbunden sind, und wie sie sich auf die Konfidenzintervalle der Regressionsparameter (Steigung und Achsenabschnitt) bezieht, zum Beispiel (unter Verwendung von R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Es scheint, dass das Band mit …
Kann mir jemand sagen, was mit dem Ausdruck "schwacher Lernender" gemeint ist? Soll es eine schwache Hypothese sein? Ich bin verwirrt über die Beziehung zwischen einem schwachen Lernenden und einem schwachen Klassifikator. Sind beide gleich oder gibt es einen Unterschied? In dem Adaboost-Algorithmus T=10. Was ist damit gemeint? Warum wählen …
Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
Ich verstehe, dass HMMs (Hidden Markov Models) generative Modelle und CRF diskriminative Modelle sind. Ich verstehe auch, wie CRFs (Conditional Random Fields) entworfen und verwendet werden. Was ich nicht verstehe, ist, wie sie sich von HMM unterscheiden? Ich habe gelesen, dass wir im Fall von HMM unseren nächsten Zustand nur …
Ich weiß, dass dies ein ziemlich heißes Thema ist, auf das niemand wirklich eine einfache Antwort geben kann. Trotzdem frage ich mich, ob der folgende Ansatz nicht sinnvoll sein könnte. Die Bootstrap-Methode ist nur dann nützlich, wenn Ihr Beispiel mehr oder weniger der gleichen Verteilung wie die ursprüngliche Grundgesamtheit entspricht …
Ich habe einen Datensatz X mit 10 Dimensionen, von denen 4 diskrete Werte sind. Tatsächlich sind diese 4 diskreten Variablen ordinal, dh ein höherer Wert impliziert eine höhere / bessere Semantik. 2 dieser diskreten Variablen sind in dem Sinne kategorisch, dass für jede dieser Variablen der Abstand, z. B. von …
Andrew More definiert Informationsgewinn als: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) wobei H(Y|X)H(Y|X)H(Y|X) die bedingte Entropie ist . Wikipedia nennt die oben genannte Menge jedoch gegenseitige Informationen . Wikipedia hingegen definiert Informationsgewinn als die Kullback-Leibler-Divergenz (auch bekannt als Informationsdivergenz oder relative Entropie) zwischen zwei Zufallsvariablen: DKL(P||Q)=H(P,Q)−H(P)DKL(P||Q)=H(P,Q)−H(P)D_{KL}(P||Q) = H(P,Q) - H(P) wobei …
Mein Vater ist Mathematikbegeisterter, interessiert sich aber nicht besonders für Statistik. Es wäre ordentlich zu versuchen , einige der wunderbaren Teile der Statistik zu veranschaulichen, und das CLT ist ein erstklassiger Kandidat. Wie würden Sie die mathematische Schönheit und Wirkung des zentralen Grenzwertsatzes einem Nicht-Statistiker vermitteln?
Wenn ja, was? Wenn nein, warum nicht? Für eine Stichprobe auf der Linie minimiert der Median die absolute Gesamtabweichung. Es erscheint natürlich, die Definition auf R2 usw. zu erweitern, aber ich habe es nie gesehen. Aber dann bin ich schon lange im linken Feld unterwegs.
In Andrew Ngs Kurs über Neuronale Netze und tiefes Lernen über Coursera sagt er, dass die Verwendung von fast immer der Verwendung von vorzuziehen ist .tanhtanhtanhsigmoidsigmoidsigmoid Der Grund, den er angibt, ist, dass die Ausgaben mit center um 0 statt mit 's 0,5 erfolgen, und dies "erleichtert das Lernen für …
Kann jemand eine gute Darstellung der Theorie der partiellen Regression der kleinsten Quadrate (online verfügbar) für jemanden empfehlen, der SVD und PCA versteht? Ich habe online in vielen Quellen nachgesehen und nichts gefunden, das die richtige Kombination aus Strenge und Zugänglichkeit bietet. Ich habe mich mit den Elementen des statistischen …
Ich verstehe die posteriore Vorhersageverteilung und habe über posteriore Vorhersageprüfungen gelesen , obwohl mir noch nicht klar ist, was sie bewirkt. Was genau ist der hintere prädiktive Check? Warum sagen manche Autoren, dass die Durchführung von Vorhersagetests im Nachhinein "die Daten zweimal verwenden" und nicht missbraucht werden sollten? (oder sogar, …
Ich habe kürzlich gelernt, Bootstrapping-Techniken zu verwenden, um Standardfehler und Konfidenzintervalle für Schätzer zu berechnen. Was ich gelernt habe war, dass wenn die Daten IID sind, Sie die Probendaten als Grundgesamtheit behandeln und eine Stichprobenerhebung mit Ersatz durchführen können. Auf diese Weise können Sie mehrere Simulationen einer Teststatistik erhalten. Bei …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.