Statistiken und Big Data

5

Was ist der Unterschied zwischen Multiclass und Multilabel Problem

Was ist der Unterschied zwischen einem Problem mit mehreren Klassen und einem Problem mit mehreren Etiketten?

52 classification clustering terminology multi-class multilabel

7

Warum wird der Regularisierungsterm * zur Kostenfunktion * hinzugefügt (anstatt multipliziert usw.)?

Wann immer Regularisierung verwendet wird, wird sie häufig zur Kostenfunktion hinzugefügt, wie in der folgenden Kostenfunktion. Dies ist für mich intuitiv sinnvoll, da das minimiert wird Kostenfunktion bedeutet, den Fehler (den linken Term) zu minimieren und die Größen der Koeffizienten (den rechten Term) gleichzeitig zu minimieren (oder zumindest die beiden …

51 regularization

4

Warum nicht durch Regression an die Klassifikation herangehen?

Einige Materialien, die ich beim maschinellen Lernen gesehen habe, sagten, es sei eine schlechte Idee, ein Klassifizierungsproblem durch Regression anzugehen. Aber ich denke, es ist immer möglich, eine kontinuierliche Regression durchzuführen, um die Daten anzupassen und die kontinuierliche Vorhersage abzuschneiden, um diskrete Klassifizierungen zu erhalten. Warum ist es eine schlechte …

51 regression machine-learning classification

6

Wie ermittelt man den besten Grenzpunkt und sein Konfidenzintervall anhand der ROC-Kurve in R?

Ich habe die Daten eines Tests, mit dem sich normale und Tumorzellen unterscheiden lassen. Laut ROC-Kurve sieht es für diesen Zweck gut aus (Fläche unter der Kurve ist 0,9): Meine Fragen sind: Wie wird der Grenzwert für diesen Test und sein Konfidenzintervall bestimmt, in dem die Messwerte als nicht eindeutig …

51 r data-visualization confidence-interval roc ggplot2

8

Was ist eine gute Ressource für das Tischdesign?

Ich habe verschiedene theoretische Behandlungen von Grafiken gesehen, wie zum Beispiel die Grammatik der Grafiken . Aber ich habe in Bezug auf Tabellen nichts Vergleichbares gesehen. Im Laufe der Zeit habe ich ein informelles Modell für bewährte Praktiken bei der Tischgestaltung entwickelt. Ich möchte jedoch den Studierenden einen guten Hinweis …

51 tables

2

Was ist der Unterschied zwischen einem Partikelfilter (sequentielles Monte Carlo) und einem Kalman-Filter?

Ein Partikelfilter und ein Kalman-Filter sind beide rekursive Bayes'sche Schätzer . Ich treffe auf meinem Gebiet häufig auf Kalman-Filter, sehe aber sehr selten die Verwendung eines Partikelfilters. Wann würde einer über den anderen eingesetzt werden?

51 bayesian particle-filter kalman-filter

3

Statistik und kausale Folgerung?

In seiner Arbeit "Statistics and Causal Inference" von 1984 hat Paul Holland eine der grundlegendsten Fragen in der Statistik aufgeworfen: Was kann ein statistisches Modell über die Kausalität aussagen? Dies führte zu seinem Motto: KEINE URSACHE OHNE MANIPULATION in denen die Bedeutung von Einschränkungen für Experimente unter Berücksichtigung von Ursachen …

51 causality

4

Gegenseitige Information versus Korrelation

Warum und wann sollten wir Mutual Information für statistische Korrelationsmessungen wie "Pearson", "Spearman" oder "Kendall's Tau" verwenden?

51 correlation mathematical-statistics mutual-information

3

Haben wir ein Problem mit „mitleidigen Gegenstimmen“?

Ich weiß, das klingt vielleicht nicht nach einem Thema, aber hör mir zu. Bei Stack Overflow und hier bekommen wir Stimmen für Beiträge, dies wird alles in tabellarischer Form gespeichert. Z.B: post id voter id vote type datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 …

51 time-series hypothesis-testing data-mining markov-process censoring

5

Ist Random Forest ein Boosting-Algorithmus?

Kurzdefinition von Boosten : Können schwache Lernende einen einzigen starken Lernenden hervorbringen? Ein schwacher Lernender wird definiert als ein Klassifikator, der nur geringfügig mit der wahren Klassifikation korreliert (er kann Beispiele besser kennzeichnen als zufälliges Erraten). Kurzdefinition von Random Forest : Random Forests lässt viele Klassifizierungsbäume wachsen. Um ein neues …

51 machine-learning random-forest boosting bagging

3

Was ist der Unterschied zwischen der Bayes'schen Schätzung und der maximalen Wahrscheinlichkeitsschätzung?

Bitte erläutern Sie mir den Unterschied zwischen der Bayes'schen Schätzung und der maximalen Wahrscheinlichkeitsschätzung.

50 bayesian maximum-likelihood

3

Kann eine zufällige Gesamtstruktur für die Feature-Auswahl in der multiplen linearen Regression verwendet werden?

Da RF mit Nichtlinearität umgehen kann, aber keine Koeffizienten bereitstellt, ist es ratsam, Zufallsgesamtstrukturen zu verwenden, um die wichtigsten Merkmale zu erfassen und diese Merkmale dann in ein Modell mit mehreren linearen Regressionen zu integrieren, um ihre Koeffizienten zu erhalten.

50 regression machine-learning feature-selection random-forest regression-strategies

4

Schnelle lineare Regression, robust gegenüber Ausreißern

Ich habe es mit linearen Daten mit Ausreißern zu tun, von denen einige um mehr als 5 Standardabweichungen von der geschätzten Regressionslinie abweichen. Ich suche nach einer linearen Regressionstechnik, die den Einfluss dieser Punkte verringert. Bisher habe ich die Regressionsgerade mit allen Daten geschätzt, dann den Datenpunkt mit sehr großen …

50 regression linear-model outliers robust fused-lasso

8

Wie kann man die Ausfallwahrscheinlichkeit ermitteln, wenn keine Fehler aufgetreten sind?

Ich habe mich gefragt, ob es eine Möglichkeit gibt, die Wahrscheinlichkeit eines Ausfalls (eines Produkts) zu ermitteln, wenn wir 1 Jahr lang 100.000 Produkte auf dem Markt haben und keine Ausfälle haben. Wie hoch ist die Wahrscheinlichkeit, dass eines der nächsten 10.000 verkauften Produkte versagt?

50 probability survival binomial

9

Kennt jemand eine gute Open-Source-Software zur Visualisierung von Daten aus der Datenbank?

Kürzlich bin ich auf Tableau gestoßen und habe versucht, die Daten aus der Datenbank und der CSV-Datei zu visualisieren. Die Benutzeroberfläche ermöglicht es dem Benutzer, zeitliche und räumliche Daten zu visualisieren und Diagramme in einem Augenblick zu erstellen. Ein solches Tool ist sehr nützlich, da es ermöglicht, die Daten grafisch …

50 data-visualization software interactive-visualization