Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren



4
Warum nicht durch Regression an die Klassifikation herangehen?
Einige Materialien, die ich beim maschinellen Lernen gesehen habe, sagten, es sei eine schlechte Idee, ein Klassifizierungsproblem durch Regression anzugehen. Aber ich denke, es ist immer möglich, eine kontinuierliche Regression durchzuführen, um die Daten anzupassen und die kontinuierliche Vorhersage abzuschneiden, um diskrete Klassifizierungen zu erhalten. Warum ist es eine schlechte …


8
Was ist eine gute Ressource für das Tischdesign?
Ich habe verschiedene theoretische Behandlungen von Grafiken gesehen, wie zum Beispiel die Grammatik der Grafiken . Aber ich habe in Bezug auf Tabellen nichts Vergleichbares gesehen. Im Laufe der Zeit habe ich ein informelles Modell für bewährte Praktiken bei der Tischgestaltung entwickelt. Ich möchte jedoch den Studierenden einen guten Hinweis …
51 tables 


3
Statistik und kausale Folgerung?
In seiner Arbeit "Statistics and Causal Inference" von 1984 hat Paul Holland eine der grundlegendsten Fragen in der Statistik aufgeworfen: Was kann ein statistisches Modell über die Kausalität aussagen? Dies führte zu seinem Motto: KEINE URSACHE OHNE MANIPULATION in denen die Bedeutung von Einschränkungen für Experimente unter Berücksichtigung von Ursachen …
51 causality 



5
Ist Random Forest ein Boosting-Algorithmus?
Kurzdefinition von Boosten : Können schwache Lernende einen einzigen starken Lernenden hervorbringen? Ein schwacher Lernender wird definiert als ein Klassifikator, der nur geringfügig mit der wahren Klassifikation korreliert (er kann Beispiele besser kennzeichnen als zufälliges Erraten). Kurzdefinition von Random Forest : Random Forests lässt viele Klassifizierungsbäume wachsen. Um ein neues …


3
Kann eine zufällige Gesamtstruktur für die Feature-Auswahl in der multiplen linearen Regression verwendet werden?
Da RF mit Nichtlinearität umgehen kann, aber keine Koeffizienten bereitstellt, ist es ratsam, Zufallsgesamtstrukturen zu verwenden, um die wichtigsten Merkmale zu erfassen und diese Merkmale dann in ein Modell mit mehreren linearen Regressionen zu integrieren, um ihre Koeffizienten zu erhalten.



9
Kennt jemand eine gute Open-Source-Software zur Visualisierung von Daten aus der Datenbank?
Kürzlich bin ich auf Tableau gestoßen und habe versucht, die Daten aus der Datenbank und der CSV-Datei zu visualisieren. Die Benutzeroberfläche ermöglicht es dem Benutzer, zeitliche und räumliche Daten zu visualisieren und Diagramme in einem Augenblick zu erstellen. Ein solches Tool ist sehr nützlich, da es ermöglicht, die Daten grafisch …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.