Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

2
Wie viele Sticker brauche ich, um mein FIFA Panini-Album fertigzustellen?
Ich spiele das FIFA Panini Online-Sticker-Album , eine Internet-Adaption der klassischen Panini-Alben, die normalerweise für die Fußball-Weltmeisterschaft, die Europameisterschaft und möglicherweise für andere Turniere veröffentlicht werden. Das Album enthält Platzhalter für 424 verschiedene Aufkleber. Der Zweck des Spiels ist es, alle 424 zu sammeln. Die Aufkleber werden in 5er-Packs geliefert, …

8
Welche mathematischen Fächer würden Sie vorschlagen, um sich auf Data Mining und maschinelles Lernen vorzubereiten?
Ich versuche, ein selbstgesteuertes Mathematik-Curriculum zusammenzustellen, um mich auf das Erlernen von Data Mining und maschinellem Lernen vorzubereiten. Dies ist darauf zurückzuführen , dass ich Andrew Ngs Maschinenlernkurs in Coursera begonnen habe und das Gefühl hatte, dass ich meine mathematischen Fähigkeiten verbessern musste, bevor ich weitermachen konnte. Ich habe vor …




2
Ich und ich im Vergleich
Ich habe mich gefragt, ob mich jemand über die aktuellen Unterschiede zwischen diesen beiden Funktionen aufklären könnte. Ich fand die folgende Frage: Wie wähle ich die Bibliothek nlme oder lme4 R für Modelle mit gemischten Effekten? , aber das stammt aus ein paar Jahren. Das ist ein Leben lang in …

2
Was sind die Annahmen einer negativen binomischen Regression?
Ich arbeite mit einem großen Datensatz (vertraulich, daher kann ich nicht zu viel teilen) und bin zu dem Schluss gekommen, dass eine negative binomische Regression erforderlich wäre. Ich habe noch nie zuvor eine glm-Regression durchgeführt, und ich kann keine klaren Informationen über die Annahmen finden. Sind sie für MLR gleich? …

4
So führen Sie eine Dimensionsreduktion mit PCA in R durch
Ich habe einen großen Datensatz und möchte eine Dimensionsreduktion durchführen. Jetzt lese ich überall, dass ich PCA dafür verwenden kann. Ich scheine jedoch immer noch nicht zu verstehen, was ich tun soll, nachdem ich die PCA berechnet / durchgeführt habe. In R ist dies mit dem Befehl einfach zu bewerkstelligen …
30 r  pca 

9
Warum ein Vektorfehlerkorrekturmodell verwenden?
Ich bin verwirrt über das Vector Error Correction Model ( VECM ). Technischer Hintergrund: VECM bietet die Möglichkeit, das Vector Autoregressive Model ( VAR ) auf integrierte multivariate Zeitreihen anzuwenden . In den Lehrbüchern nennen sie einige Probleme bei der Anwendung einer VAR auf integrierte Zeitreihen, von denen die wichtigste …

4
Maschinelles Lernen zum Parsen von Strings?
Ich habe viele Adresszeichenfolgen: 1600 Pennsylvania Ave, Washington, DC 20500 USA Ich möchte sie in ihre Bestandteile zerlegen: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Aber natürlich sind die Daten schmutzig: Sie stammen aus vielen Ländern in vielen Sprachen, sind unterschiedlich geschrieben, enthalten Rechtschreibfehler, fehlen, …

5
Daten "Erkundung" vs. Daten "Schnüffeln" / "Foltern"?
Oft bin ich auf informelle Warnungen vor "Datenschnüffeln" gestoßen (hier ist ein amüsantes Beispiel ), und ich glaube, ich habe eine intuitive Vorstellung davon, was das ungefähr bedeutet und warum es ein Problem sein könnte. Andererseits scheint die "explorative Datenanalyse" ein absolut seriöses Verfahren in der Statistik zu sein, zumindest …




5
Strategien zum Unterrichten der Stichprobenverteilung
The tl; dr version Welche erfolgreichen Strategien setzen Sie ein, um die Stichprobenverteilung (z. B. eines Stichprobenmittelwerts) in einem Grundstudium zu vermitteln? Der Hintergrund Im September unterrichte ich einen Einführungskurs in Statistik für Studierende der Sozialwissenschaften (hauptsächlich Politikwissenschaft und Soziologie) im zweiten Studienjahr unter Verwendung der grundlegenden Statistikpraxis von David …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.