Als «statistics» getaggte Fragen

Statistik ist ein wissenschaftlicher Ansatz zur induktiven Inferenz und Vorhersage, der auf probabilistischen Modellen der Daten basiert. Im weiteren Sinne umfasst es die Gestaltung von Experimenten und Umfragen, um Daten für diesen Zweck zu sammeln.


3
Beziehung zwischen KS, AUROC und Gini
Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …

3
Data Science-orientierter Datensatz / Forschungsfrage für die Statistik-MSc-Arbeit
Ich möchte 'Data Science' erforschen. Der Begriff scheint mir ein wenig vage zu sein, aber ich erwarte, dass er Folgendes erfordert: maschinelles Lernen (anstelle traditioneller Statistiken); Ein Datensatz, der groß genug ist, um Analysen für Cluster auszuführen. Was sind einige gute Datensätze und Probleme, auf die ein Statistiker mit Programmierhintergrund …

3
Beste Sprachen für wissenschaftliches Rechnen [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Wie skalieren verschiedene statistische Techniken (Regression, PCA usw.) mit Stichprobengröße und -dimension?
Gibt es eine bekannte allgemeine Tabelle statistischer Techniken, die erklären, wie sie mit Stichprobengröße und -dimension skalieren? Zum Beispiel erzählte mir ein Freund neulich, dass die Berechnungszeit für das schnelle Sortieren eindimensionaler Daten der Größe n n * log (n) ist. Wenn wir zum Beispiel y gegen X zurückführen, wobei …

3
Statistik + Informatik = Datenwissenschaft? [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Daten Wissenschaft Stapel Börse. Geschlossen vor 5 Jahren . Ich möchte Datenwissenschaftler werden . Ich habe angewandte Statistik studiert (Versicherungsmathematik), daher habe …


3
Beziehung zwischen Faltung in Mathematik und CNN
Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht anwendet?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
Möglichkeiten, um gemischte Pixel einer Videodatei zu rekonstruieren?
Angenommen, Sie haben eine Videodatei, deren Pixelreihenfolge einmal gemischt wurde. Das heißt, eine zufällige Reihenfolge wurde einmal definiert und auf alle Frames angewendet. Gibt es einen bekannten Ansatz zum Abrufen der anfänglichen Pixelreihenfolge? Ich habe einige Ideen zum Abrufen der anfänglichen Topologie, indem Pixel platziert werden, deren Werte räumlich und …

2
Linear ansteigende Daten durch manuelles Zurücksetzen
Ich habe einen linear ansteigenden Zeitreihendatensatz eines Sensors mit Wertebereichen zwischen 50 und 150. Ich habe einen einfachen linearen Regressionsalgorithmus implementiert , um eine Regressionslinie an solche Daten anzupassen, und ich sage das Datum voraus, an dem die Reihe erreicht werden würde 120. Alles funktioniert gut, wenn sich die Serie …

1
Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind
Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht parametrischen Methode wie erzeugt werden, xgboost.XGBRegressoraber ich …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
Mache ich eine Protokolltransformation von Daten korrekt?
Ich mache eine explorative Datenanalyse für einige Daten und erhalte folgende Histogramme: Das sieht aus wie ein Kandidat für eine Protokolltransformation der Daten, daher führe ich den folgenden Python-Code aus, um die Daten zu transformieren: df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() Und ich bekomme diese neue Darstellung der transformierten Histogramme: Stimmt es, dass …

3
Finden Sie heraus, ob die beiden Datensätze nahe beieinander liegen
Ich habe die folgenden drei Datensätze. data_a=[0.21,0.24,0.36,0.56,0.67,0.72,0.74,0.83,0.84,0.87,0.91,0.94,0.97] data_b=[0.13,0.21,0.27,0.34,0.36,0.45,0.49,0.65,0.66,0.90] data_c=[0.14,0.18,0.19,0.33,0.45,0.47,0.55,0.75,0.78,0.82] data_a sind reale Daten und die anderen beiden sind die simulierten. Hier versuche ich zu überprüfen, welches (data_b oder data_c) dem data_a am nächsten kommt oder ihm sehr ähnlich ist. Derzeit mache ich es visuell und mit ks_2samp Test (Python). Visuell …

5
Wann Mittelwert gegen Median zu verwenden ist
Ich bin neu in Data Science und Statistiken, daher scheint dies eine Anfängerfrage zu sein. Ich arbeite an einem Datensatz, bei dem die Twitter-Follower des Benutzers pro Tag zunehmen. Ich möchte das durchschnittliche Wachstum messen, das er über einen bestimmten Zeitraum hatte, indem ich den Mittelwert des Wachstums ermittelt habe. …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.