Als «statistics» getaggte Fragen

Statistik ist ein wissenschaftlicher Ansatz zur induktiven Inferenz und Vorhersage, der auf probabilistischen Modellen der Daten basiert. Im weiteren Sinne umfasst es die Gestaltung von Experimenten und Umfragen, um Daten für diesen Zweck zu sammeln.

1
Wie erhält man eine Korrelation zwischen zwei kategorialen Variablen und einer kategorialen Variablen und einer stetigen Variablen?
Ich erstelle ein Regressionsmodell und muss das Folgende berechnen, um auf Korrelationen zu prüfen Korrelation zwischen 2 mehrstufigen kategorialen Variablen Korrelation zwischen einer mehrstufigen kategorialen Variablen und einer stetigen Variablen VIF (Varianzinflationsfaktor) für mehrstufige kategoriale Variablen Ich glaube, es ist falsch, den Pearson-Korrelationskoeffizienten für die obigen Szenarien zu verwenden, da …

4
Neuronale Netze: Welche Kostenfunktion soll verwendet werden?
Ich benutze TensorFlow für Experimente hauptsächlich mit neuronalen Netzen. Obwohl ich bereits einige Experimente durchgeführt habe (XOR-Problem, MNIST, einiges an Regression, ...), habe ich Schwierigkeiten, die "richtige" Kostenfunktion für bestimmte Probleme zu wählen, da ich insgesamt als Anfänger gelten könnte. Bevor ich zu TensorFlow kam, habe ich einige vollständig verbundene …

11
Data Science in C (oder C ++)
Ich bin ein RSprachprogrammierer. Ich gehöre auch zu der Gruppe von Leuten, die als Data Scientists gelten, aber aus anderen akademischen Disziplinen als CS stammen. Dies funktioniert in meiner Rolle als Data Scientist sehr gut. Als ich meine Karriere in Randeren Skriptsprachen / Web-Sprachen begann und nur Grundkenntnisse in diesen …

3
Berechnung und Visualisierung der Korrelationsmatrix mit Pandas
Ich habe einen Pandadatenrahmen mit mehreren Einträgen und möchte die Korrelation zwischen dem Einkommen einer Art von Geschäften berechnen. Es gibt eine Reihe von Geschäften mit Einkommensdaten, Klassifizierung des Tätigkeitsbereichs (Theater, Tuchläden, Lebensmittel ...) und anderen Daten. Ich habe versucht, einen neuen Datenrahmen zu erstellen und eine Spalte mit den …

4
Bücher über die "Wissenschaft" in Data Science? [geschlossen]
Was sind die Bücher über die Wissenschaft und Mathematik hinter der Datenwissenschaft? Es fühlt sich so an, als würden so viele "Data Science" -Bücher Tutorials programmieren und Dinge wie Datenerzeugungsprozesse und statistische Schlussfolgerungen nicht berühren. Ich kann bereits codieren, was ich schwach bin, ist die Mathematik / Statistik / Theorie …

9
Irgendeine Online-R-Konsole?
Ich suche eine Online-Konsole für die Sprache R. Wie ich den Code schreibe und den Server ausführen soll und mir die Ausgabe liefern soll. Ähnlich wie auf der Website Datacamp.
24 r  statistics 

4
Welches statistische Modell sollte ich verwenden, um die Wahrscheinlichkeit zu analysieren, dass ein einzelnes Ereignis longitudinale Daten beeinflusst?
Ich versuche, eine Formel, eine Methode oder ein Modell zu finden, um die Wahrscheinlichkeit zu analysieren, dass ein bestimmtes Ereignis einige longitudinale Daten beeinflusst. Ich habe Schwierigkeiten herauszufinden, wonach ich bei Google suchen soll. Hier ist ein Beispielszenario: Stellen Sie sich vor, Sie besitzen ein Unternehmen mit durchschnittlich 100 begehbaren …

4
Wie spezifiziere ich wichtige Attribute?
Angenommen, ein Satz lose strukturierter Daten (z. B. Webtabellen / verknüpfte offene Daten) besteht aus vielen Datenquellen. Es gibt kein gemeinsames Schema, dem die Daten folgen, und jede Quelle kann zur Beschreibung der Werte Synonymattribute verwenden (z. B. "Nationalität" vs "bornIn"). Mein Ziel ist es, einige "wichtige" Attribute zu finden, …


2
Hochdimensionale Daten: Was sind nützliche Techniken?
Aufgrund verschiedener Flüche der Dimensionalität verschlechtern sich Genauigkeit und Geschwindigkeit vieler gängiger Vorhersagetechniken bei hochdimensionalen Daten. Welche der nützlichsten Techniken / Tricks / Heuristiken helfen dabei, hochdimensionale Daten effektiv zu verarbeiten? Beispielsweise, Funktionieren bestimmte statistische / Modellierungsmethoden bei hochdimensionalen Datensätzen gut? Können wir die Leistung unserer Vorhersagemodelle für hochdimensionale Daten …

3
Wann täuschen p-Werte?
Auf welche Datenbedingungen sollten wir achten, wenn p-Werte möglicherweise nicht die beste Methode zur Bestimmung der statistischen Signifikanz sind? Gibt es bestimmte Problemtypen, die in diese Kategorie fallen?

1
Wie viele Features sollen mit Random Forests getestet werden?
Auf der Wikipedia-Seite, die "Die Elemente des statistischen Lernens" zitiert, heißt es: Für ein Klassifizierungsproblem mit Merkmalen gilt in der Regel ⌊ √ppp -Funktionen werden in jeder Aufteilung verwendet.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Ich verstehe, dass dies eine ziemlich gut fundierte Vermutung ist und wahrscheinlich durch empirische Beweise bestätigt wurde, aber gibt …

2
Analysieren von A / B-Testergebnissen, die nicht normal verteilt sind, unter Verwendung eines unabhängigen T-Tests
Ich habe eine Reihe von Ergebnissen aus einem A / B-Test (eine Kontrollgruppe, eine Merkmalsgruppe), die nicht zu einer Normalverteilung passen. Tatsächlich ähnelt die Verteilung eher der Landau-Verteilung. Ich glaube, dass der unabhängige T-Test erfordert, dass die Stichproben mindestens annähernd normal verteilt sind, was mich davon abhält, den T-Test als …

6
Datensätze, die Best Practices verstehen
Ich bin ein CS-Masterstudent im Bereich Data Mining. Mein Vorgesetzter hat mir einmal gesagt, dass ich die Daten vollständig verstehen und sicherstellen muss, dass die Daten sauber und korrekt sind, bevor ich einen Klassifikator ausführe oder etwas mit einem Datensatz mache. Meine Fragen: Was sind die Best Practices zum Verständnis …

4
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.