Statistiken und Big Data python

25

Viele Leute verwenden ein Hauptwerkzeug wie Excel oder ein anderes Arbeitsblatt, SPSS, Stata oder R für ihre Statistikanforderungen. Sie können sich für ganz spezielle Anforderungen an ein bestimmtes Paket wenden, aber eine Menge Dinge können mit einer einfachen Tabelle oder einem allgemeinen Statistikpaket oder einer Statistikprogrammierumgebung erledigt werden. Ich mochte …

355 r spss stata python

4

Was ist die Stapelgröße im neuronalen Netzwerk?

Ich benutze Python Keras packagefür neuronales Netzwerk. Dies ist der Link . Ist batch_sizegleich der Anzahl von Testproben? Aus Wikipedia haben wir diese Informationen: In anderen Fällen kann das Auswerten des Summengradienten jedoch teure Auswertungen der Gradienten von allen Summandenfunktionen erfordern. Wenn der Trainingssatz riesig ist und keine einfachen Formeln …

175 neural-networks python terminology keras

2

Was ist eine Einbettungsschicht in einem neuronalen Netzwerk?

In vielen neuronalen Netzwerkbibliotheken gibt es eingebettete Ebenen, wie in Keras oder Lasagne . Ich bin mir nicht sicher, ob ich seine Funktion verstehe, obwohl ich die Dokumentation gelesen habe. In der Keras-Dokumentation heißt es beispielsweise: Positive ganze Zahlen (Indizes) in Dichtevektoren fester Größe umwandeln, z. [[4], [20]] -> [[0,25, …

92 machine-learning neural-networks python word-embeddings

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

9

Welchen Algorithmus sollte ich verwenden, um Anomalien in Zeitreihen zu erkennen?

Hintergrund Ich arbeite im Network Operations Center. Wir überwachen Computersysteme und deren Leistung. Eine der wichtigsten zu überwachenden Messgrößen ist die Anzahl der Besucher / Kunden, die derzeit mit unseren Servern verbunden sind. Um dies sichtbar zu machen, sammeln wir (Ops-Team) Metriken wie Zeitreihendaten und zeichnen Diagramme. Graphite ermöglicht es …

70 machine-learning time-series python computational-statistics anomaly-detection

1

Wie kann der Datensatz für die Kreuzvalidierung, Lernkurve und Endbewertung aufgeteilt werden?

Was ist eine geeignete Strategie zur Aufteilung des Datensatzes? Ich bitte um Feedback zu dem folgenden Ansatz (nicht zu den einzelnen Parametern wie test_sizeoder n_iter, aber wenn ich verwende X, y, X_train, y_train, X_test, und in y_testgeeigneter Weise und wenn die Sequenz macht Sinn): (Erweiterung dieses Beispiels aus der Scikit-Learn-Dokumentation) …

70 machine-learning cross-validation python scikit-learn

5

Welche Verlustfunktion für Klassifizierungsaufgaben mit mehreren Klassen und mehreren Markierungen in neuronalen Netzen?

Ich trainiere ein neuronales Netzwerk, um eine Menge von Objekten in n-Klassen zu klassifizieren. Jedes Objekt kann gleichzeitig mehreren Klassen angehören (Multi-Class, Multi-Label). Ich habe gelesen, dass bei Problemen mit mehreren Klassen generell empfohlen wird, anstelle von mse Softmax und kategoriale Kreuzentropie als Verlustfunktion zu verwenden, und ich verstehe mehr …

64 neural-networks python loss-functions keras cross-entropy

9

Wie ergänzen sich R und Python in der Datenwissenschaft?

In vielen Tutorials oder Handbüchern scheint die Erzählung zu implizieren, dass R und Python als komplementäre Komponenten des Analyseprozesses nebeneinander existieren. Für mein ungeübtes Auge scheint es jedoch so, als ob beide Sprachen das Gleiche tun. Meine Frage ist also, ob es wirklich spezialisierte Nischen für die beiden Sprachen gibt …

54 r python software

10

Maschinelles Lernen mit Python

Ich denke darüber nach, Python-Bibliotheken für meine maschinellen Lernexperimente zu verwenden. Bisher hatte ich mich auf WEKA verlassen, war aber insgesamt ziemlich unzufrieden. Dies ist in erster Linie darauf zurückzuführen, dass ich festgestellt habe, dass WEKA nicht so gut unterstützt wird (sehr wenige Beispiele, Dokumentation ist spärlich und Community-Support ist …

53 machine-learning python

7

Überlebensanalyse-Tools in Python [geschlossen]

Ich frage mich, ob es Pakete für Python gibt, die Überlebensanalysen durchführen können. Ich habe das Überlebenspaket in R verwendet, möchte aber meine Arbeit auf Python portieren.

46 survival python

5

Wie interpretiert man SVM-Feature-Gewichte?

Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …

42 svm feature-selection python scikit-learn

2

Pandas / Statsmodel / Scikit-lernen

Lernen Pandas, Statsmodels und Scikit unterschiedliche Implementierungen von maschinellem Lernen / statistischen Operationen oder ergänzen sich diese? Welche davon bietet die umfassendste Funktionalität? Welches wird aktiv entwickelt und / oder unterstützt? Ich muss eine logistische Regression implementieren. Irgendwelche Vorschläge, welche davon ich verwenden soll?

41 machine-learning python scikit-learn statsmodels pandas

6

Warum erhalte ich einen Entscheidungsbaum mit 100% Genauigkeit?

Ich erhalte eine 100% ige Genauigkeit für meinen Entscheidungsbaum. Was mache ich falsch? Das ist mein Code: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] …

38 machine-learning python cart accuracy

4

Daten weisen zwei Trends auf; Wie extrahiere ich unabhängige Trendlinien?

Ich habe eine Reihe von Daten, die nicht in einer bestimmten Reihenfolge angeordnet sind, aber bei einer klaren Darstellung zwei unterschiedliche Trends aufweisen. Eine einfache lineare Regression wäre hier aufgrund der eindeutigen Unterscheidung der beiden Reihen nicht ausreichend. Gibt es eine einfache Möglichkeit, die beiden unabhängigen linearen Trendlinien zu ermitteln? …

34 time-series python curve-fitting

1

Link Anomaly Detection im zeitlichen Netzwerk

Ich bin auf dieses Dokument gestoßen, das die Erkennung von Link-Anomalien zur Vorhersage von Trendthemen verwendet, und fand es unglaublich interessant: Das Dokument befasst sich mit dem Thema "Aufstrebende Themen in sozialen Netzwerken mithilfe der Erkennung von Link-Anomalien" . Ich würde es gerne in einem anderen Datensatz replizieren, bin aber …

32 time-series machine-learning outliers python change-point

Als «python» getaggte Fragen