Statistiken und Big Data python

5

Welche Programmiersprache empfehlen Sie, um ein Problem des maschinellen Lernens zu prototypisieren?

Arbeitet derzeit in Octave, ist aber aufgrund der schlechten Dokumentation nur sehr langsam vorangekommen. Welche Sprache ist leicht zu lernen und zu verwenden und gut dokumentiert, um Probleme des maschinellen Lernens zu lösen? Ich möchte einen Prototyp für einen kleinen Datensatz (Tausende von Beispielen) erstellen, daher ist Geschwindigkeit nicht wichtig. …

12 r machine-learning matlab software python

5

Wie man einen Gaußschen Kernel effektiv in numpy berechnet [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Ich habe ein Numpy-Array mit m Spalten und n Zeilen, wobei die Spalten Dimensionen und …

12 python kernel-trick numpy

4

Wie wird eine PCA für Daten mit sehr hoher Dimensionalität durchgeführt?

Um eine Hauptkomponentenanalyse (PCA) durchzuführen, müssen Sie die Mittelwerte jeder Spalte von den Daten subtrahieren, die Korrelationskoeffizientenmatrix berechnen und dann die Eigenvektoren und Eigenwerte finden. Nun, vielmehr habe ich dies getan, um es in Python zu implementieren, außer dass es nur mit kleinen Matrizen funktioniert, da die Methode zum Ermitteln …

12 pca python

1

Was zeigt das Autokorrelationsdiagramm (Pandas)?

Ich bin ein Anfänger und versuche zu verstehen, was ein Autokorrelationsdiagramm zeigt. Ich habe mehrere Erklärungen aus verschiedenen Quellen wie dieser Seite oder der zugehörigen Wikipedia-Seite gelesen , die ich hier nicht zitiere. Ich habe diesen sehr einfachen Code, in dem ich Daten für ein Jahr in meinem Index habe …

12 python autocorrelation pandas

6

Methoden in R oder Python zur Funktionsauswahl beim unbeaufsichtigten Lernen [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Welche Methoden / Implementierungen stehen in R / Python zur Verfügung, um unwichtige / wichtige …

11 r feature-selection python

8

Visualisierung hochdimensionaler Daten

Ich habe Stichproben von zwei Klassen, die Vektoren im hochdimensionalen Raum sind, und ich möchte sie in 2D oder 3D darstellen. Ich kenne mich mit Techniken zur Reduzierung der Dimensionalität aus, aber ich brauche ein wirklich einfaches und benutzerfreundliches Tool (in Matlab, Python oder einer vorgefertigten EXE-Datei). Ich frage mich …

11 data-visualization matlab python dimensionality-reduction

6

Versteckte Markov-Modelle mit Baum-Welch-Algorithmus unter Verwendung von Python

Ich suche nach einer Python-Implementierung (in reinem Python oder in Wrapping vorhandener Materialien) von HMM und Baum-Welch. Einige Ideen? Ich habe gerade in Google gesucht und in Bezug auf andere Techniken des maschinellen Lernens wirklich schlechtes Material gefunden. Warum?

11 python hidden-markov-model

1

Wie zeichnet man einen Geröllplot in Python? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen im vergangenen Jahr . Ich verwende eine singuläre Vektorzerlegung auf einer Matrix und erhalte die U-, S- und Vt-Matrizen. …

11 data-visualization python svd

2

Visualisierung mehrdimensionaler Daten (LSI) in 2D

Ich verwende die latente semantische Indizierung, um Ähnlichkeiten zwischen Dokumenten zu finden ( danke, JMS! ) Nach der Dimensionsreduzierung habe ich versucht, mit k-means Clustering die Dokumente in Cluster zu gruppieren, was sehr gut funktioniert. Ich möchte jedoch noch einen Schritt weiter gehen und die Dokumente als eine Reihe von …

11 data-visualization clustering python multidimensional-scaling

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

4

Hauptkomponentenanalyse und Regression in Python

Ich versuche herauszufinden, wie ich in Python einige Arbeiten reproduzieren kann, die ich in SAS ausgeführt habe. Mit diesem Datensatz , bei dem Multikollinearität ein Problem darstellt, möchte ich eine Hauptkomponentenanalyse in Python durchführen. Ich habe mir Scikit-Learn- und Statistikmodelle angesehen, bin mir aber nicht sicher, wie ich ihre Ausgabe …

11 pca python scikit-learn

2

Entscheidungsgrenzdiagramm für ein Perzeptron

Ich versuche, die Entscheidungsgrenze eines Perzeptron-Algorithmus zu zeichnen, und bin über einige Dinge wirklich verwirrt. Meine Eingabeinstanzen haben die Form , im Grunde eine 2D-Eingabeinstanz ( x 1 und x 2 ) und einen Binärklassenzielwert ( y ) [1 oder 0].[ ( x1, x2) , y]][(x1,x2),y][(x_{1},x_{2}), y]x1x1x_{1}x2x2x_{2}yyy Mein Gewichtsvektor hat …

11 machine-learning neural-networks python decision-theory perceptron

2

Kolmogorov-Smirnov-Test: Die Statistik des p-Werts und des ks-Tests nimmt mit zunehmender Stichprobengröße ab

Warum nehmen p-Werte und ks-Teststatistiken mit zunehmender Stichprobengröße ab? Nehmen Sie diesen Python-Code als Beispiel: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) Die Ergebnisse sind: Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) …

11 python p-value goodness-of-fit intuition scipy

1

Sollte ich Random Forest Regressor oder Klassifikator wählen?

Ich passe einen Datensatz mit einer binären Zielklasse durch die zufällige Gesamtstruktur an. In Python kann ich das entweder mit dem randomforestclassifier oder dem randomforestregressor machen. Ich kann die Klassifizierung direkt vom randomforestclassifier erhalten oder ich könnte zuerst randomforestregressor ausführen und eine Reihe von geschätzten Punktzahlen zurückerhalten (kontinuierlicher Wert). Dann …

11 python random-forest

3

Warum erhalte ich eine Informationsentropie größer als 1?

Ich habe die folgende Funktion implementiert, um die Entropie zu berechnen: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum Ergebnis: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using …

11 mathematical-statistics python entropy

Als «python» getaggte Fragen