Data Science python

1

Was ist das beste Keras-Modell für die Klassifizierung mehrerer Klassen?

Ich arbeite an der Forschung, wo Bedarf zum Klassifizieren eines von drei Ereignisse WINNER = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mein aktuelles Modell ist: …

30 python neural-network classification clustering keras

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Hypertuning von XGBoost-Parametern

XGBoost hat hervorragende Arbeit geleistet, wenn es um den Umgang mit kategorialen und kontinuierlichen abhängigen Variablen geht. Aber wie wähle ich die optimierten Parameter für ein XGBoost-Problem aus? So habe ich die Parameter für ein aktuelles Kaggle-Problem angewendet: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, …

27 r python xgboost

3

So erzwingen Sie, dass Gewichte in der linearen Regression nicht negativ sind

Ich verwende eine standardmäßige lineare Regression mit Scikit-Learn in Python. Ich möchte jedoch erzwingen, dass die Gewichte für jedes Merkmal alle positiv sind (nicht negativ). Kann ich das auf irgendeine Weise erreichen? Ich habe in der Dokumentation gesucht, aber keinen Weg gefunden, dies zu erreichen. Ich verstehe, dass ich möglicherweise …

27 python scikit-learn linear-regression

1

PyTorch vs. Tensorflow Fold

Sowohl PyTorch als auch Tensorflow Fold sind Deep-Learning-Frameworks für Situationen, in denen die Eingabedaten eine ungleichmäßige Länge oder Dimension aufweisen ( dh Situationen, in denen dynamische Diagramme nützlich oder erforderlich sind). Ich würde gerne wissen, wie sie im Sinne von Paradigmen, auf die sie sich stützen (z. B. dynamisches Batching) …

26 python deep-learning tensorflow pytorch

7

Wie klone ich eine Python-Arbeitsumgebung auf einem anderen Computer?

Ich habe mit Python (Anaconda + Flask) auf meiner Workstation ein Modell für maschinelles Lernen entwickelt, und alles läuft gut. Später habe ich versucht, dieses Programm auf einen anderen Computer zu übertragen, wobei ich natürlich versucht habe, dieselbe Umgebung einzurichten, das Programm jedoch nicht ausgeführt werden kann. Ich habe das …

26 python anaconda

6

Maschinelles Lernen zur Einschätzung des Alters von Nutzern anhand von Facebook-Websites, die sie mögen

Ich habe eine Datenbank aus meiner Facebook-Anwendung und versuche, mithilfe von maschinellem Lernen das Alter der Benutzer basierend auf den von ihnen bevorzugten Facebook-Websites einzuschätzen. Es gibt drei entscheidende Merkmale meiner Datenbank: Die Altersverteilung in meinem Trainingsset (insgesamt 12.000 Benutzer) ist auf jüngere Benutzer ausgerichtet (dh ich habe 1157 Benutzer …

25 machine-learning dimensionality-reduction python

2

Zusammenführen von zwei verschiedenen Modellen in Keras

Ich versuche, zwei Keras-Modelle zu einem einzigen Modell zusammenzuführen, und dies kann ich nicht erreichen. Zum Beispiel in der beigefügten Figur, würde Ich mag die mittlere Schicht holen die Dimension 8, und das als Eingabe an die Schicht B 1 (der Dimension 8 wieder) in Modell B und dann beiden …

25 machine-learning python deep-learning keras tensorflow

4

Gibt es eine einfache Möglichkeit, pandas.DataFrame.isin parallel auszuführen?

Ich habe ein Modellierungs- und Bewertungsprogramm, das die DataFrame.isinFunktion von Pandas stark nutzt und Listen von Facebook-Like-Einträgen einzelner Benutzer für jede von mehreren tausend spezifischen Seiten durchsucht. Dies ist der zeitaufwändigste Teil des Programms, mehr als das Modellieren oder Bewerten von Stücken, einfach weil es nur auf einem Kern läuft, …

25 performance python pandas parallel

4

Word2Vec für die Erkennung benannter Entitäten

Ich möchte die word2vec-Implementierung von Google verwenden, um ein System zur Erkennung benannter Entitäten zu erstellen. Ich habe gehört, dass rekursive neuronale Netze mit Backpropagation durch Struktur für Aufgaben zur Erkennung benannter Entitäten gut geeignet sind, aber ich konnte für diesen Modelltyp keine angemessene Implementierung oder ein geeignetes Lernprogramm finden. …

25 machine-learning python neural-network nlp

5

VM-Image für Data Science-Projekte

Da für datenwissenschaftliche Aufgaben zahlreiche Tools zur Verfügung stehen und es umständlich ist, alles zu installieren und ein perfektes System aufzubauen. Gibt es ein Linux / Mac OS-Image mit Python, R und anderen Open-Source-Data-Science-Tools, das für die Benutzer sofort verfügbar ist? Ein Ubuntu oder ein leichtes Betriebssystem mit der neuesten …

24 python r tools

4

Scikit-Learn: SGDClassifier dazu bringen, eine logistische Regression vorherzusagen

Eine Möglichkeit, eine logistische Regression zu trainieren, besteht in der Verwendung einer stochastischen Gradientenabnahme, zu der scikit-learn eine Schnittstelle bietet. Was ich möchte , ist zu tun , nehmen Sie einen Scikit-Learn des SGDClassifier und haben sie das gleiche wie eine logistische Regression punkten hier . Ich muss jedoch einige …

24 python logistic-regression scikit-learn gradient-descent

3

Bewährte Methoden zum Speichern von Python-Modellen für maschinelles Lernen

Was sind die bewährten Methoden zum Speichern, Speichern und Weitergeben von Modellen für maschinelles Lernen? In Python speichern wir im Allgemeinen die Binärdarstellung des Modells mit pickle oder joblib. Modelle können in meinem Fall ~ 100Mo groß sein. Außerdem kann die JobLib ein Modell in mehreren Dateien speichern, es sei …

24 python databases binary

4

Müssen Ihre Daten vor dem Clustering standardisiert werden?

Müssen Ihre Daten vor dem Cluster standardisiert werden? Im Beispiel von scikit learnetwa DBSCAN, hier tun sie dies in der Zeile: X = StandardScaler().fit_transform(X) Aber ich verstehe nicht, warum es notwendig ist. Schließlich setzt Clustering keine bestimmte Verteilung von Daten voraus - es ist eine unbeaufsichtigte Lernmethode, deren Ziel es …

23 python clustering clusters anomaly-detection

5

Berechnung der KL-Divergenz in Python

Ich bin ziemlich neu in diesem Bereich und kann nicht sagen, dass ich die theoretischen Konzepte dahinter vollständig verstanden habe. Ich versuche, die KL-Divergenz zwischen mehreren Punktelisten in Python zu berechnen. Ich benutze http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html , um dies zu versuchen. Das Problem, auf das ich stoße, ist, dass der zurückgegebene Wert …

22 python clustering scikit-learn

Als «python» getaggte Fragen