Data Science

3

Google Prediction API: Welche Trainings- / Vorhersagemethoden verwendet die Google Prediction API?

Die Details der Google Prediction-API finden Sie auf dieser Seite . Ich kann jedoch keine Details zu den Vorhersagealgorithmen finden, die hinter der API ausgeführt werden. Bisher habe ich festgestellt, dass Sie damit Ihre Vorverarbeitungsschritte im PMML-Format bereitstellen können.

9 tools

5

Was sind hilfreiche Anmerkungswerkzeuge (falls vorhanden)?

Ich suche nach Tools, mit denen ich und mein Team Trainingssätze kommentieren können. Ich arbeite in einer Umgebung mit großen Datenmengen, von denen einige un- oder halbstrukturiert sind. In vielen Fällen gibt es Registrierungen, die helfen, eine fundierte Wahrheit zu finden. In vielen Fällen wird jedoch ein kuratierter Satz benötigt, …

9 classification tools annotation

2

Vorhersage der Aufgabendauer

Ich versuche, ein Regressionsmodell zu erstellen, das die Dauer einer Aufgabe vorhersagt. Die Trainingsdaten, die ich habe, bestehen aus ungefähr 40.000 erledigten Aufgaben mit diesen Variablen: Wer hat die Aufgabe ausgeführt (~ 250 verschiedene Personen) Für welchen Teil (Teilprojekt) des Projekts wurde die Aufgabe ausgeführt (~ 20 verschiedene Teile)? Die …

9 regression survival-analysis

3

Fragen zu LSTM-Zellen, -Einheiten und -Eingaben

Ich versuche zu lernen, wie LSTMNetzwerke funktionieren, und selbst wenn ich die Grundlagen verstehe, sind mir die Details der internen Struktur nicht klar. Auf diesem Blog- Link habe ich dieses Schema einer LSTMArchitektur gefunden Wo anscheinend jeder Kreis einer einzelnen LSTMEinheit wie dieser entsprechen sollte Ist das richtig? Ist jede …

9 machine-learning neural-network deep-learning lstm

1

Knn-Entfernungsdiagramm zur Bestimmung des eps von DBSCAN

Ich möchte das Knn-Entfernungsdiagramm verwenden, um herauszufinden, welchen EPS-Wert ich für den DBSCAN-Algorithmus wählen soll. Basierend auf dieser Seite: Die Idee ist, den Durchschnitt der Entfernungen jedes Punktes zu seinen k nächsten Nachbarn zu berechnen. Der Wert von k wird vom Benutzer angegeben und entspricht MinPts. Als nächstes werden diese …

9 python clustering parameter-estimation dbscan

4

Wie kombiniere ich PCA und MCA mit gemischten Daten?

Angenommen, ich habe gemischte Daten und (Python-) Code, der PCA (Hauptkomponentenanalyse) für kontinuierliche Prädiktoren und MCA (Multiple Correspondence Analysis) für nominale Prädiktoren ausführen kann. Ist es möglich, Ergebnisse von PCA und MCA in einem zu kombinieren?

9 python categorical-data

2

Wie verwende ich Cohens Kappa als Bewertungsmetrik in GridSearchCV in Scikit Learn?

Ich habe ein Klassenungleichgewicht im Verhältnis 1:15, dh eine sehr niedrige Ereignisrate. Um die Abstimmungsparameter von GBM in Scikit Learn auszuwählen, möchte ich Kappa anstelle der F1-Punktzahl verwenden. Mein Verständnis ist, dass Kappa eine bessere Metrik als die F1-Punktzahl für das Klassenungleichgewicht ist. Aber ich konnte Kappa als Evaluierungsmetrik in …

9 machine-learning classification python predictive-modeling scikit-learn

1

Was ist die beste Leistungsmetrik, die beim Ausgleichen von Datensätzen mithilfe der SMOTE-Technik verwendet wird?

Ich habe die Smote-Technik verwendet, um meinen Datensatz zu überabtasten, und jetzt habe ich einen ausgeglichenen Datensatz. Das Problem, mit dem ich konfrontiert war, ist, dass die Leistungsmetriken; Präzision, Rückruf, f1-Messung und Genauigkeit im unausgeglichenen Datensatz werden besser ausgeführt als bei einem ausgeglichenen Datensatz. Mit welcher Messung kann ich zeigen, …

8 performance

1

Der ModelCheckpoint von keras funktioniert nicht

Ich versuche, ein Modell in Keras zu trainieren, und verwende ModelCheckpoint , um das beste Modell gemäß einer überwachten Validierungsmetrik (in meinem Fall dem Jaccard-Index ) zu speichern . Während ich sehe, dass sich das Modell im Tensorboard verbessert, funktioniert es überhaupt nicht, wenn ich versuche, die Gewichte zu laden …

8 keras convnet

1

Kategorisierung von Ansätzen zum Umgang mit unausgeglichenen Klassen

Was ist der beste Weg, um die Ansätze zu kategorisieren, die entwickelt wurden, um das Problem der Ungleichgewichtsklassen zu lösen? Dieser Artikel kategorisiert sie in: Vorverarbeitung: umfasst Oversampling, Undersampling und Hybridmethoden, Kostensensitives Lernen: Umfasst direkte Methoden und Meta-Lernen, das letztere weiter in Schwellenwerte und Stichproben unterteilt. Ensemble-Techniken: Umfasst kostensensitive Ensembles …

8 machine-learning classification class-imbalance

2

Warum ist endliche Präzision ein Problem beim maschinellen Lernen?

Können Sie erklären, was endliche Präzision ist? Warum ist endliche Präzision ein Problem beim maschinellen Lernen?

8 machine-learning terminology definitions finite-precision

3

Gibt es Techniken des maschinellen Lernens, um Punkte auf Plots / Bildern zu identifizieren?

Ich habe Daten für die seitliche Position jedes Fahrzeugs über die Zeit und die Fahrspurnummer, wie in diesen 3 Darstellungen im Bild und in den Beispieldaten unten gezeigt. > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 …

8 machine-learning r

5

Tutorials zu Themenmodellen und LDA

Ich würde gerne wissen, ob Sie Leute einige gute Tutorials (schnell und unkompliziert) über Themenmodelle und LDA haben, die intuitiv lehren, wie man einige Parameter einstellt, was sie bedeuten und wenn möglich, mit einigen realen Beispielen.

8 topic-model lda

2

Warum sagt die Gradient Boosting-Regression negative Werte voraus, wenn mein Trainingssatz keine negativen y-Werte enthält?

Als ich die Anzahl der Bäume erhöhe in scikit lernen ist GradientBoostingRegressor, erhalte ich negative Prognosen, auch wenn es in meiner Ausbildung oder Testsatz keine negativen Werte sind. Ich habe ungefähr 10 Funktionen, von denen die meisten binär sind. Einige der Parameter, die ich eingestellt habe, waren: die Anzahl der …

8 machine-learning python algorithms scikit-learn kaggle

2

LightGBM-Ergebnisse sind je nach Reihenfolge der Daten unterschiedlich

Ich habe zwei Datensätze A und B, die hinsichtlich Anzahl der Spalten, Name der Spalten und Werte genau gleich sind. Der einzige Unterschied ist die Reihenfolge dieser Spalten. Anschließend trainiere ich das LightGBM-Modell für jeden der beiden Datensätze mit den folgenden Schritten Teilen Sie jeden Datensatz in Training und Test …

8 machine-learning classification