Data Science

4

Was ist der Unterschied zwischen Bootstrapping und Kreuzvalidierung?

Ich habe die K-fache Kreuzvalidierung angewendet, um meine Modelle für maschinelles Lernen zuverlässig zu bewerten. Aber ich bin mir auch der Existenz der Bootstrapping-Methode für diesen Zweck bewusst. Ich kann jedoch den Hauptunterschied zwischen ihnen in Bezug auf die Leistungsschätzung nicht erkennen. Soweit ich sehe, erzeugt Bootstrapping auch eine bestimmte …

20 cross-validation evaluation

3

Unterschied zwischen OrdinalEncoder und LabelEncoder

Nachdem ich ein Buch über ML durchgesehen hatte, ging ich die offizielle Dokumentation von scikit-learn learn durch und stieß auf Folgendes: In der Dokumentation wird darüber berichtet, sklearn.preprocessing.OrdinalEncoder()während es in dem Buch, über das es gegeben wurde sklearn.preprocessing.LabelEncoder(), für mich gleich aussah, als ich ihre Funktionalität überprüfte. Kann mir bitte …

20 machine-learning python scikit-learn preprocessing encoding

2

Was tragen die Alpha und Beta Hyperparameter zur Latent Dirichlet Allokation bei?

LDA hat zwei Hyperparameter, deren Einstellung die induzierten Themen ändert. Was tragen die Alpha- und Beta-Hyperparameter zur LDA bei? Wie ändert sich das Thema, wenn der eine oder andere Hyperparameter zunimmt oder abnimmt? Warum sind sie Hyperparameter und nicht nur Parameter?

19 topic-model lda parameter

1

Was ist Hellinger Distance und wann ist es anzuwenden?

Ich bin daran interessiert zu wissen, was wirklich in Hellinger Distance passiert (in einfachen Worten). Darüber hinaus interessiert mich auch, welche Arten von Problemen wir mit Hellinger Distance lösen können. Was sind die Vorteile von Hellinger Distance?

19 machine-learning data-mining text-mining distance

2

Wie bekomme ich mit sklearn einen p-Wert und ein sicheres Intervall in LogisticRegression?

Ich baue mit sklearn (LogisticRegression) eine multinomiale logistische Regression auf. Wie kann ich dann einen p-Wert und ein sicheres Intervall für mein Modell erhalten? Es scheint nur, dass sklearn nur den Koeffizienten und den Achsenabschnitt liefert. Vielen Dank.

19 scikit-learn logistic-regression

3

Wie führe ich ein Feature-Engineering für unbekannte Features durch?

Ich nehme an einem Kaggle-Wettbewerb teil. Der Datensatz hat ungefähr 100 Funktionen und alle sind unbekannt (in Bezug darauf, was sie tatsächlich darstellen). Im Grunde sind es nur Zahlen. Die Leute führen eine Menge Feature-Engineering für diese Features durch. Ich frage mich, wie genau man Feature-Engineering für unbekannte Features durchführen …

19 machine-learning feature-selection feature-extraction feature-engineering kaggle

3

Wie kann ein synthetischer Datensatz mithilfe eines mit dem Originaldatensatz erlernten maschinellen Lernmodells generiert werden?

Im Allgemeinen basiert das maschinelle Lernmodell auf Datensätzen. Ich möchte wissen, ob es eine Möglichkeit gibt, einen synthetischen Datensatz mit einem derart geschulten Modell für maschinelles Lernen zu generieren, bei dem die ursprünglichen Datensatzmerkmale beibehalten werden. [Originaldaten -> Modell für maschinelles Lernen erstellen -> ml-Modell verwenden, um synthetische Daten zu …

19 machine-learning dataset

2

Können Sie den Unterschied zwischen SVC und LinearSVC in scikit-learn erklären?

Ich habe kürzlich angefangen zu lernen, mit sklearnetwas zu arbeiten und bin gerade auf dieses merkwürdige Ergebnis gestoßen. Ich habe den digitsverfügbaren Datensatz verwendet sklearn, um verschiedene Modelle und Schätzmethoden auszuprobieren. Als ich ein Support Vector Machine-Modell mit den Daten getestet habe, stellte ich fest, dass es zwei verschiedene Klassen …

19 svm scikit-learn

3

Wie erstelle ich eine Liste verwandter Wörter, die auf anfänglichen Stichwörtern basieren?

Ich habe kürzlich eine coole Funktion gesehen, die einst in Google Sheets verfügbar war : Sie schreiben zunächst einige verwandte Keywords in aufeinanderfolgende Zellen, z. B. "blau", "grün", "gelb", und es werden automatisch ähnliche Keywords generiert (in diesem Fall andere Farben). Weitere Beispiele finden Sie in diesem YouTube-Video . Ich …

19 nlp text-mining freebase

2

Textkategorisierung: Kombination verschiedener Funktionen

Das Problem, mit dem ich mich befasse, ist die Kategorisierung von Kurztexten in mehrere Klassen. Mein aktueller Ansatz ist die Verwendung von tf-idf-gewichteten Termfrequenzen und das Erlernen eines einfachen linearen Klassifikators (logistische Regression). Dies funktioniert recht gut (ca. 90% Makro F-1 am Testgerät, fast 100% am Trainingsgerät). Ein großes Problem …

19 machine-learning classification feature-selection logistic-regression information-retrieval

3

Wie erstelle ich eine komplexe Radarkarte?

Also möchte ich ein Spielerprofil-Radardiagramm erstellen, das ungefähr so aussieht : Nicht nur die Skalierung jeder Variablen ist unterschiedlich, sondern ich möchte auch eine umgekehrte Skalierung für einige Statistiken, wie z. Eine Lösung für die variable Skala für jede Statistik besteht möglicherweise darin, einen Benchmark festzulegen und dann eine Punktzahl …

19 visualization

4

Welches statistische Modell sollte ich verwenden, um die Wahrscheinlichkeit zu analysieren, dass ein einzelnes Ereignis longitudinale Daten beeinflusst?

Ich versuche, eine Formel, eine Methode oder ein Modell zu finden, um die Wahrscheinlichkeit zu analysieren, dass ein bestimmtes Ereignis einige longitudinale Daten beeinflusst. Ich habe Schwierigkeiten herauszufinden, wonach ich bei Google suchen soll. Hier ist ein Beispielszenario: Stellen Sie sich vor, Sie besitzen ein Unternehmen mit durchschnittlich 100 begehbaren …

19 machine-learning data-mining statistics

2

Warum wird ReLU als Aktivierungsfunktion verwendet?

Aktivierungsfunktionen werden verwendet, um Nichtlinearitäten in den linearen Ausgang des Typs w * x + bin einem neuronalen Netzwerk einzuführen . Was ich für die Aktivierungsfunktionen wie Sigmoid intuitiv verstehen kann. Ich verstehe die Vorteile von ReLU, bei dem tote Neuronen während der Rückübertragung vermieden werden. Ich kann jedoch nicht …

19 machine-learning neural-network deep-learning activation-function

1

Was ist "Experience Replay" und welche Vorteile hat es?

Ich habe gelesen , DeepMind Ataris Google Papier und ich versuche , das Konzept der „Erfahrung replay“ zu verstehen. Die Wiederholung von Erfahrungen ist in vielen anderen Lernpapieren zur Verstärkung enthalten (insbesondere im AlphaGo-Papier), daher möchte ich verstehen, wie es funktioniert. Nachfolgend einige Auszüge. Zunächst verwendeten wir einen biologisch inspirierten …

19 reinforcement-learning q-learning

4

Was bedeutet "Anzahl der Einheiten in der LSTM-Zelle"?

Vom Tensorflow-Code: Tensorflow. RnnCell. num_units: int, The number of units in the LSTM cell. Kann nicht verstehen, was das bedeutet. Was sind die Einheiten der LSTM-Zelle. Input, Output und vergessen Tore? Bedeutet dies "Anzahl der Einheiten in der wiederkehrenden Projektionsschicht für Deep LSTM". Warum heißt das dann "Anzahl der Einheiten …

19 neural-network tensorflow rnn