Data Science machine-learning

3

Warum sind Ensembles so unangemessen effektiv?

Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?

14 machine-learning data-mining predictive-modeling

2

Warum müssen Aktivierungsfunktionen monoton sein?

Ich bereite mich gerade auf eine Prüfung über neuronale Netze vor. In mehreren Protokollen aus früheren Untersuchungen habe ich gelesen, dass die Aktivierungsfunktionen von Neuronen (in mehrschichtigen Perzeptronen) monoton sein müssen. Ich verstehe, dass Aktivierungsfunktionen differenzierbar sein sollten, eine Ableitung haben sollten, die in den meisten Punkten nicht 0 ist, …

14 machine-learning neural-network

2

Verwenden von Attributen zum Klassifizieren / Gruppieren von Benutzerprofilen

Ich habe einen Datensatz von Benutzern, die Produkte von einer Website kaufen. Die Attribute, die ich habe, sind Benutzer-ID, Region (Bundesland) des Benutzers, Kategorie-ID des Produkts, Schlüsselwort-ID des Produkts, Schlüsselwort-ID der Website und Kaufpreis des Produkts. Ziel ist es, anhand der Informationen eines Produkts und einer Website zu identifizieren, wer …

14 machine-learning data-mining classification clustering

1

Maschinelles Lernen Bibliotheken für Ruby

Gibt es maschinelle Lernbibliotheken für Ruby, die relativ vollständig (einschließlich einer Vielzahl von Algorithmen für überwachtes und unbeaufsichtigtes Lernen), robust getestet und gut dokumentiert sind? Ich mag Pythons Scikit-Learn wegen seiner unglaublichen Dokumentation, aber ein Kunde würde es vorziehen, den Code in Ruby zu schreiben, da er damit vertraut ist. …

14 machine-learning

2

Artikelbasierte und benutzerbasierte Empfehlungsunterschiede in Mahout

Ich würde gerne wissen, wie genau sich mahout benutzerbasierte und artikelbasierte Empfehlungen voneinander unterscheiden. Es definiert das Benutzerbasiert : Empfehlen Sie Artikel, indem Sie nach ähnlichen Benutzern suchen. Dies ist aufgrund der Dynamik der Benutzer oft schwieriger zu skalieren. Artikelbasiert : Berechnen Sie die Ähnlichkeit zwischen Artikeln und geben Sie …

14 machine-learning data-mining algorithms recommender-system

2

Binäres Klassifizierungsmodell für unausgeglichene Daten

Ich habe einen Datensatz mit folgenden Spezifikationen: Trainingsdatensatz mit 193.176 Proben mit 2.821 Positiven Testdatensatz mit 82.887 Proben mit 673 Positiven Es gibt 10 Funktionen. Ich möchte eine binäre Klassifizierung (0 oder 1) durchführen. Das Problem, mit dem ich konfrontiert bin, ist, dass die Daten sehr unausgeglichen sind. Nach der …

14 machine-learning python classification logistic-regression

4

Was bedeutet es, ein Tree Ensemble mit stark voreingenommenen Datensätzen zu trainieren?

Ich habe ein stark voreingenommenes binäres Dataset - ich habe 1000x mehr Beispiele für die negative Klasse als für die positive Klasse. Ich würde gerne ein Baumensemble (wie Extra Random Trees oder Random Forest) mit diesen Daten trainieren, aber es ist schwierig, Trainingsdatensätze zu erstellen, die genügend Beispiele für die …

14 machine-learning feature-selection unbalanced-classes

4

Suchen Sie beispielsweise nach Infrastruktur-Stacks / Workflows / Pipelines

Ich versuche zu verstehen, wie alle "Big Data" -Komponenten in einem realen Anwendungsfall zusammenspielen, z. B. Hadoop, Monogodb / NOSQL, Storm, Kafka, ... Ich weiß, dass dies eine ziemlich breite Palette von Werkzeugen ist, die für verwendet werden verschiedene Typen, aber ich möchte mehr über deren Interaktion in Anwendungen erfahren, …

14 machine-learning bigdata efficiency scalability distributed

1

Hinzufügen von Nichtbild-Features neben Nebenbildern als Eingabe von CNNs

Ich trainiere ein neuronales Faltungsnetzwerk, um Bilder bei Nebelbedingungen zu klassifizieren (3 Klassen). Für jedes der ca. 150.000 Bilder stehen mir jedoch auch vier meteorologische Variablen zur Verfügung, die bei der Vorhersage der Bildklassen hilfreich sein könnten. Ich habe mich gefragt, wie ich die meteorologischen Variablen (z. B. Temperatur, Windgeschwindigkeit) …

14 machine-learning neural-network deep-learning tensorflow cnn

3

Gibt es eine Personenklasse in ImageNet? Gibt es irgendwelche Klassen, die sich auf Menschen beziehen?

Wenn ich mir eine der vielen Quellen für die Imagenet-Klassen im Internet anschaue, kann ich keine einzige Klasse finden, die sich auf Menschen bezieht (und nein, Harvestman ist nicht jemand, der erntet, aber ich wusste, dass es eine Art von Papa-Langbein ist Spinne :-). Wie ist das möglich? Ich hätte …

14 machine-learning deep-learning dataset convnet image-classification

1

Rückvermehrung in CNN

Ich habe folgende CNN: Ich beginne mit einem Eingabebild der Größe 5x5 Dann wende ich die Faltung mit 2x2 Kernel und stride = 1 an, wodurch eine Feature-Map der Größe 4x4 erzeugt wird. Dann wende ich 2x2 Max-Pooling mit Stride = 2 an, wodurch die Feature-Map auf 2x2 verkleinert wird. …

14 machine-learning convnet backpropagation cnn kernel

5

Anfänger Mathe Bücher für Maschinelles Lernen

Ich bin ein Informatiker ohne Hintergrundwissen in Statistik oder fortgeschrittener Mathematik. Ich studiere das Buch Python Machine Learning von Raschka und Mirjalili, aber als ich versuchte, die Mathematik des maschinellen Lernens zu verstehen, war ich nicht in der Lage, das großartige Buch zu verstehen, das mir ein Freund vorschlug: Die …

14 machine-learning statistics reference-request math

1

Was ist der Vorteil einer Batch-Größe von 2?

Warum ist es manchmal von Vorteil, die Batch-Größe bei der Schulung von Modellen für maschinelles Lernen auf einer Potenz von 2 zu halten? Ich dachte, es wäre am besten, eine Größe zu verwenden, die am besten zu Ihrem GPU-Speicher / RAM passt. Diese Antwort besagt, dass für einige Pakete eine …

14 machine-learning training

2

Hochdimensionale Daten: Was sind nützliche Techniken?

Aufgrund verschiedener Flüche der Dimensionalität verschlechtern sich Genauigkeit und Geschwindigkeit vieler gängiger Vorhersagetechniken bei hochdimensionalen Daten. Welche der nützlichsten Techniken / Tricks / Heuristiken helfen dabei, hochdimensionale Daten effektiv zu verarbeiten? Beispielsweise, Funktionieren bestimmte statistische / Modellierungsmethoden bei hochdimensionalen Datensätzen gut? Können wir die Leistung unserer Vorhersagemodelle für hochdimensionale Daten …

14 machine-learning statistics dimensionality-reduction

3

Vorteile des Stapelns von LSTMs?

Ich frage mich, in welchen Situationen es vorteilhaft ist, LSTMs zu stapeln?

14 machine-learning neural-network deep-learning lstm

Als «machine-learning» getaggte Fragen