Eine Aktivität, die Muster in großen, komplexen Datenmengen sucht. Es konzentriert sich normalerweise auf algorithmische Techniken, kann aber auch eine Reihe verwandter Fähigkeiten, Anwendungen oder Methoden mit diesem Ziel beinhalten.
Mein Datensatz enthält eine Reihe numerischer und eine kategoriale Attribute. Sagen Sie NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, wo CategoricalAttrnimmt einen von drei möglichen Werten: CategoricalAttrValue1, CategoricalAttrValue2oder CategoricalAttrValue3. Ich verwende die standardmäßige Implementierung des k-means-Clustering-Algorithmus für Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Es funktioniert nur mit numerischen Daten. Also meine Frage: Ist es richtig, …
Problem Hintergrund: Ich arbeite an einem Projekt, das Protokolldateien umfasst, die denen im IT-Überwachungsbereich ähneln (nach meinem besten Verständnis des IT-Bereichs). Diese Protokolldateien sind Zeitreihendaten, die in Hunderten / Tausenden von Zeilen mit verschiedenen Parametern organisiert sind. Jeder Parameter ist numerisch (float) und es gibt einen nicht trivialen / fehlerfreien …
Diese Frage ist eine Antwort auf einen Kommentar, den ich zu einer anderen Frage gesehen habe. Der Kommentar bezog sich auf den Lehrplan für maschinelles Lernen in Coursera und lautete: "SVMs werden heutzutage nicht mehr so oft verwendet." Ich habe die relevanten Vorlesungen gerade erst selbst beendet, und mein Verständnis …
Wenn ich "Dokument" sage, denke ich an Webseiten wie Wikipedia-Artikel und Nachrichten. Ich bevorzuge Antworten, die entweder lexikalische Entfernungsmetriken aus Vanille oder semantische Entfernungsmetriken nach dem neuesten Stand der Technik enthalten, wobei letztere stärker bevorzugt werden.
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
Ich habe eine große Datenmenge (ca. 8 GB). Ich möchte maschinelles Lernen nutzen, um es zu analysieren. Daher denke ich, dass ich SVD und dann PCA verwenden sollte, um die Datendimensionalität aus Gründen der Effizienz zu reduzieren. MATLAB und Octave können jedoch einen so großen Datensatz nicht laden. Mit welchen …
Das Problem bezieht sich auf die Erstellung von Entscheidungsbäumen. Laut Wikipedia sollte ' Gini-Koeffizient ' nicht mit ' Gini-Verunreinigung ' verwechselt werden . Beide Kennzahlen können jedoch beim Erstellen eines Entscheidungsbaums verwendet werden. Diese können unsere Auswahl bei der Aufteilung der Elementmenge unterstützen. 1) 'Gini-Verunreinigung' - Es handelt sich um …
Bei einigen Konzepten war mir nicht klar: XGBoost wandelt schwache Lernende in starke Lernende um. Was ist der Vorteil davon? Kombinieren Sie viele schwache Lernende, anstatt nur einen einzigen Baum zu verwenden? Random Forest verwendet verschiedene Stichproben aus einem Baum, um einen Baum zu erstellen. Was ist der Vorteil dieser …
Ich hoffe, Sie können mir helfen, da ich einige Fragen zu diesem Thema habe. Ich bin neu auf dem Gebiet des tiefen Lernens und während ich einige Tutorials gemacht habe, kann ich Konzepte nicht miteinander in Beziehung setzen oder voneinander unterscheiden.
Ich lerne etwas über Matrixfaktorisierung für Empfehlungssysteme und sehe, dass der Begriff latent featureszu häufig vorkommt, verstehe aber nicht, was er bedeutet. Ich weiß, was ein Feature ist, aber ich verstehe die Idee latenter Features nicht. Könnten Sie es bitte erklären? Oder zeigst du mir wenigstens eine Zeitung / einen …
Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden. Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining gemacht. Was sind die Unterschiede …
Hintergrund Ich arbeite an einem Zeitreihendatensatz von Energiezählerständen. Die Länge der Serie variiert je nach Meter - für einige habe ich mehrere Jahre, für andere nur einige Monate usw. Viele zeigen eine signifikante Saisonalität und oft mehrere Schichten - innerhalb eines Tages, einer Woche oder eines Jahres. Eines der Dinge, …
Ich bin daran interessiert zu wissen, was wirklich in Hellinger Distance passiert (in einfachen Worten). Darüber hinaus interessiert mich auch, welche Arten von Problemen wir mit Hellinger Distance lösen können. Was sind die Vorteile von Hellinger Distance?
Ich versuche, eine Formel, eine Methode oder ein Modell zu finden, um die Wahrscheinlichkeit zu analysieren, dass ein bestimmtes Ereignis einige longitudinale Daten beeinflusst. Ich habe Schwierigkeiten herauszufinden, wonach ich bei Google suchen soll. Hier ist ein Beispielszenario: Stellen Sie sich vor, Sie besitzen ein Unternehmen mit durchschnittlich 100 begehbaren …
Ich kam vor kurzem in den Bedingungen Word2Vec , Sentence2Vec und Doc2Vec und Art verwirrt wie ich bin neu in Vektor - Semantik. Kann jemand bitte die Unterschiede in diesen Methoden in einfachen Worten erläutern. Was sind die am besten geeigneten Aufgaben für jede Methode?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.