Als «data-mining» getaggte Fragen

Data Mining verwendet Methoden der künstlichen Intelligenz in einem Datenbankkontext, um bisher unbekannte Muster zu ermitteln. Daher sind die Methoden normalerweise unbeaufsichtigt. Es ist eng verwandt, aber nicht identisch mit maschinellem Lernen. Hauptaufgaben des Data Mining sind die Clusteranalyse, die Erkennung von Ausreißern und das Mining von Zuordnungsregeln.


8
Führen Sie K-Means-Clustering (oder ein Clustern seiner nahen Verwandten) nur mit einer Distanzmatrix durch, nicht mit Daten zu Punkten nach Merkmalen
Ich möchte K-Means-Clustering für Objekte ausführen, die ich habe, aber die Objekte werden nicht als Punkte im Raum beschrieben, dh nach objects x featuresDatensatz. Ich kann jedoch den Abstand zwischen zwei beliebigen Objekten berechnen (er basiert auf einer Ähnlichkeitsfunktion). Also verfüge ich über die Distanzmatrix objects x objects. Ich habe …

5
Neue revolutionäre Art des Data Mining?
Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind, weil sie In-Sample-Daten zum Training …

3
Erster Schritt für Big Data ( , )
Angenommen, Sie analysieren einen riesigen Datensatz mit Milliarden von Beobachtungen pro Tag, wobei jede Beobachtung einige Tausend spärliche und möglicherweise redundante numerische und kategoriale Variablen enthält. Angenommen, es gibt ein Regressionsproblem, ein Problem der unausgeglichenen binären Klassifizierung und die Aufgabe, herauszufinden, welche Prädiktoren am wichtigsten sind. Mein Gedanke, wie ich …

4
Sind Entscheidungsbäume fast immer Binärbäume?
Fast jedes Entscheidungsbaum-Beispiel, auf das ich gestoßen bin, ist zufällig ein Binärbaum. Ist das so ziemlich universell? Unterstützen die meisten Standardalgorithmen (C4.5, CART usw.) nur binäre Bäume? Soweit ich weiß, ist CHAID nicht auf binäre Bäume beschränkt, aber das scheint eine Ausnahme zu sein. Eine Zwei-Wege-Trennung, gefolgt von einer weiteren …


2
Wenn k-means Clustering eine Form der Gaußschen Mischungsmodellierung ist, kann es verwendet werden, wenn die Daten nicht normal sind?
Ich lese Bishop über den EM-Algorithmus für GMM und die Beziehung zwischen GMM und k-means. In diesem Buch heißt es, dass k-means eine schwer zuzuordnende Version von GMM ist. Ich frage mich, ob dies bedeutet, dass ich k-means nicht verwenden kann (oder zumindest nicht verwenden kann), wenn die Daten, die …



2
"Interestingness" -Funktion für StackExchange-Fragen
Diese Frage wurde von Mathematics Stack Exchange migriert, da sie auf Cross Validated beantwortet werden kann. Vor 8 Jahren migriert . Ich versuche, ein Data-Mining-Paket für StackExchange-Sites zusammenzustellen, und insbesondere stecke ich fest, um die "interessantesten" Fragen zu ermitteln. Ich würde gerne die Fragenbewertung verwenden, aber die Verzerrung aufgrund der …

1
Fernüberwachung: überwacht, halb überwacht oder beides?
"Fernüberwachung" ist ein Lernschema, bei dem ein Klassifikator anhand eines schwach gekennzeichneten Trainingssatzes gelernt wird (Trainingsdaten werden automatisch anhand von Heuristiken / Regeln gekennzeichnet). Ich denke, dass sowohl beaufsichtigtes Lernen als auch semi-beaufsichtigtes Lernen eine solche "Fernüberwachung" beinhalten können, wenn ihre beschrifteten Daten heuristisch / automatisch beschriftet sind. Auf dieser …

2
Boosting: Warum wird die Lernrate als Regularisierungsparameter bezeichnet?
Der Lernratenparameter ( ) in Gradient Boosting verringert den Beitrag jedes neuen Basismodells - normalerweise eines flachen Baums -, das in der Reihe hinzugefügt wird. Es hat sich gezeigt, dass die Genauigkeit des Testsatzes drastisch erhöht wird, was verständlich ist, da mit kleineren Schritten das Minimum der Verlustfunktion genauer erreicht …

3
Was ist der praktische Unterschied zwischen Zuordnungsregeln und Entscheidungsbäumen beim Data Mining?
Gibt es eine wirklich einfache Beschreibung der praktischen Unterschiede zwischen diesen beiden Techniken? Beide scheinen für überwachtes Lernen verwendet zu werden (obwohl Assoziationsregeln auch mit unbeaufsichtigtem Lernen umgehen können). Beide können zur Vorhersage verwendet werden Die beste Beschreibung, die ich gefunden habe, stammt aus dem Statsoft-Lehrbuch . Sie sagen, Assoziationsregeln …



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.