Als «data-mining» getaggte Fragen

Data Mining verwendet Methoden der künstlichen Intelligenz in einem Datenbankkontext, um bisher unbekannte Muster zu ermitteln. Daher sind die Methoden normalerweise unbeaufsichtigt. Es ist eng verwandt, aber nicht identisch mit maschinellem Lernen. Hauptaufgaben des Data Mining sind die Clusteranalyse, die Erkennung von Ausreißern und das Mining von Zuordnungsregeln.

3
Cluster in einer binären Sequenz erkennen
Ich habe eine binäre Sequenz wie 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Wo auf Cluster von meistens Einsen eine größere Anzahl von Nullen folgt, wie im Bild unten (Schwarz steht für 1): Ich möchte eine Technik anwenden (vorzugsweise in R oder in Python), bei der ich diese Cluster von Einsen automatisch erkennen und Bereiche erzeugen …


2
Imputation mit zufälligen Wäldern
Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

5
Data Mining-Papiere / Beispiele
Ich suche nach mittelgroßen bis langen Artikeln / Websites / usw. zum Thema Data Mining, insbesondere dort, wo ein Datensatz von der Datenaufbereitung bis zum endgültigen Modell eingehend untersucht wird. Ich interessiere mich besonders für Diskussionen über die Anwendung von Algen des maschinellen Lernens und auch über die grundlegende Datenmodellierung. …
8 r  data-mining 

1
Was bedeutet diese Unschärfe um die Linie in diesem Diagramm?
Ich habe mit ggplot2 mit den folgenden Befehlen herumgespielt, um eine Zeile an meine Daten anzupassen: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Die roten Punkte sind Medianwerte, blau sind die Mittelwerte und die …


2
Computerspiel-Datensätze
Ich habe nach Datensätzen für Computerspiele gesucht, aber bisher konnte ich nur den Datensatz "Avatar-Verlauf" für WoW finden. Gibt es noch andere interessante Datensätze, möglicherweise für andere Genres?

10
Data Mining-Konferenzen? [geschlossen]
Geschlossen . Diese Frage basiert auf Meinungen . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Monaten . Was sind die wichtigsten jährlichen Data Mining-Konferenzen? Regeln: …

1
Patch-Wise-Training und vollständig Faltungs-Training in einem vollständig Faltungs-Neuronalen Netzwerk
In der Arbeit über ein vollständig faltungsorientiertes neuronales Netzwerk erwähnen die Autoren sowohl das Patch-weise Training als auch das vollständig faltungsorientierte Training. Mein Verständnis für den Aufbau des Trainingssets ist wie folgt: M*MExtrahieren Sie bei einem gegebenen Bild Unterbilder mit N*N, wobei ( N<M). Die ausgewählten Teilbilder überlappen sich untereinander. …

3
Welche Ausgleichsmethode kann ich auf einen unausgeglichenen Datensatz anwenden?
Ich versuche, ein Klassifizierungsproblem aus dem UCI-Datenbank-Repository zu lösen . Leider (oder zum Glück) habe ich festgestellt, dass mein Datensatz nicht ausgeglichen ist. Ich habe die Daten in 5 Klassen strukturiert, entsprechend der vom Schüler erreichten Endnote: Wenn der Schüler eine Note von 0 bis 7 erhält => Klasse 1 …


1
Bayesianisches Netzwerk vs. Assoziationsregeln
Der Apriori-Algorithmus findet einige Implikationsregeln. Ähnliche Ergebnisse liefern Bayes'sche Netzwerke. Was ist der wesentliche Unterschied? Was sind die spezifischen Vor- und Nachteile? Bearbeiten: Der Apriori-Algorithmus generiert Zuordnungsregeln als eine Art Implikation, die auf dem folgenden Bild (aus diesem Dokument entnommen ) visuell überprüft werden können .

2
Wie balanciere ich meinen Datensatz?
Ich habe 90% negative Beispiele und 10% positive Beispiele (13.000 Beobachtungen, 90 Variablen). Mein Modell zeigt mir, dass der Fehler bei der Fehlklassifizierung 0,1 beträgt, aber meine Verwirrungsmatrix zeigt mir, dass die Anzahl der TP sehr gering ist. Gibt es eine Möglichkeit, mein positives Beispiel zu übertasten oder meinen Datensatz …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.