Statistiken und Big Data data-mining

3

Cluster in einer binären Sequenz erkennen

Ich habe eine binäre Sequenz wie 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Wo auf Cluster von meistens Einsen eine größere Anzahl von Nullen folgt, wie im Bild unten (Schwarz steht für 1): Ich möchte eine Technik anwenden (vorzugsweise in R oder in Python), bei der ich diese Cluster von Einsen automatisch erkennen und Bereiche erzeugen …

8 classification clustering data-mining pattern-recognition binary-data

3

Reduzierung der Seriendimensionalität zur Klassifizierung Eingabe

Ich möchte ein Vorhersagemodell erstellen, bei dem die Ergebnisvariable binär und die Eingabe Zeitreihen sind. Um es konkreter zu machen, wird das Modell anhand des Betrags, den er in den letzten 60 Tagen für das Unternehmen ausgegeben hat, vorhersagen, ob ein Kunde abwandert (das Unternehmen verlassen hat; als 1 oder …

8 data-mining data-transformation dimensionality-reduction signal-processing

2

Imputation mit zufälligen Wäldern

Ich habe zwei Fragen zur Verwendung einer zufälligen Gesamtstruktur (insbesondere randomForest in R) für die Imputation fehlender Werte (im Prädiktorraum). 1) Wie funktioniert der Imputationsalgorithmus - insbesondere wie und warum wird die Klassenbezeichnung für die Imputation benötigt? Ist die Näherungsmatrix, die dazu dient, den Durchschnittswert zu gewichten, um einen fehlenden …

8 data-mining predictive-models missing-data random-forest data-imputation

5

Data Mining-Papiere / Beispiele

Ich suche nach mittelgroßen bis langen Artikeln / Websites / usw. zum Thema Data Mining, insbesondere dort, wo ein Datensatz von der Datenaufbereitung bis zum endgültigen Modell eingehend untersucht wird. Ich interessiere mich besonders für Diskussionen über die Anwendung von Algen des maschinellen Lernens und auch über die grundlegende Datenmodellierung. …

8 r data-mining

1

Was bedeutet diese Unschärfe um die Linie in diesem Diagramm?

Ich habe mit ggplot2 mit den folgenden Befehlen herumgespielt, um eine Zeile an meine Daten anzupassen: ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") Die roten Punkte sind Medianwerte, blau sind die Mittelwerte und die …

8 r modeling dataset data-mining ggplot2

1

Data Mining-Ansätze zur Analyse sequentieller Daten mit nominalen Attributen

Frage an die erfahrenen Data Miner da draußen: Angesichts dieses Szenarios: Es gibt N Einkaufswagen Jeder Einkaufswagen ist mit einer beliebigen Anzahl von M Artikeln aus einem unendlich großen Satz gefüllt (mit der aktuellen Datenmenge, die ich habe, kann diese beliebige Anzahl Zahlen um 1500 treffen). Die Reihenfolge, in der …

8 clustering classification data-mining ordinal-data

2

Computerspiel-Datensätze

Ich habe nach Datensätzen für Computerspiele gesucht, aber bisher konnte ich nur den Datensatz "Avatar-Verlauf" für WoW finden. Gibt es noch andere interessante Datensätze, möglicherweise für andere Genres?

8 data-mining dataset

10

Data Mining-Konferenzen? [geschlossen]

Geschlossen . Diese Frage basiert auf Meinungen . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Monaten . Was sind die wichtigsten jährlichen Data Mining-Konferenzen? Regeln: …

8 data-mining conferences

1

Patch-Wise-Training und vollständig Faltungs-Training in einem vollständig Faltungs-Neuronalen Netzwerk

In der Arbeit über ein vollständig faltungsorientiertes neuronales Netzwerk erwähnen die Autoren sowohl das Patch-weise Training als auch das vollständig faltungsorientierte Training. Mein Verständnis für den Aufbau des Trainingssets ist wie folgt: M*MExtrahieren Sie bei einem gegebenen Bild Unterbilder mit N*N, wobei ( N<M). Die ausgewählten Teilbilder überlappen sich untereinander. …

8 machine-learning deep-learning data-mining conv-neural-network computer-vision

3

Welche Ausgleichsmethode kann ich auf einen unausgeglichenen Datensatz anwenden?

Ich versuche, ein Klassifizierungsproblem aus dem UCI-Datenbank-Repository zu lösen . Leider (oder zum Glück) habe ich festgestellt, dass mein Datensatz nicht ausgeglichen ist. Ich habe die Daten in 5 Klassen strukturiert, entsprechend der vom Schüler erreichten Endnote: Wenn der Schüler eine Note von 0 bis 7 erhält => Klasse 1 …

8 r machine-learning classification data-mining unbalanced-classes

2

Wie extrahiere ich mithilfe von maschinellem Lernen bestimmte Informationen aus Text?

Angenommen, ich habe einen Text wie den folgenden, der normalerweise 2/3 Sätze und 100-200 Zeichen enthält. Johny kaufte 50 Dollar Milch von Walmart. Jetzt hat er nur noch 20 Dollar übrig. Ich möchte extrahieren Name der Person: Johny Verbrauchte: 50 Dollar Geld übrig: 20 Dollar. Verbrachte wo: Walmart. Ich habe …

7 machine-learning deep-learning data-mining text-mining rnn

1

Bayesianisches Netzwerk vs. Assoziationsregeln

Der Apriori-Algorithmus findet einige Implikationsregeln. Ähnliche Ergebnisse liefern Bayes'sche Netzwerke. Was ist der wesentliche Unterschied? Was sind die spezifischen Vor- und Nachteile? Bearbeiten: Der Apriori-Algorithmus generiert Zuordnungsregeln als eine Art Implikation, die auf dem folgenden Bild (aus diesem Dokument entnommen ) visuell überprüft werden können .

7 machine-learning data-mining bayesian-network apriori

2

Wie balanciere ich meinen Datensatz?

Ich habe 90% negative Beispiele und 10% positive Beispiele (13.000 Beobachtungen, 90 Variablen). Mein Modell zeigt mir, dass der Fehler bei der Fehlklassifizierung 0,1 beträgt, aber meine Verwirrungsmatrix zeigt mir, dass die Anzahl der TP sehr gering ist. Gibt es eine Möglichkeit, mein positives Beispiel zu übertasten oder meinen Datensatz …

7 machine-learning data-mining dataset cart model

Als «data-mining» getaggte Fragen