Als «data-mining» getaggte Fragen

Data Mining verwendet Methoden der künstlichen Intelligenz in einem Datenbankkontext, um bisher unbekannte Muster zu ermitteln. Daher sind die Methoden normalerweise unbeaufsichtigt. Es ist eng verwandt, aber nicht identisch mit maschinellem Lernen. Hauptaufgaben des Data Mining sind die Clusteranalyse, die Erkennung von Ausreißern und das Mining von Zuordnungsregeln.

3
Erster kurzer Blick auf einen Datensatz
Bitte verzeihen Sie meine Unwissenheit, aber ... Ich befinde mich immer wieder in einer Situation, in der ich mit einer Reihe neuer Daten konfrontiert bin, die ich gefunden habe. Diese Daten sehen normalerweise ungefähr so ​​aus: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat …

1
Wie kann ich Korrelationen zwischen Abstürzen und Systemumgebungen finden?
In meiner Freizeit arbeite ich an einem kleinen webbasierten System, das Absturzberichte (aber keine anderen, nicht abstürzenden Fehlerberichte) sammelt, die von Delphi Windows-Anwendungen gesendet werden. Zur Fehlerbehebung hätten Benutzer gerne eine Data-Mining-Funktion, um Beziehungen zwischen Hardware- oder Betriebssystemversionen und dem spezifischen Fehler und / oder Absturz zu finden. Als Beispiel, …

1
Dokumentierte / reproduzierbare Beispiele für erfolgreiche reale Anwendungen ökonometrischer Methoden?
Diese Frage mag sehr weit gefasst klingen, aber hier ist, wonach ich suche. Ich weiß, dass es viele ausgezeichnete Bücher über ökonometrische Methoden und viele ausgezeichnete Expository-Artikel über ökonometrische Techniken gibt. Es gibt sogar ausgezeichnete reproduzierbare Beispiele für Ökonometrie, wie in dieser CrossValidated- Frage beschrieben . Tatsächlich kommen die Beispiele …

2
Was ist der Unterschied zwischen funktionaler Datenanalyse und hochdimensionaler Datenanalyse?
In der statistischen Literatur gibt es viele Verweise auf " Funktionsdaten " (dh Daten, die Kurven sind) und parallel auf " hochdimensionale Daten " (dh wenn Daten hochdimensionale Vektoren sind). Meine Frage betrifft den Unterschied zwischen den beiden Datentypen. Wenn von angewandten statistischen Methoden gesprochen wird, die in Fall 1 …




2
Maximal & häufig geschlossen - Antwort enthalten
My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Ich möchte die maximal häufigen Objektgruppen und die geschlossenen häufigen Objektgruppen herausfinden . Die …

1
R lineare Regression kategoriale Variable "versteckter" Wert
Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 



2
Erfassen CART-Bäume Interaktionen zwischen Prädiktoren?
In diesem Artikel wird behauptet, dass in CART, da bei jedem Schritt eine binäre Aufteilung an einer einzelnen Kovariate durchgeführt wird, alle Aufteilungen orthogonal sind und daher Wechselwirkungen zwischen Kovariaten nicht berücksichtigt werden. Viele sehr ernsthafte Referenzen behaupten jedoch im Gegenteil, dass die hierarchische Struktur eines Baums garantiert, dass Interaktionen …

1
Auswahl eines k-Werts für die LOF-Erkennungsanalyse (Local Outlier Factor)
Ich habe eine Reihe dreidimensionaler Daten und versuche, mithilfe der lokalen Ausreißerfaktoranalyse die eindeutigsten oder seltsamsten Werte zu identifizieren. Wie entscheidet man den k-Wert für die LOF-Analyse? Ich verstehe, was der k-Wert bestimmt, und bin daher nicht überrascht, dass ich mit unterschiedlichen k leicht unterschiedliche Ergebnisse sehe, aber ich bin …

1
Verwendung von Text Mining / Tools zur Verarbeitung natürlicher Sprache für die Ökonometrie
Ich bin mir nicht sicher, ob diese Frage hier völlig angemessen ist. Wenn nicht, bitte löschen. Ich bin ein Student der Wirtschaftswissenschaften. Für ein Projekt, das Probleme in der Sozialversicherung untersucht, habe ich Zugang zu einer großen Anzahl von administrativen Fallberichten (> 200.000), die sich mit Eignungsbewertungen befassen. Diese Berichte …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.