Statistiken und Big Data data-mining

3

Bitte verzeihen Sie meine Unwissenheit, aber ... Ich befinde mich immer wieder in einer Situation, in der ich mit einer Reihe neuer Daten konfrontiert bin, die ich gefunden habe. Diese Daten sehen normalerweise ungefähr so aus: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat …

10 data-visualization correlation data-mining eda

1

Wie kann ich Korrelationen zwischen Abstürzen und Systemumgebungen finden?

In meiner Freizeit arbeite ich an einem kleinen webbasierten System, das Absturzberichte (aber keine anderen, nicht abstürzenden Fehlerberichte) sammelt, die von Delphi Windows-Anwendungen gesendet werden. Zur Fehlerbehebung hätten Benutzer gerne eine Data-Mining-Funktion, um Beziehungen zwischen Hardware- oder Betriebssystemversionen und dem spezifischen Fehler und / oder Absturz zu finden. Als Beispiel, …

10 data-mining

1

Dokumentierte / reproduzierbare Beispiele für erfolgreiche reale Anwendungen ökonometrischer Methoden?

Diese Frage mag sehr weit gefasst klingen, aber hier ist, wonach ich suche. Ich weiß, dass es viele ausgezeichnete Bücher über ökonometrische Methoden und viele ausgezeichnete Expository-Artikel über ökonometrische Techniken gibt. Es gibt sogar ausgezeichnete reproduzierbare Beispiele für Ökonometrie, wie in dieser CrossValidated- Frage beschrieben . Tatsächlich kommen die Beispiele …

10 r machine-learning forecasting data-mining econometrics

2

Was ist der Unterschied zwischen funktionaler Datenanalyse und hochdimensionaler Datenanalyse?

In der statistischen Literatur gibt es viele Verweise auf " Funktionsdaten " (dh Daten, die Kurven sind) und parallel auf " hochdimensionale Daten " (dh wenn Daten hochdimensionale Vektoren sind). Meine Frage betrifft den Unterschied zwischen den beiden Datentypen. Wenn von angewandten statistischen Methoden gesprochen wird, die in Fall 1 …

10 data-mining signal-processing curve-fitting wavelet

6

Zweifelhafte Verwendung von Signalverarbeitungsprinzipien zur Identifizierung eines Trends

Ich schlage vor, zu versuchen, einen Trend in einigen sehr verrauschten Langzeitdaten zu finden. Die Daten sind im Grunde wöchentliche Messungen von etwas, das sich über einen Zeitraum von ungefähr 8 Monaten um 5 mm bewegte. Die Daten haben eine Genauigkeit von 1 mm und sind sehr verrauscht und ändern …

10 time-series data-mining signal-processing trend

1

K-bedeutet: Wie viele Iterationen in praktischen Situationen?

Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen. Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine Stichprobe des Datensatzes entnehmen, wäre …

10 clustering data-mining k-means convergence large-data

2

Ist f-Measure gleichbedeutend mit Genauigkeit?

Ich verstehe, dass das f-Maß (basierend auf Präzision und Rückruf) eine Schätzung der Genauigkeit eines Klassifikators ist. Außerdem wird f-Measure gegenüber Genauigkeit bevorzugt, wenn wir einen unausgeglichenen Datensatz haben. Ich habe eine einfache Frage (bei der es mehr um die Verwendung der richtigen Terminologie als um die Technologie geht). Ich …

10 machine-learning classification data-mining unbalanced-classes accuracy

2

Maximal & häufig geschlossen - Antwort enthalten

My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Ich möchte die maximal häufigen Objektgruppen und die geschlossenen häufigen Objektgruppen herausfinden . Die …

10 data-mining dataset association-rules

1

R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene Ausgabe …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

5

Videovorträge über Data Mining?

Ich möchte Data Mining lernen. Gibt es kostenlose Videovorträge, die den Prozess des Data Mining ausführlich erläutern?

10 references data-mining

2

Out-of-Bag-Fehlerschätzung zum Boosten?

In Random Forest wird jeder Baum parallel auf einer eindeutigen Boostrap-Stichprobe der Daten gezüchtet. Da erwartet wird, dass jede Boostrap-Probe ungefähr 63% der eindeutigen Beobachtungen enthält, bleiben ungefähr 37% der Beobachtungen aus, die zum Testen des Baums verwendet werden können. Nun scheint es bei Stochastic Gradient Boosting auch eine -Schätzung …

9 machine-learning cross-validation data-mining random-forest boosting

2

Erfassen CART-Bäume Interaktionen zwischen Prädiktoren?

In diesem Artikel wird behauptet, dass in CART, da bei jedem Schritt eine binäre Aufteilung an einer einzelnen Kovariate durchgeführt wird, alle Aufteilungen orthogonal sind und daher Wechselwirkungen zwischen Kovariaten nicht berücksichtigt werden. Viele sehr ernsthafte Referenzen behaupten jedoch im Gegenteil, dass die hierarchische Struktur eines Baums garantiert, dass Interaktionen …

9 machine-learning classification data-mining cart

1

Auswahl eines k-Werts für die LOF-Erkennungsanalyse (Local Outlier Factor)

Ich habe eine Reihe dreidimensionaler Daten und versuche, mithilfe der lokalen Ausreißerfaktoranalyse die eindeutigsten oder seltsamsten Werte zu identifizieren. Wie entscheidet man den k-Wert für die LOF-Analyse? Ich verstehe, was der k-Wert bestimmt, und bin daher nicht überrascht, dass ich mit unterschiedlichen k leicht unterschiedliche Ergebnisse sehe, aber ich bin …

9 data-mining outliers

1

Verwendung von Text Mining / Tools zur Verarbeitung natürlicher Sprache für die Ökonometrie

Ich bin mir nicht sicher, ob diese Frage hier völlig angemessen ist. Wenn nicht, bitte löschen. Ich bin ein Student der Wirtschaftswissenschaften. Für ein Projekt, das Probleme in der Sozialversicherung untersucht, habe ich Zugang zu einer großen Anzahl von administrativen Fallberichten (> 200.000), die sich mit Eignungsbewertungen befassen. Diese Berichte …

9 machine-learning data-mining econometrics text-mining natural-language

5

Hilft Preclustering dabei, ein besseres Vorhersagemodell zu erstellen?

Für die Aufgabe der Abwanderungsmodellierung habe ich Folgendes in Betracht gezogen: Berechnen Sie k Cluster für die Daten Erstellen Sie k Modelle für jeden Cluster einzeln. Der Grund dafür ist, dass es nichts zu beweisen gibt, dass die Population der Abonnenten homogen ist, so dass es vernünftig ist anzunehmen, dass …

9 machine-learning clustering data-mining predictive-models

Als «data-mining» getaggte Fragen