Statistiken und Big Data dataset

3

Sollte die Funktionsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden?

Sollte die Merkmalsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden? Ich habe einige Diskussionen und Artikel wie Guyon (2003) und Singhi und Liu (2006) durchgearbeitet, bin mir aber immer noch nicht sicher, ob ich die richtige Antwort finden soll. Mein Versuchsaufbau ist wie folgt: Datensatz: 50 gesunde Kontrollpersonen und …

10 dataset cross-validation experiment-design feature-selection

3

Was ist die effizienteste Methode zum Trainieren von Daten mit dem geringsten Speicher?

Dies sind meine Trainingsdaten: 200.000 Beispiele x 10.000 Funktionen. Meine Trainingsdatenmatrix ist also - 200.000 x 10.000. Ich habe es geschafft, dies in einer flachen Datei ohne Speicherprobleme zu speichern, indem ich jeden Datensatz einzeln (ein Beispiel nach dem anderen) gespeichert habe, während ich die Funktionen für jedes Beispiel generierte. …

10 machine-learning dataset algorithms python

3

Statistische Ausbildung von Kindern in verschiedenen Ländern?

Ich bin interessiert zu wissen, wie viel Statistik Kinder in verschiedenen Ländern der Welt lernen. Könnten Sie bitte Daten / Links vorschlagen, die Aufschluss darüber geben, was in dieser Hinsicht geschieht? Ich werde anfangen. Israel: Die Schüler, die mehr oder weniger fortgeschrittenes Mathematikstudium absolvieren - Mittelwert, SD, Histogramm, Normalverteilung, sehr …

10 dataset teaching

2

Was ist Bucketization?

Ich habe ohne Erfolg eine klare Erklärung für "Bucketization" im maschinellen Lernen gefunden. Was ich bisher verstehe, ist, dass die Bucketisierung der Quantisierung in der digitalen Signalverarbeitung ähnelt, bei der ein Bereich kontinuierlicher Werte durch einen diskreten Wert ersetzt wird. Ist das richtig? Was sind die Vor- und Nachteile (abgesehen …

10 machine-learning dataset data-preprocessing

2

Maximal & häufig geschlossen - Antwort enthalten

My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E Ich möchte die maximal häufigen Objektgruppen und die geschlossenen häufigen Objektgruppen herausfinden . Die …

10 data-mining dataset association-rules

2

Gute PCA-Beispiele für den Unterricht

Ich unterrichte eine Klasse von Ingenieuren, Sozialwissenschaftlern und Computerprogrammierern in linearer Algebra. Wir haben gerade eine Singularwertzerlegung durchgeführt, und wir haben einen zusätzlichen Tag, daher dachte ich, ich würde über die Beziehung zwischen Singularwertzerlegung und Hauptkomponentenanalyse sprechen. Ich habe den theoretischen Teil der Vorlesung gut geschrieben, aber es fällt mir …

10 pca dataset teaching

3

Regression verwenden, um außerhalb des Datenbereichs zu projizieren ok? nie ok? manchmal ok?

Was halten Sie von der Verwendung von Regression für Projekte außerhalb des Datenbereichs? Wenn wir sicher sind, dass es einer linearen oder Potenzmodellform folgt, könnte das Modell dann nicht über den Datenbereich hinaus nützlich sein? Zum Beispiel habe ich das Volumen vom Preis getrieben. Wir sollten in der Lage sein, …

9 regression dataset linear-model

2

Aus relationalen Daten lernen

Einstellungen Viele Algorithmen arbeiten mit einer einzelnen Beziehung oder Tabelle, während viele reale Datenbanken Informationen in mehreren Tabellen speichern (Domingos, 2003). Frage Welche Arten von Algorithmen lernen gut aus mehreren (relationalen) Tabellen. Insbesondere interessieren mich die Algorithmen, die für die Regressions- und Klassifizierungsaufgaben anwendbar sind (nicht die netzwerkanalyseorientierten, z. B. …

9 regression machine-learning classification dataset

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Wo finde ich Datensätze, die zum Testen meiner eigenen Implementierungen für maschinelles Lernen nützlich sind? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 5 Jahren . Ich versuche derzeit, einige Algorithmen für maschinelles Lernen selbst zu implementieren. Viele von ihnen haben …

9 dataset

1

Wie kann die statistische Bedeutungslosigkeit quantifiziert werden?

Ich bin relativ neu in der Statistik und verstehe, dass meine Frage möglicherweise völlig falsch formuliert ist. Ich teste meinen eigenen Algorithmus gegen einen anderen. Obwohl die Ausgaben nicht identisch sind, möchte ich zeigen, dass die Unterschiede "statistisch nicht signifikant" sind. Wie kann ich das quantifizieren, um meinen Standpunkt zu …

9 correlation statistical-significance dataset

4

Wie gehe ich mit Lücken / NaNs in Zeitreihendaten um, wenn Matlab für Autokorrelation und neuronale Netze verwendet wird?

Ich habe eine Zeitreihe von Messungen (Höhen-eindimensionale Reihen). Im Beobachtungszeitraum ging der Messvorgang für einige Zeitpunkte zurück. Die resultierenden Daten sind also ein Vektor mit NaNs, bei dem es Lücken in den Daten gab. Bei Verwendung von MATLAB verursacht dies ein Problem bei der Berechnung der Autokorrelation ( autocorr) und …

9 time-series dataset matlab autocorrelation missing-data

7

Suche nach künstlichen 2D-Daten zur Demonstration der Eigenschaften von Clustering-Algorithmen

Ich suche nach Datensätzen von zweidimensionalen Datenpunkten (jeder Datenpunkt ist ein Vektor mit zwei Werten (x, y)), die unterschiedlichen Verteilungen und Formen folgen. Code zum Generieren solcher Daten wäre ebenfalls hilfreich. Ich möchte sie verwenden, um die Leistung einiger Clustering-Algorithmen zu zeichnen / zu visualisieren. Hier sind einige Beispiele: sternförmige …

9 distributions data-visualization clustering dataset

7

Datensätze für Beispiele zur Datenvisualisierung, Lehre und Forschung

Ich suche nach vorhandenen Datensätzen, mit denen wir verschiedene von uns untersuchte Datavis-Techniken testen können. Ich kenne mehrere Ressourcen wie die in R enthaltenen (versuchen plot(Orange)oder sehen Sie hier ). Aber ich möchte noch einen Schritt nach vorne machen: Welches sind die besten realen Datensätze zum Testen eines Visualisierungstools? Welche …

9 data-visualization dataset teaching

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Als «dataset» getaggte Fragen