Statistiken und Big Data classification

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

WARENKORB: Auswahl des besten Prädiktors für die Aufteilung, wenn die Gewinne bei der Abnahme der Verunreinigungen gleich sind?

Meine Frage befasst sich mit Klassifikationsbäumen . Betrachten Sie das folgende Beispiel aus dem Iris-Datensatz: Ich möchte den besten Prädiktor für die erste Aufteilung manuell auswählen. Nach dem CART-Algorithmus ist das beste Merkmal für eine Aufteilung dasjenige, das die Abnahme der Verunreinigung der Partition maximiert, auch Gini-Verstärkung genannt: G i …

8 r machine-learning classification data-mining cart

1

Ist ein Up- oder Down-Sampling von unausgeglichenen Daten tatsächlich so effektiv? Warum?

Ich höre häufig Up- oder Down-Sampling von Daten, die als Mittel zur Behandlung der Klassifizierung unausgeglichener Daten diskutiert werden. Ich verstehe, dass dies nützlich sein kann, wenn Sie mit einem binären (im Gegensatz zu einem probabilistischen oder Score-basierten) Klassifikator arbeiten und ihn als Black Box behandeln. Daher sind Stichprobenschemata Ihre …

8 classification roc unbalanced-classes

3

Wie würden Sie Informationen aus Stellenbeschreibungen kategorisieren / extrahieren?

Ich habe eine Reihe von Stellenbeschreibungen von Benutzern eingegeben. Es gibt alle Arten von Rechtschreibfehlern und schlechten Daten. dh: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... Welche Schritte würden Sie …

8 classification categorical-data text-mining

1

Verwenden der richtigen Bewertungsregel, um die Klassenmitgliedschaft anhand der logistischen Regression zu bestimmen

Ich verwende die logistische Regression, um die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen. Letztendlich werden diese Wahrscheinlichkeiten in eine Produktionsumgebung gestellt, in der wir uns so weit wie möglich darauf konzentrieren, unsere "Ja" -Vorhersagen zu treffen. Es ist daher nützlich, eine Vorstellung davon zu haben, welche endgültigen "Treffer" oder "Nicht-Treffer" …

8 r logistic classification loss-functions scoring-rules

4

Was ist eine gute OOB-Punktzahl für zufällige Wälder mit einer Drei-Klassen-Klassifizierung von sklearn? [Duplikat]

Diese Frage hat hier bereits Antworten : Ist mein Modell basierend auf dem Wert der Diagnosemetrik ( / AUC / Genauigkeit / RMSE usw.) gut? R.2R2R^2 (3 Antworten) Geschlossen vor 7 Monaten . Ich habe Lerndaten, die aus ~ 45.000 Stichproben bestehen, jede hat 21 Funktionen. Ich versuche, einen zufälligen …

8 classification random-forest out-of-sample

2

Erstellen eines Klassifizierungsmodells für streng binäre Daten

Ich habe einen Datensatz, der streng binär ist. Der Wertesatz jeder Variablen befindet sich in der Domäne: true, false. Die "besondere" Eigenschaft dieses Datensatzes ist, dass eine überwältigende Mehrheit der Werte "falsch" ist. Ich habe bereits einen Bayes'schen Netzwerk-Lernalgorithmus verwendet, um ein Netzwerk aus den Daten zu lernen. Für einen …

8 machine-learning classification svm random-forest bayesian-network

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Wie führe ich eine unbeaufsichtigte Random Forest-Klassifizierung mit Breimans Code durch?

Ich arbeite mit Breimans zufälligem Waldcode ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) zur Klassifizierung von Satellitendaten (überwachtes Lernen). Ich verwende einen Trainings- und Testdatensatz mit einer Stichprobengröße von 2000 und einer Variablengröße von 10. Die Daten werden in zwei Klassen, A und B, klassifiziert. Im überwachten Lernmodus arbeitet der Algorithmus mit einem sehr …

8 machine-learning classification random-forest

1

Mahalanobis-Abstand bei nicht normalen Daten

Der Mahalanobis-Abstand nimmt bei Verwendung zu Klassifizierungszwecken typischerweise eine multivariate Normalverteilung an, und die Abstände vom Schwerpunkt sollten dann einer Verteilung folgen (wobei Freiheitsgrade gleich der Anzahl der Dimensionen / Merkmale sind). Wir können die Wahrscheinlichkeit, dass ein neuer Datenpunkt zur Menge gehört, anhand seiner Mahalanobis-Entfernung berechnen.χ2χ2\chi^2ddd Ich habe Datensätze, …

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

2

Stichprobengröße in Bezug auf Vorhersage in Klassifikation und Regression

In Bezug auf das Testen von Hypothesen erfolgt das Schätzen der Stichprobengröße durch Leistung, und es ist intuitiv, dass das Erhöhen derselben Größe die Genauigkeit der geschätzten Effekte erhöht. Aber was ist mit der Vorhersage sowohl für die Klassifikation als auch für die Regression? Welche Aspekte des Vorhersageproblems werden von …

8 classification sample-size prediction

3

Warum ist svm nicht so gut wie ein Entscheidungsbaum für dieselben Daten?

Ich bin neu im maschinellen Lernen und versuche, mit Scikit-Learn (sklearn) ein Klassifizierungsproblem zu lösen. Sowohl DecisionTree als auch SVM können einen Klassifikator für dieses Problem trainieren. Ich verwende sklearn.ensemble.RandomForestClassifierund sklearn.svm.SVCpasse die gleichen Trainingsdaten an (ca. 500.000 Einträge mit 50 Funktionen pro Eintrag). Der RandomForestClassifier bringt in etwa einer Minute …

8 machine-learning classification svm scikit-learn

3

Cluster in einer binären Sequenz erkennen

Ich habe eine binäre Sequenz wie 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Wo auf Cluster von meistens Einsen eine größere Anzahl von Nullen folgt, wie im Bild unten (Schwarz steht für 1): Ich möchte eine Technik anwenden (vorzugsweise in R oder in Python), bei der ich diese Cluster von Einsen automatisch erkennen und Bereiche erzeugen …

8 classification clustering data-mining pattern-recognition binary-data

5

Klassifikation vs. Regression zur Vorhersage des Vorzeichens einer kontinuierlichen Antwortvariablen

Angenommen, ich möchte vorhersagen, ob ein Projekt rentabel ist oder nicht. In meinen Beispieldaten ist die Antwortvariable tatsächlich eine kontinuierliche Variable: der $ Gewinn / Verlust des Projekts. Sollte ich eine Klassifizierungstechnik verwenden, da mein letztendliches Ziel nur eine binäre Klassifizierung ist (profitables Projekt oder unrentables Projekt)? Oder sollte ich …

8 regression classification predictive-models

3

Analoga der Sensitivität und Spezifität für kontinuierliche Ergebnisse

Wie kann ich die Sensitivität und Spezifität (oder analoge Maßnahmen) eines kontinuierlichen diagnostischen Tests zur Vorhersage eines kontinuierlichen Ergebnisses (z. B. Blutdruck) berechnen, ohne das Ergebnis zu dichotomisieren? Irgendwelche Ideen? Es scheint, dass Forscher dies mithilfe der Modellierung gemischter Effekte getan haben (siehe Link unten), aber ich bin mit ihrer …

8 classification mixed-model predictive-models roc continuous-data

Als «classification» getaggte Fragen