Statistiken und Big Data classification

3

Beaufsichtigtes Clustering oder Klassifikation?

Die zweite Frage ist, dass ich in einer Diskussion irgendwo im Internet über "überwachtes Clustering" gesprochen habe. Soweit ich weiß, ist Clustering nicht überwacht. Was genau bedeutet "überwachtes Clustering"? Was ist der Unterschied zur "Klassifizierung"? Es gibt viele Links, die darüber sprechen: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf etc …

22 clustering classification unsupervised-learning statistical-learning

3

Klassifizierungs- / Bewertungsmetriken für stark unausgeglichene Daten

Ich beschäftige mich mit einem (kreditbewertungsähnlichen) Problem der Betrugserkennung. Insofern besteht ein sehr unausgewogenes Verhältnis zwischen betrügerischen und nicht betrügerischen Beobachtungen. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html bietet einen hervorragenden Überblick über verschiedene Klassifizierungsmetriken. Precision and Recalloder kappabeide scheinen eine gute Wahl zu sein: Eine Möglichkeit, die Ergebnisse solcher Klassifikatoren zu rechtfertigen, besteht darin, sie …

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation

3

Interpretation der y-Achse eines partiellen Abhängigkeitsdiagramms

Diese Frage wurde von Stack Overflow migriert, da sie über Cross Validated beantwortet werden kann. Vor 5 Jahren migriert . Ich habe andere Themen zu partiellen Abhängigkeitsdiagrammen durchgelesen und die meisten davon beziehen sich darauf, wie Sie sie tatsächlich mit verschiedenen Paketen plotten, und nicht darauf, wie Sie sie genau …

22 r classification data-visualization random-forest interpretation

4

Wann sind die Ergebnisse von Shao zur einmaligen Kreuzvalidierung anwendbar?

In seiner Arbeit Lineare Modellauswahl durch Kreuzvalidierung zeigt Jun Shao, dass für das Problem der Variablenauswahl bei der multivariaten linearen Regression die Methode der ausschließlichen Kreuzvalidierung (LOOCV) „asymptotisch inkonsistent“ ist. Im Klartext werden tendenziell Modelle mit zu vielen Variablen ausgewählt. In einer Simulationsstudie zeigte Shao, dass LOOCV selbst bei nur …

22 classification model-selection cross-validation

2

Hinzufügen von Gewichten zur logistischen Regression für unausgeglichene Daten

Ich möchte eine logistische Regression mit unausgeglichenen Daten modellieren (9: 1). Ich wollte die Gewichtsoption in der glmFunktion in R ausprobieren , bin mir aber nicht zu 100% sicher, was sie bewirkt. Nehmen wir an, meine Ausgabevariable ist c(0,0,0,0,0,0,0,0,0,1). jetzt möchte ich der "1" 10 mal mehr gewicht geben. Also …

21 regression logistic classification unbalanced-classes weighted-data

3

Von der Perceptron-Regel zum Gradientenabstieg: Wie unterscheiden sich Perceptrons mit einer Sigmoid-Aktivierungsfunktion von der logistischen Regression?

Im Wesentlichen ist meine Frage, dass in mehrschichtigen Perzeptronen Perzeptrone mit einer Sigma-Aktivierungsfunktion verwendet werden. So dass in der Aktualisierungsregel y wird wie folgt berechnety^y^\hat{y} y^= 11 + exp( - wTxich)y^=11+exp⁡(-wTxich)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Inwiefern unterscheidet sich dieses "Sigma" -Perceptron von einer logistischen Regression? Ich würde sagen , dass eine einlagige …

21 logistic classification neural-networks gradient-descent perceptron

2

Faltungsneurales Netz für Zeitreihen?

Ich würde gerne wissen, ob es einen Code zum Trainieren eines Faltungsnetzes für die Zeitreihenklassifizierung gibt. Ich habe kürzlich einige Veröffentlichungen gesehen ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ), bin mir aber nicht sicher, ob es etwas gibt oder ob ich es selbst codieren muss.

21 time-series classification neural-networks conv-neural-network

5

Wie kann man die Kosten einer Fehlklassifizierung in zufälligen Wäldern kontrollieren?

Ist es möglich, die Kosten einer Fehlklassifizierung im R-Paket randomForest zu kontrollieren ? In meiner eigenen Arbeit sind falsch negative Ergebnisse (z. B. das Fehlen einer Krankheit) weitaus kostspieliger als falsch positive Ergebnisse. Das Paket rpart ermöglicht es dem Benutzer, Fehlklassifizierungskosten zu kontrollieren, indem eine Verlustmatrix angegeben wird, um Fehlklassifizierungen …

21 r classification random-forest loss-functions metric

4

Warum liefert die Lösung mit den kleinsten Quadraten in diesem Fall schlechte Ergebnisse?

Auf Seite 204, Kapitel 4 von "Mustererkennung und maschinelles Lernen" von Bishop ist ein Bild zu sehen, in dem ich nicht verstehe, warum die Least-Square-Lösung hier schlechte Ergebnisse liefert: Der vorherige Absatz befasste sich mit der Tatsache, dass Lösungen mit den kleinsten Quadraten keine Robustheit gegenüber Ausreißern aufweisen, wie Sie …

21 classification least-squares

5

Was ist der richtige Weg, um die Signifikanz von Klassifizierungsergebnissen zu testen?

Es gibt viele Situationen, in denen Sie möglicherweise mehrere verschiedene Klassifizierer trainieren oder verschiedene Methoden zum Extrahieren von Features verwenden. In der Literatur geben Autoren häufig den mittleren Klassifizierungsfehler über eine Reihe von zufälligen Teilungen der Daten an (dh nach einer doppelt verschachtelten Kreuzvalidierung) und geben manchmal auch Abweichungen über …

21 classification statistical-significance

4

Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Maschinelles Lernen zur Vorhersage von Klassenwahrscheinlichkeiten

Ich suche nach Klassifikatoren, die Wahrscheinlichkeiten ausgeben, dass Beispiele zu einer von zwei Klassen gehören. Ich kenne logistische Regression und naive Bayes, aber können Sie mir von anderen erzählen, die auf ähnliche Weise arbeiten? Das heißt, Klassifizierer, die nicht die Klassen vorhersagen, zu denen Beispiele gehören, sondern die Wahrscheinlichkeit, dass …

20 machine-learning probability logistic classification naive-bayes

3

Test auf lineare Trennbarkeit

Gibt es eine Möglichkeit, die lineare Separierbarkeit eines Datasets mit zwei Klassen in hohen Dimensionen zu testen? Meine Merkmalsvektoren sind 40 lang. Ich weiß, dass ich jederzeit logistische Regressionsexperimente durchführen und die Hitrate im Vergleich zur Falschalarmrate bestimmen kann, um festzustellen, ob die beiden Klassen linear trennbar sind oder nicht, …

20 machine-learning classification

4

Zusammenfassung der Ergebnisse von „Large p, Small n“

Kann mich jemand auf ein Umfragepapier zu "Large , Small n " -Ergebnissen verweisen ? Ich bin daran interessiert, wie dieses Problem manifestiert sich in verschiedenen Forschungskontexten, zB Regression, Klassifikation, Hotelling - Test, etc .pppnnn

20 regression classification multivariate-analysis

1

k-fach Kreuzvalidierung des Ensemble-Lernens

Ich bin verwirrt darüber, wie die Daten für die k-fache Kreuzvalidierung des Ensemble-Lernens aufgeteilt werden sollen. Angenommen, ich habe einen Lernrahmen für die Klassifizierung von Ensembles. Meine erste Ebene enthält die Klassifizierungsmodelle, z. B. SVM, Entscheidungsbäume. Meine zweite Ebene enthält ein Abstimmungsmodell, das die Vorhersagen aus der ersten Ebene kombiniert …

20 classification cross-validation ensemble

Als «classification» getaggte Fragen