Statistiken und Big Data similarities

3

Wie finde ich Ähnlichkeiten zwischen Zeitreihen?

Im folgenden Beispiel habe ich einen Datenrahmen, der aus einer Zeitreihe von Wassertemperaturmessungen besteht, die in 5 Tiefen des Ozeans aufgezeichnet wurden, wobei jeder Wert in Tempdem Datum in DateTimeund der Tiefe in entspricht Depth. set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 …

10 r time-series correlation similarities

2

So finden Sie Gewichte für ein Unähnlichkeitsmaß

Ich möchte Attributgewichte für mein Unähnlichkeitsmaß lernen (ableiten), das ich für das Clustering verwenden kann. Ich habe einige Beispiele von Objektpaaren, die "ähnlich" sind (sich im selben Cluster befinden sollten), sowie einige Beispiele von Objektpaaren, die "nicht ähnlich" sind (sollten nicht sein) im selben Cluster sein). Jedes Objekt hat eine …

9 clustering similarities supervised-learning semi-supervised

3

Berechnung von Jaccard oder einem anderen Assoziationskoeffizienten für Binärdaten unter Verwendung der Matrixmultiplikation

Ich möchte wissen, ob es eine Möglichkeit gibt, den Jaccard-Koeffizienten mithilfe der Matrixmultiplikation zu berechnen. Ich habe diesen Code verwendet jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | …

9 r matrix binary-data association-measure similarities

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Eine Person wählt wiederholt die zwei ähnlichsten Elemente aus drei aus. Wie modelliere / schätze ich einen Wahrnehmungsabstand zwischen den Elementen?

Eine Person erhält drei Gegenstände, beispielsweise Bilder von Gesichtern, und wird gebeten, herauszufinden, welche der drei Gesichter am ähnlichsten sind. Dies wird sehr oft mit verschiedenen Kombinationen von Gesichtern wiederholt, wobei jedes Gesicht in vielen Kombinationen auftreten kann. Angesichts dieser Art von Daten möchte ich den Unterschied / die Ähnlichkeit …

8 modeling dimensionality-reduction psychometrics similarities

3

Abstandsmetrik und Fluch der Dimensionen

In einigen Fällen habe ich einen Hinweis gelesen, dass Sie möglicherweise einen "Fluch der Dimensioalität" haben, wenn Sie viele Parameter und versuchen, eine "Ähnlichkeitsmetrik" zwischen diesen Vektoren zu finden. Ich glaube, es bedeutete, dass die meisten Ähnlichkeitswerte gleich sind und Ihnen keine nützlichen Informationen geben. Mit anderen Worten, fast alle …

8 distance similarities metric

2

Alternative Entfernungsmetriken für zwei Zeitreihen

Ich habe Zeitreihendaten von verschiedenen Häusern. Angenommen, es handelt sich um Stromverbrauchsdaten. Jetzt möchte ich die Häuser nach einem ähnlichen Stromverbrauchsmuster gruppieren. Zu den verschiedenen Entfernungsmetriken, die ich mir vorstellen kann, um die Ähnlichkeit zu messen, gehören: Euklidische Entfernung DTW- Entfernung Frechet Entfernung Mit euklidischer Distanz fand ich einen Ausreißer …

8 time-series clustering similarities smoothing

1

Quantifizieren Sie die Ähnlichkeit von Wortsäcken

Ich habe zwei Datensätze, die die häufigsten Wörter und ihre Häufigkeit von zwei verschiedenen Artikeln enthalten. z.B: A = [apple: 23, healthy: 15, tasty: 4] B = [apple: 19, healthy: 21, bad: 7] Beide Datensätze enthalten ähnliche Wörter. Ich möchte eine Maßnahme finden, die mir eine Vorstellung davon gibt, ob …

7 natural-language similarities

Als «similarities» getaggte Fragen