Statistiken und Big Data information-retrieval

6

Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …

32 classification information-retrieval text-mining

2

Dokumentähnlichkeit messen

Um (Text-) Dokumente zu gruppieren, müssen Sie die Ähnlichkeit zwischen Dokumentenpaaren messen. Zwei Alternativen sind: Vergleichen Sie Dokumente als Termvektoren mit Cosine Similarity - und TF / IDF als Gewichtungen für Terme. Vergleichen Sie die Wahrscheinlichkeitsverteilung jedes Dokuments mit f-Divergenz, z. B. Kullback-Leibler-Divergenz Gibt es einen intuitiven Grund, eine Methode …

21 information-retrieval

4

Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren können. Sollen die Hauptkomponenten in dieser Matrix in Zeilen oder Spalten angeordnet …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

Mittlere durchschnittliche Präzision gegen mittleren wechselseitigen Rang

Ich versuche zu verstehen, wann es angemessen ist, den MAP zu verwenden und wann MRR verwendet werden sollte. Ich fand diese Präsentation, die besagt, dass MRR am besten verwendet wird, wenn die Anzahl der relevanten Ergebnisse weniger als 5 beträgt, und am besten, wenn sie 1 beträgt. In anderen Fällen …

11 information-retrieval average-precision

1

Eine Parallele zwischen LSA und pLSA

In der Originalarbeit von pLSA zeichnet der Autor Thomas Hoffman eine Parallele zwischen pLSA- und LSA-Datenstrukturen, die ich mit Ihnen diskutieren möchte. Hintergrund: Nehmen wir an, wir haben eine Sammlung von Dokumenten und ein Vokabular von BegriffenNNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbraceMMMΩ={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M …

9 machine-learning conditional-probability svd information-retrieval lsa

1

Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Mit der Summe der beobachteten …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Stimmungsanalyse verstehen und anwenden

Mir wurde gerade ein Projekt zur Durchführung von Stimmungsanalysen für einige Dokumentensammlungen zugewiesen. Durch Googeln ist eine Menge sentimentaler Forschung aufgetaucht. Meine Fragen sind: Was sind die wichtigsten Methoden / Algorithmen für die Stimmungsanalyse im Bereich des maschinellen Lernens und der statistischen Analyse? Gibt es gut etablierte Ergebnisse? Gibt es …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

1

Warum hat Lucene IDF eine scheinbar zusätzliche +1?

Aus den Lucene-Dokumenten IDF = 1 + log( numDocsdocFreq + 1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) In anderen Referenzen (z. B. Wikipedia ) wird IDF normalerweise als oder , um ein Tauchen um 0 zu vermeiden.Log( numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)Log( numDocsdocFreq + 1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Mir ist auch klar, dass Lucene anstelle von zur Berechnung von …

8 information-retrieval tf-idf

2

Kann man Cohens Kappa nur für zwei Urteile verwenden?

Ich benutze Cohens Kappa , um die Übereinstimmung zwischen zwei Richtern zu berechnen. Es wird berechnet als: P(A)−P(E)1−P(E)P(A)−P(E)1−P(E) \frac{P(A) - P(E)}{1 - P(E)} wobei der Anteil der Übereinstimmung und die Wahrscheinlichkeit einer zufälligen Übereinstimmung ist.P ( E )P(A)P(A)P(A)P(E)P(E)P(E) Für den folgenden Datensatz erhalte ich nun die erwarteten Ergebnisse: User A …

8 reliability information-retrieval

Als «information-retrieval» getaggte Fragen