Statistiken und Big Data text-mining

3

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Wie funktioniert die Keras-Einbettungsebene?

Muss die Funktionsweise der Ebene "Einbetten" in der Keras-Bibliothek verstehen. Ich führe den folgenden Code in Python aus import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) was die folgende Ausgabe …

70 text-mining word-embeddings keras

6

Wie kann man quasi zwei Vektoren von Strings (in R) zuordnen?

Ich bin mir nicht sicher, wie dies bezeichnet werden soll. Bitte korrigieren Sie mich, wenn Sie einen besseren Begriff kennen. Ich habe zwei Listen. Eines von 55 Elementen (z. B. ein Vektor von Zeichenfolgen), das andere von 92. Die Elementnamen sind ähnlich, aber nicht identisch. Ich wünsche den besten Kandidaten …

36 r text-mining

6

Statistische Klassifizierung von Texten

Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül …

32 classification information-retrieval text-mining

4

Maschinelles Lernen zum Parsen von Strings?

Ich habe viele Adresszeichenfolgen: 1600 Pennsylvania Ave, Washington, DC 20500 USA Ich möchte sie in ihre Bestandteile zerlegen: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Aber natürlich sind die Daten schmutzig: Sie stammen aus vielen Ländern in vielen Sprachen, sind unterschiedlich geschrieben, enthalten Rechtschreibfehler, fehlen, …

30 machine-learning text-mining

3

Wie gut skaliert R auf Textklassifizierungsaufgaben? [geschlossen]

Ich versuche, mit R auf dem neuesten Stand zu sein. Ich möchte schließlich R-Bibliotheken für die Textklassifizierung verwenden. Ich habe mich nur gefragt, welche Erfahrungen die Leute mit der Skalierbarkeit von R machen, wenn es um die Klassifizierung von Texten geht. Es ist wahrscheinlich, dass ich auf hochdimensionale Daten stoße …

30 r machine-learning svm text-mining random-forest

2

Unterschied zwischen naiven Bayes und multinomialen naiven Bayes

Ich habe mich schon einmal mit dem Naive Bayes- Klassifikator befasst. Ich habe in letzter Zeit über Multinomial Naive Bayes gelesen . Auch hintere Wahrscheinlichkeit = (Prior * Likelihood) / (Evidence) . Der einzige Hauptunterschied (während ich diese Klassifikatoren programmierte), den ich zwischen Naive Bayes und Multinomial Naive Bayes fand, …

29 bayesian classification text-mining naive-bayes

4

R-Pakete zur Themenmodellierung / LDA: nur "TopicModels" und "LDA" [geschlossen]

Es scheint mir, dass nur zwei R-Pakete in der Lage sind, Latent Dirichlet Allocation durchzuführen : Einer ist lda, verfasst von Jonathan Chang; und die andere stammt topicmodelsvon Bettina Grün und Kurt Hornik. Was sind die Unterschiede zwischen diesen beiden Paketen in Bezug auf Leistung, Implementierungsdetails und Erweiterbarkeit?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

1

Ist die Kreuzvalidierung ein geeigneter Ersatz für das Validierungsset?

In der Textklassifikation habe ich ein Trainingsset mit ca. 800 Samples und ein Testset mit ca. 150 Samples. Das Test-Set wurde noch nie verwendet und wartet darauf, bis zum Ende verwendet zu werden. Ich verwende das gesamte 800-Muster-Trainingsset mit 10-facher Kreuzvalidierung, während ich Klassifikatoren und Funktionen abstimme und optimiere. Dies …

27 machine-learning classification cross-validation text-mining

7

Warum sollte man sich in Naive Bayes mit Laplace-Glättung beschäftigen, wenn das Testset unbekannte Wörter enthält?

Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung : Verweisen Sie mit ccc auf eine Klasse (z. B. Positiv oder Negativ) und mit www auf ein Token oder Wort. Der Maximum - Likelihood - Schätzer für P(w|c)P(w|c)P(w|c) ist count(w,c)count(c)=counts w …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

3

Themenmodelle und Methoden zum gemeinsamen Auftreten von Wörtern

Beliebte Themenmodelle wie LDA bilden in der Regel Clusterwörter, die in der Regel zusammen in einem Thema (Cluster) vorkommen. Was ist der Hauptunterschied zwischen solchen Themenmodellen und anderen einfachen Clustering-Ansätzen auf der Basis von Koexistenz wie PMI? (PMI steht für Pointwise Mutual Information und wird verwendet, um die Wörter zu …

26 machine-learning text-mining natural-language topic-models

2

Bag-of-Words für die Textklassifizierung: Warum nicht einfach Worthäufigkeiten anstelle von TFIDF verwenden?

Ein üblicher Ansatz zur Klassifizierung von Texten besteht darin, einen Klassifikator aus einem Wortsack zu schulen. Der Benutzer nimmt den zu klassifizierenden Text und zählt die Häufigkeit der Wörter in jedem Objekt, gefolgt von einer Art Beschnitt, um die resultierende Matrix in einer überschaubaren Größe zu halten. Oft sehe ich …

24 machine-learning classification text-mining

1

Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?

Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung

Letzte Bearbeitung mit allen Ressourcen aktualisiert: Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an. Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten. Tore: Wenden Sie eine halbüberwachte Klassifizierung an Wenden Sie einen halbüberwachten Etikettierungsprozess an (bekannt als aktives Lernen). Ich habe viele Informationen aus …

19 machine-learning classification software svm text-mining

2

Warum fällt die Verarbeitung natürlicher Sprachen nicht in den Bereich des maschinellen Lernens? [geschlossen]

Aus heutiger Sicht passt diese Frage nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich Debatten, Argumente, Abstimmungen oder erweiterte Diskussionen hervorrufen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden …

18 machine-learning text-mining natural-language

Als «text-mining» getaggte Fragen