Data Science classification

1

Klassifizieren Sie Kunden anhand von 2 Funktionen UND einer Zeitreihe von Ereignissen

Ich brauche Hilfe bei meinem nächsten Schritt in einem Algorithmus, den ich entwerfe. Aufgrund von NDAs kann ich nicht viel preisgeben, aber ich werde versuchen, allgemein und verständlich zu sein. Grundsätzlich habe ich nach mehreren Schritten in den Algorithmen Folgendes: Für jeden Kunden, den ich habe, und Ereignisse, die sie …

12 classification clustering time-series

3

Unstrukturierte Textklassifikation

Ich werde unstrukturierte Textdokumente klassifizieren, nämlich Websites mit unbekannter Struktur. Die Anzahl der Klassen, in die ich klassifiziere, ist begrenzt (derzeit gibt es meines Erachtens nicht mehr als drei). Hat jemand einen Vorschlag, wie ich anfangen könnte? Ist der Ansatz "Wortsack" hier machbar? Später könnte ich eine weitere Klassifizierungsstufe basierend …

12 machine-learning classification text-mining beginner

2

Stimmungsdaten für Emoji

Zum Experimentieren möchten wir das in vielen Tweets eingebettete Emoji als Grundlage für Wahrheitsdaten / Trainingsdaten für eine einfache quantitative Analyse der Senitierung verwenden. Tweets sind normalerweise zu unstrukturiert, als dass NLP gut funktionieren könnte. Auf jeden Fall gibt es 722 Emoji in Unicode 6.0 und wahrscheinlich werden weitere 250 …

12 machine-learning classification parsing

3

Messung der Leistung verschiedener Klassifikatoren mit unterschiedlichen Stichprobengrößen

Ich verwende derzeit mehrere verschiedene Klassifizierer für verschiedene Entitäten, die aus Text extrahiert wurden, und verwende Präzision / Rückruf als Zusammenfassung der Leistung jedes einzelnen Klassifizierers für ein bestimmtes Dataset. Ich frage mich, ob es eine sinnvolle Möglichkeit gibt, die Leistung dieser Klassifizierer auf ähnliche Weise zu vergleichen, die aber …

12 classification performance

1

Was ist der Unterschied zwischen globalen und universellen Komprimierungsmethoden?

Ich verstehe, dass Komprimierungsmethoden in zwei Hauptgruppen aufgeteilt werden können: global lokal Die erste Menge funktioniert unabhängig von den verarbeiteten Daten, dh, sie stützt sich auf keine Dateneigenschaften und muss daher (vor der eigentlichen Komprimierung) keine Vorverarbeitung für einen Teil der Datenmenge durchführen. Auf der anderen Seite analysieren lokale Methoden …

12 classification algorithms encoding

1

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

Wie berechnet man die VC-Dimension?

Ich studiere maschinelles Lernen und möchte wissen, wie man die VC-Dimension berechnet. Zum Beispiel: h ( x ) = { 10wenn a≤x≤bsonst h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ( a , b ) ∈ R 2 mit den Parametern .( …

12 machine-learning classification vc-theory

4

Wie funktioniert das Razor-Prinzip von Occam beim maschinellen Lernen?

Die folgende im Bild angezeigte Frage wurde kürzlich während einer der Prüfungen gestellt. Ich bin mir nicht sicher, ob ich das Razor-Prinzip von Occam richtig verstanden habe oder nicht. Entsprechend den in der Frage angegebenen Verteilungen und Entscheidungsgrenzen und nach dem Occam-Rasiermesser sollte die Entscheidungsgrenze B in beiden Fällen die …

11 machine-learning classification

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Verwenden Sie einen vorab trainierten CNN-Klassifikator und wenden Sie ihn auf einen anderen Bilddatensatz an

Wie würden Sie ein Pre-Training optimieren , um es auf ein separates Problem anzuwenden? Würden Sie dem vorab trainierten Modell einfach weitere Ebenen hinzufügen und es an Ihrem Datensatz testen? neural network Wenn die Aufgabe beispielsweise darin bestand, ein CNN zum Klassifizieren von Hintergrundgruppen zu verwenden , würde es sicher …

11 neural-network deep-learning classification convnet

2

Wann sagen wir, dass der Datensatz nicht klassifizierbar ist?

Ich habe oft einen Datensatz analysiert, für den ich keine Klassifizierung vornehmen konnte. Um zu sehen, ob ich einen Klassifikator bekommen kann, habe ich normalerweise die folgenden Schritte ausgeführt: Generieren Sie Box-Plots der Beschriftung anhand numerischer Werte. Reduzieren Sie die Dimensionalität auf 2 oder 3, um festzustellen, ob Klassen trennbar …

11 machine-learning classification deep-learning class-imbalance bayes-error

2

Dokumentklassifizierung unter Verwendung eines Faltungsnetzwerks

Ich versuche, CNN (Convolutional Neural Network) zu verwenden, um Dokumente zu klassifizieren. CNN für kurze Texte / Sätze wurde in vielen Artikeln untersucht. Es scheint jedoch, dass keine Papiere CNN für Langtext oder Dokumente verwendet haben. Mein Problem ist, dass ein Dokument zu viele Funktionen enthält. In meinem Datensatz enthält …

11 classification neural-network text-mining convnet word2vec

3

Unausgeglichene Klassen - Wie kann man falsch negative Ergebnisse minimieren?

Ich habe einen Datensatz, der ein binäres Klassenattribut hat. Es gibt 623 Fälle mit Klasse +1 (krebspositiv) und 101.671 Fälle mit Klasse -1 (krebsnegativ). Ich habe verschiedene Algorithmen ausprobiert (Naive Bayes, Random Forest, AODE, C4.5) und alle haben inakzeptable falsch negative Verhältnisse. Random Forest hat die höchste Gesamtprognosegenauigkeit (99,5%) und …

11 classification random-forest decision-trees unbalanced-classes

3

Erstellen Sie einen binären Klassifikator mit nur positiven und unbeschrifteten Daten

Ich habe 2 Datensätze, einen mit positiven Instanzen dessen, was ich erkennen möchte, und einen mit unbeschrifteten Instanzen. Welche Methoden kann ich verwenden? Angenommen, wir möchten die Erkennung von Spam-E-Mails anhand einiger strukturierter E-Mail-Merkmale verstehen. Wir haben einen Datensatz mit 10000 Spam-E-Mails und einen Datensatz mit 100000 E-Mails, für die …

11 classification semi-supervised-learning

4

Algorithmus zum Generieren von Klassifizierungsregeln

Wir haben also das Potenzial für eine Anwendung für maschinelles Lernen, die ziemlich gut in die traditionelle Problemdomäne passt, die durch Klassifizierer gelöst wird, dh wir haben eine Reihe von Attributen, die ein Element und einen "Bucket" beschreiben, in dem sie landen. Anstatt jedoch Modelle zu erstellen Bei Wahrscheinlichkeiten wie …

11 machine-learning classification

Als «classification» getaggte Fragen