Data Science sampling

4

Intuitive Erklärung des Verlusts durch Noise Contrastive Estimation (NCE)?

Ich habe über NCE (eine Form der Stichprobenauswahl) aus diesen beiden Quellen gelesen: Tensorflow-Zuschreibung Original Papier Kann mir jemand bei Folgendem helfen: Eine einfache Erklärung der Funktionsweise von NCE (Ich fand es schwierig, das oben Genannte zu analysieren und zu verstehen. Etwas Intuitives, das zur dort vorgestellten Mathematik führt, wäre …

32 deep-learning tensorflow word-embeddings sampling loss-function

2

train_test_split () -Fehler: Eingabevariablen mit inkonsistenter Anzahl von Stichproben gefunden

Ziemlich neu in Python, aber ich baue mein erstes RF-Modell basierend auf einigen Klassifizierungsdaten auf. Ich habe alle Bezeichnungen in Int64-numerische Daten konvertiert und als Numpy-Array in X und Y geladen. Beim Versuch, die Modelle zu trainieren, tritt jedoch ein Fehler auf. So sehen meine Arrays aus: >>> X = …

21 python scikit-learn sampling

1

Ist eine geschichtete Stichprobe erforderlich (zufällige Gesamtstruktur, Python)?

Ich verwende Python, um ein zufälliges Gesamtstrukturmodell für mein unausgeglichenes Dataset auszuführen (die Zielvariable war eine Binärklasse). Bei der Aufteilung des Trainings- und Testdatensatzes hatte ich Probleme, geschichtete Stichproben (wie der gezeigte Code) zu verwenden oder nicht. Bisher stellte ich in meinem Projekt fest, dass der geschichtete Fall zu einer …

14 machine-learning python random-forest sampling training

1

Wie viele Features sollen mit Random Forests getestet werden?

Auf der Wikipedia-Seite, die "Die Elemente des statistischen Lernens" zitiert, heißt es: Für ein Klassifizierungsproblem mit Merkmalen gilt in der Regel ⌊ √ppp -Funktionen werden in jeder Aufteilung verwendet.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Ich verstehe, dass dies eine ziemlich gut fundierte Vermutung ist und wahrscheinlich durch empirische Beweise bestätigt wurde, aber gibt …

13 statistics random-forest optimization evaluation sampling

3

Muss ich bei einer unsymmetrischen Klasse eine Stichprobe für meine Validierungs- / Testdatensätze verwenden?

Ich bin ein Anfänger im maschinellen Lernen und stehe vor einer Situation. Ich arbeite an einem Real Time Bidding-Problem mit dem IPinYou-Dataset und versuche, eine Klickvorhersage zu erstellen. Die Sache ist, wie Sie vielleicht wissen, dass der Datensatz sehr unausgeglichen ist: Rund 1300 negative Beispiele (ohne Klick) für 1 positives …

13 machine-learning dataset sampling

2

Warum müssen wir mit Datenungleichgewichten umgehen?

Ich muss wissen, warum wir mit Datenungleichgewichten umgehen müssen. Ich weiß, wie man damit umgeht und welche Methoden es gibt, um das Problem zu lösen: Upsampling, Downsampling oder die Verwendung von Smote. Wenn ich zum Beispiel eine seltene Krankheit habe, die 1 Prozent von 100 ausmacht, und ich mich beispielsweise …

12 classification dataset sampling class-imbalance

1

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

3

Wann sollten wir einen Datensatz als unausgewogen betrachten?

Ich bin mit einer Situation konfrontiert, in der die Anzahl der positiven und negativen Beispiele in einem Datensatz unausgewogen ist. Meine Frage ist, gibt es Faustregeln, die uns sagen, wann wir die große Kategorie unterabtasten sollten, um eine Art Ausgleich im Datensatz zu erzwingen. Beispiele: Wenn die Anzahl der positiven …

10 classification dataset sampling class-imbalance

2

Kreuzvalidierung: K-fach vs. wiederholte zufällige Teilstichprobe

Ich frage mich, welche Art von Modellkreuzvalidierung für das Klassifizierungsproblem gewählt werden soll: K-fach oder zufällige Unterabtastung (Bootstrap-Abtastung)? Ich gehe davon aus, dass 2/3 des Datensatzes (das sind ~ 1000 Elemente) für das Training und 1/3 für die Validierung verwendet werden. In diesem Fall ergibt K-Fold nur drei Iterationen (Folds), …

10 cross-validation sampling

3

Wie mache ich ein Batch-Innenprodukt in Tensorflow?

Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

Als «sampling» getaggte Fragen