Data Science predictive-modeling

8

Warum ist Überanpassung beim maschinellen Lernen schlecht?

In der Logik wird häufig angegeben, dass die Generalisierungsfähigkeit eines Modells durch Überanpassung eingeschränkt ist. Dies kann jedoch nur bedeuten, dass die Überanpassung ein Modell nach einer bestimmten Komplexität an der Verbesserung hindert. Wird das Modell durch Überanpassung ungeachtet der Komplexität der Daten schlechter, und wenn ja, warum ist dies …

49 machine-learning predictive-modeling

4

Sollte ein Modell umgeschult werden, wenn neue Beobachtungen vorliegen?

Daher konnte ich keine Literatur zu diesem Thema finden, aber es scheint sich zu lohnen, darüber nachzudenken: Was sind die Best Practices für Modellbildung und -optimierung, wenn neue Beobachtungen verfügbar sind? Gibt es eine Möglichkeit, den Zeitraum / die Häufigkeit des erneuten Trainings eines Modells zu bestimmen, bevor sich die …

28 machine-learning predictive-modeling optimization training

1

Zeitreihenvorhersage mit LSTMs: Wichtigkeit, Zeitreihen stationär zu machen

In diesem Link zu Stationarität und Differenzierung wurde erwähnt, dass Modelle wie ARIMA eine stationäre Zeitreihe für die Vorhersage benötigen, da ihre statistischen Eigenschaften wie Mittelwert, Varianz, Autokorrelation usw. über die Zeit konstant sind. Da RNNs besser in der Lage sind, nichtlineare Beziehungen zu lernen ( wie hier angegeben: Das …

21 deep-learning predictive-modeling time-series forecast lstm

2

Wortvorhersage mit dem Word2vec-Modell

Bei einem Satz: „Wenn ich das öffnen ?? Tür es beginnt Heizung automatisch“ Ich möchte die Liste der möglichen Wörter in bekommen? mit einer Wahrscheinlichkeit. Das Grundkonzept, das im word2vec-Modell verwendet wird, besteht darin, ein Wort im gegebenen Umgebungskontext "vorherzusagen". Was ist die richtige Operation für Kontextvektoren, wenn das Modell …

20 nlp predictive-modeling word-embeddings

5

Beim maschinellen Lernen werden spärliche und dichte Daten zusammengeführt, um die Leistung zu verbessern

Ich habe spärliche Merkmale, die prädiktiv sind, und ich habe einige dichte Merkmale, die auch prädiktiv sind. Ich muss diese Funktionen kombinieren, um die Gesamtleistung des Klassifikators zu verbessern. Wenn ich nun versuche, diese Merkmale zu kombinieren, dominieren die dichten Merkmale tendenziell stärker als die spärlichen Merkmale, wodurch sich die …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Wie kann man Wahrscheinlichkeiten in xgboost vorhersagen?

Die folgende Vorhersagefunktion gibt ebenfalls -ve-Werte an, sodass es sich nicht um Wahrscheinlichkeiten handeln kann. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Ich google & versuchte, pred_s <- predict(bst, x_mat_s2,type="response") aber es hat …

16 machine-learning r predictive-modeling decision-trees

3

Warum sind Ensembles so unangemessen effektiv?

Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?

14 machine-learning data-mining predictive-modeling

1

Hashing Trick - was passiert eigentlich

Wenn ML-Algorithmen, z. B. Vowpal Wabbit oder einige der Faktorisierungsmaschinen, die Klickratenwettbewerbe gewinnen ( Kaggle ), erwähnen, dass Features gehasht sind, was bedeutet das eigentlich für das Modell? Nehmen wir an, es gibt eine Variable, die die ID eines Internet-Zusatzes darstellt, der Werte wie '236BG231' annimmt. Dann verstehe ich, dass …

12 machine-learning predictive-modeling kaggle

1

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Wie vermeide ich eine Überanpassung in zufälligen Wäldern?

Ich möchte eine Überanpassung in zufälligen Wäldern vermeiden. In diesem Zusammenhang beabsichtige ich, mtry, nodeize und maxnodes usw. zu verwenden. Können Sie mir bitte bei der Auswahl der Werte für diese Parameter helfen? Ich benutze R. Wenn möglich, teilen Sie mir bitte auch mit, wie ich die k-fache Kreuzvalidierung für …

11 machine-learning data-mining r predictive-modeling random-forest

3

Können Regressionsbäume kontinuierlich vorhersagen?

Angenommen, ich habe eine glatte Funktion wie . Ich habe einen Trainingssatz D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} und, natürlich, ich weiß nicht , f obwohl ich beurteilen kann f wohin ich will.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D …

11 predictive-modeling regression decision-trees

3

Welche Regression muss verwendet werden, um das Wahlergebnis in einem Mehrparteiensystem zu berechnen?

Ich möchte eine Prognose für das Ergebnis der Parlamentswahlen abgeben. Meine Ausgabe ist der Prozentsatz, den jede Partei erhält. Es gibt mehr als zwei Parteien, daher ist eine logistische Regression keine praktikable Option. Ich könnte für jede Partei eine eigene Regression vornehmen, aber in diesem Fall wären die Ergebnisse in …

11 classification r python regression predictive-modeling

3

Beziehung zwischen KS, AUROC und Gini

Gemeinsame Modellvalidierungsstatistiken wie der Kolmogorov-Smirnov-Test (KS), der AUROC- und der Gini-Koeffizient hängen alle funktional zusammen. Meine Frage hat jedoch damit zu tun, zu beweisen, wie diese alle zusammenhängen. Ich bin gespannt, ob mir jemand helfen kann, diese Beziehungen zu beweisen. Ich konnte online nichts finden, aber ich bin wirklich interessiert …

11 data-mining statistics predictive-modeling accuracy

Als «predictive-modeling» getaggte Fragen