Data Science r

1

Entfernen von Zeichenfolgen nach einem bestimmten Zeichen in einem bestimmten Text

Ich habe einen Datensatz wie den folgenden. Ich möchte alle Zeichen nach dem Zeichen © entfernen. Wie kann ich das in R machen? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

4

Ist Pandas jetzt schneller als data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Die data.table-Benchmarks wurden seit 2014 nicht mehr aktualisiert. Ich habe gehört, dass sie Pandasjetzt schneller sind als data.table. Ist das wahr? Hat jemand irgendwelche Benchmarks gemacht? Ich habe Python noch nie benutzt, würde aber überlegen zu wechseln, ob ich pandasschlagen kann data.table?

15 python r pandas data data.table

5

Machen moderne R- und / oder Python-Bibliotheken SQL überflüssig?

Ich arbeite in einem Büro, in dem SQL Server das Rückgrat von allem ist, was wir tun, von der Datenverarbeitung über die Reinigung bis hin zum Mungieren. Mein Kollege hat sich darauf spezialisiert, komplexe Funktionen und gespeicherte Prozeduren zu schreiben, um eingehende Daten methodisch so zu verarbeiten, dass sie standardisiert …

14 python r data-cleaning data sql

3

Vorhersage des nächsten medizinischen Zustands anhand früherer Zustände in Schadensdaten

Ich arbeite derzeit mit einer Vielzahl von Daten zu Krankenversicherungsansprüchen, einschließlich einiger Angaben zu Labor- und Apothekenansprüchen. Die konsistentesten Informationen im Datensatz bestehen jedoch aus Diagnose- (ICD-9CM) und Verfahrenscodes (CPT, HCSPCS, ICD-9CM). Meine Ziele sind: Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung. Identifizieren …

12 machine-learning r

1

Wie viele LSTM-Zellen soll ich verwenden?

Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Ist eine 100% ige Modellgenauigkeit bei Überanpassung von Daten außerhalb der Stichprobe?

Ich habe gerade den maschinellen Lernkurs für R auf kognitiver Klasse abgeschlossen und begonnen, mit zufälligen Wäldern zu experimentieren. Ich habe ein Modell mithilfe der Bibliothek "randomForest" in R erstellt. Das Modell wird in zwei Klassen unterteilt: gut und schlecht. Ich weiß, dass ein Modell, wenn es überpasst ist, bei …

11 r random-forest prediction overfitting

1

GPU-beschleunigte Datenverarbeitung für R in Windows

Ich nehme gerade ein Papier über Big Data, in dem wir R stark für die Datenanalyse verwenden. Ich habe aus Spielgründen zufällig eine GTX1070 in meinem PC. Daher dachte ich, es wäre wirklich cool, wenn ich das nutzen könnte, um einen Teil der Verarbeitung für einige der Dinge zu beschleunigen, …

11 r gpu parallel

4

Wie vermeide ich eine Überanpassung in zufälligen Wäldern?

Ich möchte eine Überanpassung in zufälligen Wäldern vermeiden. In diesem Zusammenhang beabsichtige ich, mtry, nodeize und maxnodes usw. zu verwenden. Können Sie mir bitte bei der Auswahl der Werte für diese Parameter helfen? Ich benutze R. Wenn möglich, teilen Sie mir bitte auch mit, wie ich die k-fache Kreuzvalidierung für …

11 machine-learning data-mining r predictive-modeling random-forest

1

Fisher Scoring v / s Koordinatenabstieg für MLE in R.

Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in …

11 machine-learning r algorithms optimization

3

Welche Regression muss verwendet werden, um das Wahlergebnis in einem Mehrparteiensystem zu berechnen?

Ich möchte eine Prognose für das Ergebnis der Parlamentswahlen abgeben. Meine Ausgabe ist der Prozentsatz, den jede Partei erhält. Es gibt mehr als zwei Parteien, daher ist eine logistische Regression keine praktikable Option. Ich könnte für jede Partei eine eigene Regression vornehmen, aber in diesem Fall wären die Ergebnisse in …

11 classification r python regression predictive-modeling

3

Datenvisualisierung für die Musteranalyse (sprachunabhängig, aber R bevorzugt)

Ich möchte die Bytes von einem Disk-Image zeichnen, um ein Muster in ihnen zu verstehen. Dies ist hauptsächlich eine akademische Aufgabe, da ich fast sicher bin, dass dieses Muster von einem Festplattentestprogramm erstellt wurde, aber ich würde es trotzdem gerne rückentwickeln. Ich weiß bereits, dass das Muster mit einer Periodizität …

11 r visualization

1

Was ist der Unterschied zwischen xgboost binary: logistic und reg: logistic?

Was ist der Unterschied in R in xgboost zwischen binär: logistisch und reg: logistisch? Ist es nur in Bewertungsmetrik? Wenn ja, wie verhält sich RMSE zur binären Klassifizierung zur Fehlerrate? Ist die Beziehung zwischen den Metriken mehr oder weniger monoton, sollte sich die Ausgabe der Abstimmung auf eine Metrik zwischen …

11 r logistic-regression xgboost

3

Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Visualisierung von häufig zusammen gekauften Artikeln

Ich habe einen Datensatz in folgender Struktur in eine CSV-Datei eingefügt: Banana Water Rice Rice Water Bread Banana Juice Jede Zeile zeigt eine Sammlung von Artikeln an, die zusammen gekauft wurden. Zum Beispiel zeigt die erste Zeile , dass die Elemente Banana, Water, und Ricezusammen gekauft wurden. Ich möchte eine …

10 python r data-mining visualization association-rules

Als «r» getaggte Fragen