Ich fange gerade an, eine Anwendung für maschinelles Lernen für akademische Zwecke zu entwickeln. Ich benutze gerade R und trainiere mich darin. An vielen Orten habe ich jedoch Leute gesehen, die Python verwendet haben . Was nutzen die Menschen in Wissenschaft und Industrie und wie lautet die Empfehlung?
Ich erstelle ein Regressionsmodell und muss das Folgende berechnen, um auf Korrelationen zu prüfen Korrelation zwischen 2 mehrstufigen kategorialen Variablen Korrelation zwischen einer mehrstufigen kategorialen Variablen und einer stetigen Variablen VIF (Varianzinflationsfaktor) für mehrstufige kategoriale Variablen Ich glaube, es ist falsch, den Pearson-Korrelationskoeffizienten für die obigen Szenarien zu verwenden, da …
R hat viele Bibliotheken, die auf Datenanalyse abzielen (z. B. JAGS, BUGS, ARULES usw.) und wird in populären Lehrbüchern erwähnt, wie z. B .: J. Krusche, Doing Bayesian Data Analysis; B.Lantz, "Maschinelles Lernen mit R". Ich habe eine Richtlinie von 5 TB für einen Datensatz gesehen, der als Big Data …
Ich benutze RStudio für die R-Programmierung. Ich erinnere mich an solide IDEs von anderen Technologie-Stacks wie Visual Studio oder Eclipse. Ich habe zwei Fragen: Welche anderen IDEs als RStudio werden verwendet? Hat einer von ihnen spürbare Vorteile gegenüber RStudio? Ich meine hauptsächlich das Debuggen / Erstellen / Bereitstellen von Funktionen, …
Durch meine eingeschränkte Beschäftigung mit Data Science mit R wurde mir klar, dass die Bereinigung fehlerhafter Daten ein sehr wichtiger Teil der Vorbereitung von Daten für die Analyse ist. Gibt es Best Practices oder Verfahren zum Bereinigen von Daten vor deren Verarbeitung? Wenn ja, gibt es automatisierte oder halbautomatisierte Tools, …
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
XGBoost hat hervorragende Arbeit geleistet, wenn es um den Umgang mit kategorialen und kontinuierlichen abhängigen Variablen geht. Aber wie wähle ich die optimierten Parameter für ein XGBoost-Problem aus? So habe ich die Parameter für ein aktuelles Kaggle-Problem angewendet: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, …
Da für datenwissenschaftliche Aufgaben zahlreiche Tools zur Verfügung stehen und es umständlich ist, alles zu installieren und ein perfektes System aufzubauen. Gibt es ein Linux / Mac OS-Image mit Python, R und anderen Open-Source-Data-Science-Tools, das für die Benutzer sofort verfügbar ist? Ein Ubuntu oder ein leichtes Betriebssystem mit der neuesten …
Ich suche eine Online-Konsole für die Sprache R. Wie ich den Code schreibe und den Server ausführen soll und mir die Ausgabe liefern soll. Ähnlich wie auf der Website Datacamp.
Ich arbeite an einer Kaggle-Herausforderung, bei der einige Variablen durch Zeilen anstelle von Spalten dargestellt werden (Telstra Network Disruption). Ich bin derzeit auf der Suche nach dem Äquivalent von gather (), separate () und spread (), die in R Tidyr Tool gefunden werden können.
Ich muss regelmäßige (tägliche, monatliche) Webanalyse-Dashboard-Berichte erstellen. Sie sind statisch und erfordern keine Interaktion. Stellen Sie sich daher eine PDF-Datei als Zielausgabe vor. In den Berichten werden Tabellen und Diagramme gemischt (hauptsächlich mit ggplot2 erstellte Sparkline- und Bullet-Diagramme). Denken Sie an Stephen Few / Perceptual Edge-Dashboards wie: aber auf Web-Analytics …
Ich versuche ein Empfehlungssystem mit kollaborativer Filterung aufzubauen. Ich habe die üblichen [user, movie, rating]Informationen. Ich möchte eine zusätzliche Funktion wie "Sprache" oder "Filmdauer" integrieren. Ich bin nicht sicher, welche Techniken ich für ein solches Problem verwenden könnte. Bitte schlagen Sie Referenzen oder Pakete in Python / R vor.
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Die folgende Vorhersagefunktion gibt ebenfalls -ve-Werte an, sodass es sich nicht um Wahrscheinlichkeiten handeln kann. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Ich google & versuchte, pred_s <- predict(bst, x_mat_s2,type="response") aber es hat …
Gibt es maschinelle Lernpakete für R, die die GPU nutzen können, um die Trainingsgeschwindigkeit zu verbessern (so etwas wie Theano aus der Python-Welt)? Ich sehe, dass es ein Paket namens gputools gibt, das die Ausführung von Code auf der GPU ermöglicht, aber ich suche nach einer vollständigeren Bibliothek für maschinelles …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.