Data Science

Fragen und Antworten für Data Science-Experten, Machine Learning-Spezialisten und alle, die mehr über das Feld erfahren möchten

2
Extrahieren Sie kanonische Zeichenfolgen aus einer Liste von lauten Zeichenfolgen
Ich habe Tausende von Listen mit Zeichenfolgen, und jede Liste enthält ungefähr 10 Zeichenfolgen. Die meisten Zeichenfolgen in einer bestimmten Liste sind sehr ähnlich, obwohl einige Zeichenfolgen (selten) völlig unabhängig von den anderen sind und einige Zeichenfolgen irrelevante Wörter enthalten. Sie können als verrauschte Variationen einer kanonischen Saite betrachtet werden. …

4
Welche ersten Schritte sollte ich ausführen, um große Datenmengen zu verstehen, und welche Tools sollte ich verwenden?
Vorsichtsmaßnahme: Ich bin ein absoluter Anfänger, wenn es um maschinelles Lernen geht, aber lernbegierig. Ich habe einen großen Datensatz und versuche, darin ein Muster zu finden. Es kann / kann keine Korrelation zwischen den Daten geben, entweder mit bekannten Variablen oder Variablen, die in den Daten enthalten sind, aber die …

4
Warum können verschiedene Modelltypen fast identische Ergebnisse liefern?
Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere. Warum …

3
Wie skalieren verschiedene statistische Techniken (Regression, PCA usw.) mit Stichprobengröße und -dimension?
Gibt es eine bekannte allgemeine Tabelle statistischer Techniken, die erklären, wie sie mit Stichprobengröße und -dimension skalieren? Zum Beispiel erzählte mir ein Freund neulich, dass die Berechnungszeit für das schnelle Sortieren eindimensionaler Daten der Größe n n * log (n) ist. Wenn wir zum Beispiel y gegen X zurückführen, wobei …

3
Statistik + Informatik = Datenwissenschaft? [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Daten Wissenschaft Stapel Börse. Geschlossen vor 5 Jahren . Ich möchte Datenwissenschaftler werden . Ich habe angewandte Statistik studiert (Versicherungsmathematik), daher habe …

1
Vorhersage mit nichtatomaren Merkmalen
Ich möchte nichtatomare Daten als Merkmal für eine Vorhersage verwenden. Angenommen, ich habe eine Tabelle mit folgenden Funktionen: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, …

3
Umgang mit einem regelmäßig wachsenden Funktionsumfang
Ich arbeite an einem Betrugserkennungssystem. In diesem Bereich treten regelmäßig neue Betrugsfälle auf, sodass dem Modell laufend neue Funktionen hinzugefügt werden müssen. Ich frage mich, wie ich am besten damit umgehen kann (aus Sicht des Entwicklungsprozesses). Das Hinzufügen eines neuen Features zum Feature-Vektor und das erneute Training des Klassifikators scheint …

2
Devisenmarktprognose mit neuronalen Netzen
Ich möchte ANN verwenden, um Handelswährungen zu automatisieren, vorzugsweise USD / EUR oder USD / GBP. Ich weiß, dass dies schwierig und möglicherweise nicht einfach ist. Ich habe bereits einige Artikel gelesen und einige Experimente durchgeführt, aber ohne viel Glück. Ich würde gerne Ratschläge von Experten erhalten, damit dies funktioniert. …

4
Ordinale Regression in R lernen?
Ich arbeite an einem Projekt und benötige Ressourcen, um mich auf den neuesten Stand zu bringen. Der Datensatz umfasst etwa 35000 Beobachtungen zu etwa 30 Variablen. Etwa die Hälfte der Variablen ist kategorisch, wobei einige viele verschiedene mögliche Werte haben. Wenn Sie also die kategorialen Variablen in Dummy-Variablen aufteilen, haben …



5
Qualifikationen für Promotionsprogramme
Yann LeCun erwähnte in seiner AMA, dass er eine Promotion für sehr wichtig hält, um einen Job bei einem Top-Unternehmen zu bekommen. Ich habe einen Master in Statistik und mein Bachelor war in Wirtschaftswissenschaften und angewandter Mathematik, aber ich beschäftige mich jetzt mit ML-PhD-Programmen. Die meisten Programme sagen, dass es …
10 education 



3
Wie codiere ich eine Klasse mit 24.000 Kategorien?
Ich arbeite derzeit an einem logistischen Regressionsmodell für die Genomik. Eines der Eingabefelder, die ich als Kovariate einschließen möchte, ist genes. Es sind rund 24.000 Gene bekannt. Es gibt viele Merkmale mit dieser Variabilität in der Computerbiologie, und Hunderttausende von Proben werden benötigt. Wenn ich LabelEncoder()diese 24K-Gene und dann OneHotEncoder()sie …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.