Ich habe Tausende von Listen mit Zeichenfolgen, und jede Liste enthält ungefähr 10 Zeichenfolgen. Die meisten Zeichenfolgen in einer bestimmten Liste sind sehr ähnlich, obwohl einige Zeichenfolgen (selten) völlig unabhängig von den anderen sind und einige Zeichenfolgen irrelevante Wörter enthalten. Sie können als verrauschte Variationen einer kanonischen Saite betrachtet werden. …
Vorsichtsmaßnahme: Ich bin ein absoluter Anfänger, wenn es um maschinelles Lernen geht, aber lernbegierig. Ich habe einen großen Datensatz und versuche, darin ein Muster zu finden. Es kann / kann keine Korrelation zwischen den Daten geben, entweder mit bekannten Variablen oder Variablen, die in den Daten enthalten sind, aber die …
Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere. Warum …
Gibt es eine bekannte allgemeine Tabelle statistischer Techniken, die erklären, wie sie mit Stichprobengröße und -dimension skalieren? Zum Beispiel erzählte mir ein Freund neulich, dass die Berechnungszeit für das schnelle Sortieren eindimensionaler Daten der Größe n n * log (n) ist. Wenn wir zum Beispiel y gegen X zurückführen, wobei …
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Daten Wissenschaft Stapel Börse. Geschlossen vor 5 Jahren . Ich möchte Datenwissenschaftler werden . Ich habe angewandte Statistik studiert (Versicherungsmathematik), daher habe …
Ich möchte nichtatomare Daten als Merkmal für eine Vorhersage verwenden. Angenommen, ich habe eine Tabelle mit folgenden Funktionen: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, …
Ich arbeite an einem Betrugserkennungssystem. In diesem Bereich treten regelmäßig neue Betrugsfälle auf, sodass dem Modell laufend neue Funktionen hinzugefügt werden müssen. Ich frage mich, wie ich am besten damit umgehen kann (aus Sicht des Entwicklungsprozesses). Das Hinzufügen eines neuen Features zum Feature-Vektor und das erneute Training des Klassifikators scheint …
Ich möchte ANN verwenden, um Handelswährungen zu automatisieren, vorzugsweise USD / EUR oder USD / GBP. Ich weiß, dass dies schwierig und möglicherweise nicht einfach ist. Ich habe bereits einige Artikel gelesen und einige Experimente durchgeführt, aber ohne viel Glück. Ich würde gerne Ratschläge von Experten erhalten, damit dies funktioniert. …
Ich arbeite an einem Projekt und benötige Ressourcen, um mich auf den neuesten Stand zu bringen. Der Datensatz umfasst etwa 35000 Beobachtungen zu etwa 30 Variablen. Etwa die Hälfte der Variablen ist kategorisch, wobei einige viele verschiedene mögliche Werte haben. Wenn Sie also die kategorialen Variablen in Dummy-Variablen aufteilen, haben …
Ich habe versucht, Ausreißer im Energiegasverbrauch einiger niederländischer Gebäude zu erkennen und ein neuronales Netzwerkmodell zu erstellen. Ich habe sehr schlechte Ergebnisse, aber ich kann den Grund nicht finden. Ich bin kein Experte, daher möchte ich Sie fragen, was ich verbessern kann und was ich falsch mache. Dies ist die …
In einigen Fällen kann es unmöglich sein , Euler-Diagramme mit überlappenden Kreisen zu zeichnen, um alle überlappenden Teilmengen in den richtigen Proportionen darzustellen. Diese Art von Daten erfordert dann die Verwendung von Polygonen oder anderen Figuren, um jeden Satz darzustellen. Wie kann ich beim Umgang mit Daten, die überlappende Teilmengen …
Yann LeCun erwähnte in seiner AMA, dass er eine Promotion für sehr wichtig hält, um einen Job bei einem Top-Unternehmen zu bekommen. Ich habe einen Master in Statistik und mein Bachelor war in Wirtschaftswissenschaften und angewandter Mathematik, aber ich beschäftige mich jetzt mit ML-PhD-Programmen. Die meisten Programme sagen, dass es …
Wie wir alle wissen, gibt es einige Datenindizierungstechniken, die von bekannten Indizierungs-Apps verwendet werden, wie Lucene (für Java) oder Lucene.NET (für .NET), MurMurHash, B + Tree usw. Für ein No-Sql / Objekt Orientierte Datenbank (die ich versuche, ein wenig mit C # zu schreiben / herumzuspielen), welche Technik schlagen Sie …
Jede kleine Datenbankverarbeitung kann leicht mit Python / Perl / ... -Skripten erledigt werden, die Bibliotheken und / oder sogar Dienstprogramme aus der Sprache selbst verwenden. Wenn es jedoch um Leistung geht, tendieren die Leute dazu, nach C / C ++ / Low-Level-Sprachen zu greifen. Die Möglichkeit, den Code an …
Ich arbeite derzeit an einem logistischen Regressionsmodell für die Genomik. Eines der Eingabefelder, die ich als Kovariate einschließen möchte, ist genes. Es sind rund 24.000 Gene bekannt. Es gibt viele Merkmale mit dieser Variabilität in der Computerbiologie, und Hunderttausende von Proben werden benötigt. Wenn ich LabelEncoder()diese 24K-Gene und dann OneHotEncoder()sie …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.