Die Datenbereinigung ist ein vorbereitender Schritt zur statistischen Analyse, bei dem der Datensatz bearbeitet wird, um Fehler zu korrigieren und in eine Form zu bringen, die für die Verarbeitung durch statistische Software geeignet ist.
Motivation Ich arbeite mit Datensätzen, die personenbezogene Daten (PII) enthalten, und muss manchmal einen Teil eines Datensatzes mit Dritten auf eine Weise teilen, die PII nicht gefährdet und meinem Arbeitgeber eine Haftung auferlegt. Unser üblicher Ansatz besteht darin, Daten vollständig zurückzuhalten oder in einigen Fällen ihre Auflösung zu verringern. B. …
Durch meine eingeschränkte Beschäftigung mit Data Science mit R wurde mir klar, dass die Bereinigung fehlerhafter Daten ein sehr wichtiger Teil der Vorbereitung von Daten für die Analyse ist. Gibt es Best Practices oder Verfahren zum Bereinigen von Daten vor deren Verarbeitung? Wenn ja, gibt es automatisierte oder halbautomatisierte Tools, …
Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …
Gegeben ein Satz wie: Complimentary gym access for two for the length of stay ($12 value per person per day) Wie kann ich allgemein vorgehen, um das Wort Fitnessstudio oder Zugang zum Fitnessstudio zu identifizieren?
Welche Möglichkeiten gibt es, Textdokumente (in natürlicher Sprache, unstrukturiert) mit semantischen Metadaten zu versehen? Betrachten Sie zum Beispiel ein kurzes Dokument: I saw the company's manager last day. Um Informationen daraus extrahieren zu können, müssen sie mit zusätzlichen Daten versehen werden, damit sie nicht mehr eindeutig sind. Das Auffinden solcher …
Ich arbeite an einer Kaggle-Herausforderung, bei der einige Variablen durch Zeilen anstelle von Spalten dargestellt werden (Telstra Network Disruption). Ich bin derzeit auf der Suche nach dem Äquivalent von gather (), separate () und spread (), die in R Tidyr Tool gefunden werden können.
Ich würde gerne wissen, wie man Postanschriften vergleicht, wenn sich deren Format unterscheidet oder wenn eine von ihnen falsch geschrieben ist. Bisher habe ich verschiedene Lösungen gefunden, aber ich denke, dass sie ziemlich alt und nicht sehr effizient sind. Ich bin mir sicher, dass es einige bessere Methoden gibt. Wenn …
Ich arbeite in einem Büro, in dem SQL Server das Rückgrat von allem ist, was wir tun, von der Datenverarbeitung über die Reinigung bis hin zum Mungieren. Mein Kollege hat sich darauf spezialisiert, komplexe Funktionen und gespeicherte Prozeduren zu schreiben, um eingehende Daten methodisch so zu verarbeiten, dass sie standardisiert …
Ich habe einen Datenrahmen, der unter anderem eine Spalte mit der Anzahl der Millisekunden enthält, die seit 1970-1-1 vergangen sind. Ich muss diese Spalte mit Ints in Zeitstempeldaten konvertieren, damit ich sie schließlich in eine Spalte mit Datums- und Uhrzeitdaten konvertieren kann, indem ich die Zeitstempel-Spaltenreihe zu einer Reihe hinzufüge, …
Ich verstehe, was Standard Scalar macht und was Normalizer macht, gemäß der Scikit-Dokumentation: Normalizer , Standard Scaler . Ich weiß, wann Standard Scaler angewendet wird. Aber in welchem Szenario wird Normalizer angewendet? Gibt es Szenarien, in denen eines dem anderen vorgezogen wird?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Ich habe eine Weile an maschinellem Lernen und Bioinformatik gearbeitet und heute ein Gespräch mit einem Kollegen über die wichtigsten allgemeinen Fragen des Data Mining geführt. Mein Kollege (der Experte für maschinelles Lernen ist) sagte, dass seiner Meinung nach der wohl wichtigste praktische Aspekt des maschinellen Lernens darin besteht, zu …
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.