Als «data-cleaning» getaggte Fragen

4
Daten in inkonsistentem Format in R bereinigen?
Ich beschäftige mich oft mit unordentlichen Umfragedaten, die eine Menge Aufräumarbeiten erfordern, bevor Statistiken erstellt werden können. Früher habe ich das "manuell" in Excel gemacht, manchmal mit Excel-Formeln und manchmal nacheinander. Ich begann, immer mehr dieser Aufgaben zu erledigen, indem ich Skripte schrieb, um sie in R zu erledigen, was …
16 r  data-cleaning 

1
Stand der Technik bei der Deduplizierung
Was sind die neuesten Methoden bei der Deduplizierung von Datensätzen? Die Deduplizierung wird manchmal auch als Datensatzverknüpfung, Entitätsauflösung, Identitätsauflösung, Zusammenführen / Löschen bezeichnet. Ich kenne zum Beispiel CBLOCK [1]. Ich würde mich freuen, wenn die Antworten auch Verweise auf vorhandene Software enthalten würden, die die Methoden implementiert. Ich weiß zum …

3
Wie lassen sich Daten am besten umformen / umstrukturieren?
Ich bin wissenschaftlicher Mitarbeiter für ein Labor (ehrenamtlich). Ich und eine kleine Gruppe wurden mit der Datenanalyse für einen Datensatz aus einer großen Studie beauftragt. Leider wurden die Daten mit einer Art Online-App gesammelt und nicht so programmiert, dass die Daten in der am besten verwendbaren Form ausgegeben wurden. Die …
12 r  excel  data-cleaning 

3
Automatische Datenbereinigung
Ein häufiges Problem ist, dass ML eine schlechte Datenqualität aufweist: Fehler in Merkmalswerten, falsch klassifizierte Instanzen usw. usw. Eine Möglichkeit, dieses Problem zu beheben, besteht darin, die Daten manuell durchzugehen und zu überprüfen. Gibt es jedoch andere Techniken? (Ich wette, es gibt!) Welche sind besser und warum?

2
Erstellen von Demodaten aus realen Daten: Verkleidung ohne Entstellung
(Ich habe keine wirkliche Ahnung, womit ich das markieren soll, da ich kein Statistiker bin und nicht weiß, in welches Feld dies fällt. Sie können gerne weitere geeignete Tags hinzufügen.) Ich arbeite für ein Unternehmen, das Datenanalyse-Software herstellt, und wir benötigen einen anständigen Datensatz, um unser neuestes Produkt mit zu …

3
Verwendung von ML zur Unterstützung der menschlichen Kennzeichnung in Datensätzen mit stark unausgeglichenen Klassen
Gibt es wissenschaftliche Probleme bei der Verwendung von ML zur Unterstützung menschlicher Anmerkungen? Ich habe einen unbeschrifteten Datensatz mit 3 Klassen, in dem nur 1 von 500 Elementen zu den 2 interessierenden Klassen gehört. Die Beschriftungen sind nicht für alle Elemente der unbeschrifteten Daten trivial erkennbar. Da jedoch die meisten …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.