Ist es nur die Aggregation von Datenpunkten? Oder ist es die Darstellung von Datenpunkten für verschiedene Elemente in einem Tabellenformat, das mit Werten der verschiedenen Variablen angeordnet ist? Wie unterscheidet es sich von Rohdaten?
Ist es nur die Aggregation von Datenpunkten? Oder ist es die Darstellung von Datenpunkten für verschiedene Elemente in einem Tabellenformat, das mit Werten der verschiedenen Variablen angeordnet ist? Wie unterscheidet es sich von Rohdaten?
Antworten:
Nach meiner Erfahrung ist "Datensatz" (oder "Datensatz") ein informeller Begriff, der sich auf eine Sammlung von Daten bezieht. Im Allgemeinen enthält ein Datensatz mehr als eine Variable und betrifft ein einzelnes Thema. Es handelt sich wahrscheinlich um eine einzelne Stichprobe.
Ein Fehler, den Autoren von Cross Validated-Fragen häufig machen, ist die Verwendung von "Datensatz" als Synonym für "Variable" oder "Vektor".
Ich denke, dass Wikipedia einen anständigen Job bei der Definition macht:
Am häufigsten entspricht ein Datensatz dem Inhalt einer einzelnen Datenbanktabelle oder einer einzelnen statistischen Datenmatrix, wobei jede Spalte der Tabelle eine bestimmte Variable darstellt und jede Zeile einem bestimmten Mitglied des betreffenden Datensatzes entspricht. Der Datensatz listet Werte für jede der Variablen, wie z. B. Höhe und Gewicht eines Objekts, für jedes Mitglied des Datensatzes auf. Jeder Wert wird als Datum bezeichnet. Der Datensatz kann Daten für ein oder mehrere Mitglieder umfassen, die der Anzahl der Zeilen entsprechen.
Der Begriff Datensatz kann auch lockerer verwendet werden, um sich auf die Daten in einer Sammlung eng verwandter Tabellen zu beziehen, die einem bestimmten Experiment oder Ereignis entsprechen. Ein Beispiel für diesen Typ sind die Datensätze, die von Weltraumagenturen gesammelt wurden, die Experimente mit Instrumenten an Bord von Raumsonden durchführen.
In der Open-Data-Disziplin ist Dataset die Einheit zum Messen der in einem öffentlichen Open-Data-Repository veröffentlichten Informationen. Das European Open Data Portal aggregiert mehr als eine halbe Million Datensätze. In diesem Bereich wurden andere Definitionen vorgeschlagen, aber derzeit gibt es keine offizielle. Einige andere Probleme (Echtzeitdatenquellen, nicht relationale Datensätze usw.) erhöhen die Schwierigkeit, einen Konsens darüber zu erzielen.
Wie Sie sehen können, ist der Begriff etwas vage.
Ich denke, Sie müssen möglicherweise einen Datenpunkt definieren , bevor Sie einen Datensatz definieren können : Warum ist ein Grundelement und muss nicht definiert werden, aber nicht umgekehrt?
Mindestens zwei Definitionen sind für mich sinnvoll:
Eine oder mehrere Beobachtungen (Fälle, Datensätze, Zeilen) für eine oder mehrere Variablen (Felder, Spalten).
Was auch immer als Daten in einer Datei gespeichert ist, die von einem Programm Ihrer Wahl gelesen werden kann.
Tabellarisches Layout ist üblich, aber ich denke nicht, dass es Teil einer Definition ist. Wie die Daten gespeichert werden, kann natürlich praktisch wichtig sein.
PS Das Wort "Format" ist so überladen, dass es für mich am besten vermieden wird, wenn es nicht eindeutig angegeben wird. Ich habe gesehen, wie es benutzt wurde
Allgemeines oder spezifisches Text- oder Binärdateiformat
Datenstruktur, zB tabellarisch oder andere
Datenspeicherung oder Variablentypen, z. B. Bit, Ganzzahl, Real, Zeichen
Anzeigeformat zur Steuerung der Präsentation, z. B. Angaben zur Anzahl der Dezimalstellen; Dezimal-, Hexadezimal- oder Binäranzeige.
Hier gibt es bereits einige gute Antworten, und ich glaube nicht, dass ich tiefer als Nick Cox oder Franck Dernoncourt in die Frage eindringen kann, ob sich "Datensatz" auf die konzeptionelle Sammlung verwandter Daten oder auf die besondere Anordnung dieser Daten bezieht, z eine Tabelle / Matrix oder eine computerlesbare Datei. In Francks Auszug werden Randfälle wie kontinuierlich gesammelte Daten oder über mehrere Tabellen verteilte Daten erwähnt, die berücksichtigt werden sollten, wenn Sie davon ausgehen, dass es eine einfache Definition geben würde. (Nicht jede Statistiksoftware kann damit umgehen, aber es ist sehr leicht vorstellbar, dass Daten in einer relationalen Datenbank mit mehreren Tabellen gespeichert werden. Ist die gesamte Datenbank ein einziger "Datensatz"?)
Eine Sache, die ich hinzufügen möchte, ist, dass Datensätze im mathematischen Sinne im Allgemeinen keine Sätze sind! Sensu stricto enthält eine Menge entweder ein Objekt oder nicht, kann aber nicht mehr als eine Kopie dieses Objekts enthalten. Wenn ich acht Mal einen Würfel würfle und 1, 4, 3, 5, 5, 4, 6, 4 erziele, ist der Satz der gewürfelten Punkte nur {1, 3, 4, 5, 6}. Beachten Sie, dass die Elemente in beliebiger Reihenfolge vorliegen können. Ich habe sie gerade in aufsteigendem Wert geschrieben, aber die Menge {5, 4, 1, 6, 3} ist beispielsweise mathematisch gleich. Dies ist jedoch nicht das, was wir normalerweise mit einem Datensatz meinen!
Mit einem Multiset (oder einer Tasche ) können Einträge wiederholt werden, z. B. {1, 4, 3, 5, 5, 4, 6, 4}. Beachten Sie jedoch, dass dies immer noch keinen Ordnungssinn enthält und daher gleich {1, ist. 3, 4, 4, 4, 5, 5, 6}. Vielleicht kann das "Set" in "Dataset" am besten als "Multiset" gelesen werden. Wenn Sie möchten, dass die Ordnung erhalten bleibt, können Sie stattdessen einen Vektor verwenden: (1, 4, 3, 5, 5, 4, 6, 4) ist nicht dasselbe wie (1, 3, 4, 4, 4, 4). 5, 5, 6). Die Reihenfolge gibt uns einen Index, der als eine Art Kennung dienen kann - er sagt uns zum Beispiel: "Welche vier sind welche?" - und die häufig dazu dienen, Beobachtungen in ihrer natürlichen zeitlichen oder geografischen Reihenfolge aufzuzeichnen. Wenn man Formeln wie siehtx1x2Diese Art von Indexierungsschema wird angenommen. Was würde oder im Kontext einer Menge oder eines Multisets bedeuten, da wir ein "erstes" oder "zweites" Element aufgrund fehlender Reihenfolge nicht unterscheiden können?
Vektoren dienen jedoch nur zum Aufzeichnen einer Variablen - für mehrere ist es möglicherweise bequemer, eine Matrix zum Tabellieren mit beibehaltener Reihenfolge zu verwenden. In komplexeren Situationen, z. B. beim Messen einer Eigenschaft eines dreidimensionalen Voxelgitters über die Zeit, können Sie sogar die Daten in einem Tensor anordnen (siehe z . B. diese Frage ).
Beachten Sie jedoch, dass konzeptionell ein Multiset in den meisten einfachen Situationen ausreichen kann, auch wenn es für praktische Zwecke unpraktisch ist. Wenn ich gleichzeitig mit dem Würfeln eine Münze werfen und die beiden Ergebnisse zusammen aufzeichnen wollte, könnte ich ein Multiset wie {(1, H), (3, T), (4, H), (4, H) verwenden ), (4, T), (5, H), (5, T), (6, T)} anstelle einer Matrix. Eine gewöhnliche Menge wird nicht ausreichen, da sie zum Beispiel die Multiplizität von (4, H) nicht zählen würde.