Was genau ist mit einem „Datensatz“ gemeint?


10

Ist es nur die Aggregation von Datenpunkten? Oder ist es die Darstellung von Datenpunkten für verschiedene Elemente in einem Tabellenformat, das mit Werten der verschiedenen Variablen angeordnet ist? Wie unterscheidet es sich von Rohdaten?


Was meinst du mit "Datenpunkt", erwartest du, dass es mindestens 2D ist? Eine Zeitreihe oder eine Reihe von Prüfungsergebnissen kann ein Datensatz sein. Zumindest könnten dies nur Reihen in einer Variablen sein, möglicherweise ohne Zeilenbeschriftungen. Laut der Antwort von @FranckDernoncourt
smci

1
Ich denke wirklich nur, dass es eine Sammlung von Daten ist. So benutze ich den Begriff sicherlich. Ich glaube nicht, dass das zu viel ist. Ob die Daten "roh" oder vorverarbeitet oder bereinigt usw. sind, ist orthogonal.
Gung - Reinstate Monica

Antworten:


9

Nach meiner Erfahrung ist "Datensatz" (oder "Datensatz") ein informeller Begriff, der sich auf eine Sammlung von Daten bezieht. Im Allgemeinen enthält ein Datensatz mehr als eine Variable und betrifft ein einzelnes Thema. Es handelt sich wahrscheinlich um eine einzelne Stichprobe.

Ein Fehler, den Autoren von Cross Validated-Fragen häufig machen, ist die Verwendung von "Datensatz" als Synonym für "Variable" oder "Vektor".


3
Einverstanden über Datensatz gegen Variable oder Vektor. Lassen Sie mich nicht mit "Daten" beginnen, wie in "Ich habe Daten". Umgekehrt ist "Ich habe einen Datensatz" eine wunderbare Möglichkeit, in keiner Weise zu irritieren, entweder diejenigen zu irritieren, die darauf bestehen, dass Daten Plural sind, oder diejenigen zu irritieren, die diese Beharrlichkeit als pedantisch betrachten, wenn sie überhaupt darüber nachdenken.
Nick Cox

3
@NickCox In den Grammatikkriegen um "Daten" bin ich in der am wenigsten populären Fraktion, die behauptet, dass "Daten" ein Massennomen sind.
Kodiologe

3
Ich vermute, dass dies jetzt eine Mehrheit ist und denke stärker, dass es an Popularität gewinnt.
Nick Cox

8

Ich denke, dass Wikipedia einen anständigen Job bei der Definition macht:

Am häufigsten entspricht ein Datensatz dem Inhalt einer einzelnen Datenbanktabelle oder einer einzelnen statistischen Datenmatrix, wobei jede Spalte der Tabelle eine bestimmte Variable darstellt und jede Zeile einem bestimmten Mitglied des betreffenden Datensatzes entspricht. Der Datensatz listet Werte für jede der Variablen, wie z. B. Höhe und Gewicht eines Objekts, für jedes Mitglied des Datensatzes auf. Jeder Wert wird als Datum bezeichnet. Der Datensatz kann Daten für ein oder mehrere Mitglieder umfassen, die der Anzahl der Zeilen entsprechen.

Der Begriff Datensatz kann auch lockerer verwendet werden, um sich auf die Daten in einer Sammlung eng verwandter Tabellen zu beziehen, die einem bestimmten Experiment oder Ereignis entsprechen. Ein Beispiel für diesen Typ sind die Datensätze, die von Weltraumagenturen gesammelt wurden, die Experimente mit Instrumenten an Bord von Raumsonden durchführen.

In der Open-Data-Disziplin ist Dataset die Einheit zum Messen der in einem öffentlichen Open-Data-Repository veröffentlichten Informationen. Das European Open Data Portal aggregiert mehr als eine halbe Million Datensätze. In diesem Bereich wurden andere Definitionen vorgeschlagen, aber derzeit gibt es keine offizielle. Einige andere Probleme (Echtzeitdatenquellen, nicht relationale Datensätze usw.) erhöhen die Schwierigkeit, einen Konsens darüber zu erzielen.

Wie Sie sehen können, ist der Begriff etwas vage.


In einer Computer Vision-Umgebung kann ein Datensatz nur eine Sammlung natürlicher Bilder und ihrer Beschriftungen oder Anmerkungen sein.
Sycorax sagt Reinstate Monica

Was ist mit "Datenbank *" gemeint?
Ankit

@ankit Die traditionelle CS-Bedeutung en.wikipedia.org/wiki/Database
Franck Dernoncourt

@Sycorax Ja, ich denke, wir könnten ein Bild (oder ein anderes Signal) als ein Blob-Datum in der Datenbank betrachten.
Franck Dernoncourt

7

Ich denke, Sie müssen möglicherweise einen Datenpunkt definieren , bevor Sie einen Datensatz definieren können : Warum ist ein Grundelement und muss nicht definiert werden, aber nicht umgekehrt?

Mindestens zwei Definitionen sind für mich sinnvoll:

  1. Eine oder mehrere Beobachtungen (Fälle, Datensätze, Zeilen) für eine oder mehrere Variablen (Felder, Spalten).

  2. Was auch immer als Daten in einer Datei gespeichert ist, die von einem Programm Ihrer Wahl gelesen werden kann.

Tabellarisches Layout ist üblich, aber ich denke nicht, dass es Teil einer Definition ist. Wie die Daten gespeichert werden, kann natürlich praktisch wichtig sein.

PS Das Wort "Format" ist so überladen, dass es für mich am besten vermieden wird, wenn es nicht eindeutig angegeben wird. Ich habe gesehen, wie es benutzt wurde

  1. Allgemeines oder spezifisches Text- oder Binärdateiformat

  2. Datenstruktur, zB tabellarisch oder andere

  3. Datenspeicherung oder Variablentypen, z. B. Bit, Ganzzahl, Real, Zeichen

  4. Anzeigeformat zur Steuerung der Präsentation, z. B. Angaben zur Anzahl der Dezimalstellen; Dezimal-, Hexadezimal- oder Binäranzeige.


6

Hier gibt es bereits einige gute Antworten, und ich glaube nicht, dass ich tiefer als Nick Cox oder Franck Dernoncourt in die Frage eindringen kann, ob sich "Datensatz" auf die konzeptionelle Sammlung verwandter Daten oder auf die besondere Anordnung dieser Daten bezieht, z eine Tabelle / Matrix oder eine computerlesbare Datei. In Francks Auszug werden Randfälle wie kontinuierlich gesammelte Daten oder über mehrere Tabellen verteilte Daten erwähnt, die berücksichtigt werden sollten, wenn Sie davon ausgehen, dass es eine einfache Definition geben würde. (Nicht jede Statistiksoftware kann damit umgehen, aber es ist sehr leicht vorstellbar, dass Daten in einer relationalen Datenbank mit mehreren Tabellen gespeichert werden. Ist die gesamte Datenbank ein einziger "Datensatz"?)

Eine Sache, die ich hinzufügen möchte, ist, dass Datensätze im mathematischen Sinne im Allgemeinen keine Sätze sind! Sensu stricto enthält eine Menge entweder ein Objekt oder nicht, kann aber nicht mehr als eine Kopie dieses Objekts enthalten. Wenn ich acht Mal einen Würfel würfle und 1, 4, 3, 5, 5, 4, 6, 4 erziele, ist der Satz der gewürfelten Punkte nur {1, 3, 4, 5, 6}. Beachten Sie, dass die Elemente in beliebiger Reihenfolge vorliegen können. Ich habe sie gerade in aufsteigendem Wert geschrieben, aber die Menge {5, 4, 1, 6, 3} ist beispielsweise mathematisch gleich. Dies ist jedoch nicht das, was wir normalerweise mit einem Datensatz meinen!

Mit einem Multiset (oder einer Tasche ) können Einträge wiederholt werden, z. B. {1, 4, 3, 5, 5, 4, 6, 4}. Beachten Sie jedoch, dass dies immer noch keinen Ordnungssinn enthält und daher gleich {1, ist. 3, 4, 4, 4, 5, 5, 6}. Vielleicht kann das "Set" in "Dataset" am besten als "Multiset" gelesen werden. Wenn Sie möchten, dass die Ordnung erhalten bleibt, können Sie stattdessen einen Vektor verwenden: (1, 4, 3, 5, 5, 4, 6, 4) ist nicht dasselbe wie (1, 3, 4, 4, 4, 4). 5, 5, 6). Die Reihenfolge gibt uns einen Index, der als eine Art Kennung dienen kann - er sagt uns zum Beispiel: "Welche vier sind welche?" - und die häufig dazu dienen, Beobachtungen in ihrer natürlichen zeitlichen oder geografischen Reihenfolge aufzuzeichnen. Wenn man Formeln wie siehtx1x2x¯=1ni=1nxiDiese Art von Indexierungsschema wird angenommen. Was würde oder im Kontext einer Menge oder eines Multisets bedeuten, da wir ein "erstes" oder "zweites" Element aufgrund fehlender Reihenfolge nicht unterscheiden können?x1x2

Vektoren dienen jedoch nur zum Aufzeichnen einer Variablen - für mehrere ist es möglicherweise bequemer, eine Matrix zum Tabellieren mit beibehaltener Reihenfolge zu verwenden. In komplexeren Situationen, z. B. beim Messen einer Eigenschaft eines dreidimensionalen Voxelgitters über die Zeit, können Sie sogar die Daten in einem Tensor anordnen (siehe z . B. diese Frage ).

Beachten Sie jedoch, dass konzeptionell ein Multiset in den meisten einfachen Situationen ausreichen kann, auch wenn es für praktische Zwecke unpraktisch ist. Wenn ich gleichzeitig mit dem Würfeln eine Münze werfen und die beiden Ergebnisse zusammen aufzeichnen wollte, könnte ich ein Multiset wie {(1, H), (3, T), (4, H), (4, H) verwenden ), (4, T), (5, H), (5, T), (6, T)} anstelle einer Matrix. Eine gewöhnliche Menge wird nicht ausreichen, da sie zum Beispiel die Multiplizität von (4, H) nicht zählen würde.


1
Ich könnte die Idee kaufen, dass ein Datensatz eine Reihe von Beobachtungen mit nur der Falte ist, dass es möglicherweise ihre Kennungen benötigt, um sie zu unterscheiden. Aber Sie haben Recht, dass die Bedeutung hier in einiger Entfernung von der in der Mengenlehre liegt. Unterstreichen Sie, wie Sie hier andeuten, dass die Reihenfolge der Beobachtungen oft entscheidend ist und oft, aber nicht immer, durch eine Zeit oder andere Ordnungsvariable (n) gegeben ist.
Nick Cox

@NickCox (+1) In der Tat habe ich noch nicht die Zeit oder darüber hinaus gefunden, um auszudrücken, dass Beobachtungen oft mit einer Kennung versehen sind - manchmal zeitlich, manchmal ortsbezogen, manchmal beides. Wenn wir die Daten in einen Vektor, eine Matrix oder einen Tensor codieren, der häufig direkt die gewünschte Struktur liefert, kann eine explizite Kennung (wie ein fest codierter Index) unnötig werden, insbesondere wenn nur die Reihenfolge oder die relative Position von Bedeutung ist. Zweifellos gibt es für all dies eine korrekte Terminologie.
Silverfish

Ich habe kein Problem damit zu sagen, dass die Reihenfolge keine Rolle spielt. Es gibt keine einzelne Variable. Die Reihenfolge ist wichtig, wenn X-Werte beispielsweise mit dem Zeitpunkt der Messung gepaart sind. Aber dann können wir uns wirklich vorstellen, dass die Punkte mehrdimensional sind und die Reihenfolge eines Satzes mehrdimensionaler Daten keine Rolle mehr spielt. Ich habe auch kein Problem damit zu denken, dass es in Wirklichkeit eine implizite Kennung gibt, die zwei 5er einzigartig macht.
Gung - Reinstate Monica

@gung Ich dachte an Datensätze, in denen Zeit oder serielle Reihenfolge implizit sind. Ich würde sagen, es war eine schlechte Praxis und jetzt unnötig, keine explizite Ordnungsvariable zu haben, aber das Fehlen einer solchen Ordnungsvariablen disqualifiziert nicht, ein Datensatz zu sein. Tatsächlich verarbeitete ich in den 1970er Jahren routinemäßig räumliche Reihen mit impliziten Bezeichnern, weil meine eigenen Fortran-Programme die (nicht triviale) Arbeit, eine einzugeben, unnötig machten.
Nick Cox

Das scheint mir in Ordnung zu sein, @NickCox. Ich würde sagen, die Ordnungsvariable ist implizit, in diesem Fall aber in gewissem Sinne immer noch da.
Gung - Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.