Überblick
Es gibt viele mögliche Darstellungen und damit Datenbankschemata zum Speichern von unscharfen Datums- und Uhrzeitangaben (oder auch nur unscharfen Datumsangaben):
- Datum, Uhrzeit und Code für die Genauigkeit
- Datum, Uhrzeit und Intervall, bei denen es mehrere Möglichkeiten gibt, ein Intervall darzustellen:
- Stellen Sie alle Intervalle als Ganzzahl (oder andere numerische Größe) einer festen Einheit dar, z. B. Tage, Minuten, Nanosekunden.
- Stellen Sie ein Intervall sowohl als Ganzzahl (oder andere numerische Größe) als auch als Code dar, der die Einheiten angibt.
- Start- und Enddatum
- String
- Wahrscheinlichkeitsverteilung:
- Dezimal- oder Gleitkommazahlen für die Parameter, die eine bestimmte Verteilung in einer bestimmten Familie angeben, z. B. Mittelwert und Standardabweichung einer Normalverteilung.
- Wahrscheinlichkeitsverteilungsfunktion, z. B. als (Nachschlage-) Code (möglicherweise mit Parametern bestimmter Werte) oder als Ausdruck in einer ausreichend aussagekräftigen Sprache, Format oder Darstellung.
[1], [2] und [3] sind alle (implizit) einheitliche Intervalle, dh eine Menge von (gleich) möglichen Zeitpunkten.
[4] ist am ausdrucksstärksten, dh wenn mögliche (oder zumindest willkürlich lange) geschriebene Sprachsätze oder -phrasen zugelassen werden. Aber es ist auch am schwierigsten, damit zu arbeiten. Im Grenzfall müsste AI auf menschlicher Ebene mit beliebigen Werten umgehen. In der Praxis müsste der Bereich möglicher Werte stark eingeschränkt werden, und alternative "strukturierte" Werte wären wahrscheinlich für viele Operationen, z. B. Sortieren, Suchen, vorzuziehen.
[5] ist wahrscheinlich die allgemeinste kompakte Darstellung, die (etwas) praktisch ist.
Einheitliche Intervalle
Einheitliche Intervalle sind die einfachste kompakte Möglichkeit, eine Reihe von (möglichen) Datums- / Uhrzeitwerten darzustellen.
Bei [1] werden Teile des Datum-Uhrzeit-Werts ignoriert, dh die Teile, die Einheiten entsprechen, die feiner als die angegebene Genauigkeit oder Genauigkeit sind. Andernfalls entspricht dies [2], und der Genauigkeitscode entspricht einem Intervall mit denselben Einheiten (und einer implizierten Menge von 1).
[2] und [3] sind ausdrücklich gleichwertig. [1] ist strikt weniger aussagekräftig als beide, da es effektive Intervalle gibt, die nicht durch [1] dargestellt werden können, z. Eine unscharfe Datums- / Uhrzeitangabe, die einem 12-Stunden-Intervall entspricht, das sich über eine Datumsgrenze erstreckt.
[1] ist für Benutzer einfacher einzugeben als jede andere Darstellung und sollte im Allgemeinen (zumindest geringfügig) weniger Eingaben erfordern. Wenn Datums- und Uhrzeitangaben in verschiedenen Textdarstellungen eingegeben werden können, z. B. "2013", "2014-3", "2015-5-2", "7/30/2016 11p", "2016-07-31 18:15" kann die Präzision oder Genauigkeit auch automatisch aus der Eingabe abgeleitet werden.
Die Genauigkeit oder Präzision von [1] ist auch am einfachsten in ein Formular umzuwandeln, das den Benutzern übermittelt werden soll, z. (Beachten Sie, dass letztere sowieso nicht durch [1] dargestellt werden können).
Streicher
In der Praxis müssen Zeichenfolgenwerte in andere Darstellungen konvertiert werden, um mehrere Werte abzufragen, zu sortieren oder auf andere Weise zu vergleichen. Während also jede geschriebene natürliche (menschliche) Sprache strikt aussagekräftiger ist als [1], [2], [3] oder [5], verfügen wir noch nicht über die Mittel, um weit über Standardtextdarstellungen oder -formate hinauszugehen. Angesichts dessen ist dies wahrscheinlich die am wenigsten nützliche Darstellung für sich .
Ein Vorteil dieser Darstellung ist, dass Werte in der Praxis für Benutzer so wie sie sind darstellbar sein sollten und keine Transformation erfordern, um leicht verständlich zu sein.
Wahrscheinlichkeitsverteilungen
Wahrscheinlichkeitsverteilungen verallgemeinern die einheitlichen Intervalldarstellungen [1], [2], [3] und sind (wohl) der (allgemeinen) Zeichenfolgendarstellung [4] äquivalent.
Ein Vorteil von Wahrscheinlichkeitsverteilungen gegenüber Zeichenfolgen besteht darin, dass erstere eindeutig sind.
[5-1] ist für Werte geeignet, die (meistens) mit einer vorhandenen Verteilung übereinstimmen, z. B. ein Datums- / Zeitwert, der von einem Gerät ausgegeben wird, für das bekannt ist, dass Messungen mit einer bestimmten Verteilung übereinstimmen (oder angenommen werden).
[5-2] ist wahrscheinlich die beste (etwas) praktische Möglichkeit, beliebige "Fuzzy-Datetime" -Werte kompakt darzustellen. Natürlich ist die Berechenbarkeit der verwendeten spezifischen Wahrscheinlichkeitsverteilungen von Bedeutung und es gibt definitiv interessante (und möglicherweise unmögliche) Probleme, die beim Abfragen, Sortieren oder Vergleichen verschiedener Werte zu lösen sind, aber vieles davon ist wahrscheinlich bereits bekannt oder irgendwo in der vorhandenen gelöst Die mathematische und statistische Literatur steht also definitiv für eine äußerst allgemeine und eindeutige Darstellung.