Ich verwende ein anderes Wort, je nachdem, wie ich die Daten verwende. Wenn ich den erfundenen Datensatz gefunden habe und meinen Algorithmus auf bestätigende Weise darauf gerichtet habe, ist das Wort "synthetisch" in Ordnung.
Häufig habe ich die Daten jedoch immer dann erfunden, wenn ich diese Art von Daten verwende, um die Fähigkeiten meines Algorithmus zu demonstrieren. Mit anderen Worten, ich habe Daten speziell erfunden, um "gute Ergebnisse" zu erzielen. Unter solchen Umständen mag ich den Begriff "erfunden", zusammen mit einer Erklärung meiner Erwartungen an die Daten. Das liegt daran, dass ich nicht möchte, dass jemand den Fehler macht zu denken, ich hätte meinen Algorithmus auf einen beliebigen synthetischen Datensatz gerichtet, den ich herumliegen sah, und der hat wirklich gut funktioniert. Wenn ich Daten ausgewählt habe (bis ich sie tatsächlich erstellt habe), damit mein Algorithmus gut funktioniert, sage ich das auch. Dies liegt daran, dass solche Ergebnisse den Nachweis erbringen, dass mein Algorithmus dies kanngut funktionieren, aber nur sehr schwache Beweise dafür liefern, dass der Algorithmus im Allgemeinen gut funktioniert . Das Wort "erfunden" fasst die Tatsache gut zusammen, dass ich die Daten im Hinblick auf "gute Ergebnisse" a priori ausgewählt habe.
"Gibt das den Eindruck von betrügerischen Daten?"
Nein, aber es ist wichtig, die Quelle eines Datensatzes und Ihre A-priori-Erwartungen als Experimentator zu kennen, wenn Sie Ihre Ergebnisse zu einem Datensatz melden. Der Begriff "Betrug" umfasst ausdrücklich den Aspekt, etwas vertuscht oder direkt belogen zu haben. Die erste Möglichkeit, Betrug in der Wissenschaft zu vermeiden, besteht darin, einfach ehrlich und offen über die Art Ihrer Daten und Ihre Erwartungen zu sein. Mit anderen Worten, wenn Ihre Daten fabriziert sind und Sie in keiner Weise so viel aussagen , und es eine Art Erwartung gibt, dass die Daten nicht fabriziert sind, oder schlimmer noch, Sie behaupten, dass die Daten in einer nicht fabrizierten Art gesammelt werden natürlich, dann ist das"Betrug". Mach das Ding nicht. Wenn Sie ein Synonym für den Begriff "fabriziert" verwenden möchten, der "besser klingt", wie "synthetisch", wird Sie niemand bemängeln, aber ich glaube nicht, dass irgendjemand außer Ihnen den Unterschied bemerken wird.
Eine Randnotiz:
Weniger offensichtlich sind Umstände, in denen man behauptet, von vornherein Erwartungen gehabt zu haben, die tatsächlich nachträgliche Erklärungen sind . Dies ist auch eine betrügerische Analyse von Daten.
Es besteht die Gefahr, dass Daten gezielt ausgewählt werden, um die Fähigkeiten eines Algorithmus "zur Geltung zu bringen", was bei synthetischen Daten häufig der Fall ist.
DHHDD
HDHD
Es gibt kein Problem dabei, so lange , wie Sie sind ehrlich und offen über das, was Sie getan haben. Wenn Sie Probleme mit der Erstellung eines Datensatzes haben, der "gute Ergebnisse" liefert, sagen Sie dies. Solange Sie dem Leser die Schritte mitteilen, die Sie bei Ihrer Datenanalyse unternommen haben, verfügen diese über die erforderlichen Informationen, um die Beweise für oder gegen Ihre Hypothesen effektiv abzuwägen. Wenn Sie nicht ehrlich oder nicht direkt sind , kann dies den Eindruck erwecken, dass Ihre Beweise stärker sind als sie wirklich sind. Wenn Sie WISSENTLICH weniger sind als ehrlich und unverblümt zum Wohl Ihrer Aussage zu machen scheint stärker , als es wirklich ist, dann ist das , in der Tat, betrügerische.
Auf jeden Fall bevorzuge ich deshalb den Begriff "erfunden" für solche Datensätze, zusammen mit einer kurzen Erklärung, dass sie tatsächlich unter Berücksichtigung einer Hypothese ausgewählt wurden. "Erfunden" vermittelt den Eindruck, dass ich nicht nur einen synthetischen Datensatz erstellt habe, sondern dies auch mit bestimmten Absichten, die die Tatsache widerspiegeln, dass meine Hypothese bereits vor der Erstellung meines Datensatzes gültig war.
Zur Veranschaulichung an einem Beispiel: Sie erstellen einen Algorithmus zur Analyse beliebiger Zeitreihen. Sie nehmen an, dass dieser Algorithmus "gute Ergebnisse" liefert, wenn auf Zeitreihen verwiesen wird. Betrachten Sie nun die folgenden zwei Möglichkeiten: 1) Sie erstellen einige synthetische Daten, die so aussehen, wie Sie es von Ihrem Algorithmus erwarten. Sie analysieren diese Daten und der Algorithmus funktioniert gut. 2) Sie greifen auf einige synthetische Datensätze zu, weil sie verfügbar sind, warum nicht. Sie analysieren diese Daten und der Algorithmus funktioniert gut. Welcher dieser beiden Umstände liefert den besseren Beweis dafür, dass Ihr Algorithmus bei beliebigen Zeitreihen eine gute Leistung erbringt? Natürlich ist es Option 2. Es könnte jedoch einfach sein, in Option 1 oder Option 2 zu melden, dass wir Algorithmus angewendet habenADx.y
tl; dr
Verwenden Sie einen beliebigen Begriff: "synthetisch", "erfunden", "erfunden", "fiktiv". Der von Ihnen verwendete Begriff reicht jedoch nicht aus, um sicherzustellen, dass Ihre Ergebnisse nicht irreführend sind . Stellen Sie sicher, dass Sie in Ihrem Bericht genau wissen, wie die Daten entstanden sind, einschließlich Ihrer Erwartungen an die Daten und der Gründe, warum Sie die von Ihnen ausgewählten Daten ausgewählt haben.