Wie ärgert man einen statistischen Schiedsrichter?


102

Ich habe kürzlich eine Frage zu allgemeinen Grundsätzen für die Überprüfung von Statistiken in Veröffentlichungen gestellt . Was ich jetzt fragen möchte, ist, was Sie beim Überprüfen einer Arbeit besonders irritiert, dh was ist der beste Weg, um einen statistischen Schiedsrichter wirklich zu ärgern!

Ein Beispiel pro Antwort, bitte.


Gilt dies auch für Begründungen, die als Reaktion auf eine erste Überprüfung eingegangen sind (wenn kleinere und / oder größere Überarbeitungen angefragt wurden)?
chl

@chl: Ja, warum nicht.
csgillespie

Antworten:


69

Was mich persönlich besonders irritiert , sind Leute, die eindeutig benutzergeschriebene Pakete für Statistiksoftware verwendet haben, diese aber nicht oder nur unzureichend zitieren und damit den Autoren keine Ehre machen. Dies ist besonders wichtig, wenn sich die Autoren im akademischen Bereich befinden und ihre Arbeit von der Veröffentlichung von Artikeln abhängt , die zitiert werden . (Vielleicht sollte ich hinzufügen, dass in meinem Bereich viele der Täter keine Statistiker sind.)


2
+1 für mich. Dies frustriert mich, besonders wenn sie das Falsche zitieren und ich die relevanten Details zum Zitieren der Pakete angegeben habe
Gavin Simpson,

3
Frage: Zitieren Sie beim Zitieren eines Pakets die Vignette (falls vorhanden) oder das Paket selbst?
Brandon Bertelsen

7
@Brandon: Wenn der Autor des Pakets sich genug um Sie kümmert, dann hat er die Antwort in einer Form gegeben, die durch Zitieren ("some_package") abgeholt wird
Ben Bolker

2
Abgesehen von einem Orientierungspunkt-Papier, das nicht so einfach zu erstellen ist, besteht der einfachste Weg, Zitate zu erhalten, darin, mindestens einen Fehler in Ihrem Papier zu hinterlassen. Anschließend können Sie eine Korrektur veröffentlichen, in der das Originalpapier zitiert wird. Wenn Sie einen Fehler in der Korrektur belassen, können Sie eine Korrektur veröffentlichen, die sich auf die ursprüngliche Korrektur und das Originalpapier bezieht (ich habe so etwas als Student im ersten Jahr gesehen). Die Anzahl der Zitate wächst als O (N ^ 2) -Prozess, wobei N die Anzahl der Korrekturen ist.
Mark L. Stone

67

Meine Güte, mir fallen so viele Dinge ein ...

  • Schrittweise Regression

  • Aufteilen fortlaufender Daten in Gruppen

  • Geben Sie p-Werte an, aber kein Maß für die Effektgröße

  • Beschreiben von Daten unter Verwendung des Mittelwerts und der Standardabweichung, ohne anzugeben, ob die Daten mehr oder weniger symmetrisch und unimodal waren

  • Zahlen ohne eindeutige Beschriftung (sind das Standardfehler des Mittelwerts oder Standardabweichungen innerhalb von Gruppen oder was?)


5
Ich bin ein bisschen neugierig auf die schrittweise Regressionskugel. Was macht schrittweise Regression so schlimm? Ist es das Problem der Datenbaggerung und mehrerer Vergleiche?
Christopher Aden

17
Das Problem ist, dass schrittweise Prozeduren alle Annahmen und Voraussetzungen für "normale" Inferenzstatistiken auf der Grundlage von p-Werten, die dann stark voreingenommen sind (nach unten, um "signifikanter" zu sein), vollständig ungültig machen. Im Grunde genommen lautet die Antwort "Ja", mit dem Vorbehalt, dass man all diese mehrfachen Vergleiche im Prinzip korrigieren könnte (was ich aber noch nie gesehen habe). Ich bin der festen Überzeugung, dass dies der wichtigste Grund ist, warum ich so viel Forschung in der Psychologie sehe, die sich nicht wiederholen lässt - was wiederum zu einer enormen Verschwendung von Ressourcen führt.
Stephan Kolassa

10
@Stephan: Ich stimme zu, schrittweise ist eine schlechte Idee. Obwohl sie es vielleicht noch nicht zu psychischen Methoden geschafft haben, gibt es eine Vielzahl von Auswahlverfahren, die sich durch Anpassen von Schätzungen und Standardfehlern auf die mit Überanpassung verbundene Verzerrung einstellen. Dies wird normalerweise nicht als Problem mehrerer Vergleiche angesehen. Sie sind als Schrumpfungsverfahren bekannt. Siehe meine Antwort in diesem Thread < stats.stackexchange.com/questions/499/… > und Harrells "Regression Modeling Strategies" oder Tibshirani über das Lasso.
Brett

5
@Brett Magill: +1 dazu, und ja, ich weiß über Schrumpfung und das Lasso Bescheid. Jetzt brauche ich nur noch eine Möglichkeit, um Psychologen davon zu überzeugen, dass diese sinnvoll sind ... aber die Menschen haben mit sehr begrenztem Erfolg gekämpft, nur um Psychologen dazu zu bringen, Vertrauensintervalle zu melden 20 Jahre.
Stephan Kolassa 20.10.10

10
Ich würde auch argumentieren, dass in der Psychologie die Maximierung der Vorhersage nicht das typische theoretische Ziel ist, aber bei der schrittweisen Regression geht es darum, die Vorhersage zu maximieren, wenn auch auf quasi sparsame Weise. Daher besteht typischerweise eine Trennung zwischen Verfahren und Frage.
Jeromy Anglim


32

Der zur Generierung der simulierten Ergebnisse verwendete Code wird nicht bereitgestellt. Nachdem der Code angefordert wurde, sind zusätzliche Arbeiten erforderlich, damit er in einem vom Schiedsrichter erstellten Datensatz ausgeführt werden kann.


2
Und es ist schlecht formatiert, unkommentiert und verwendet nicht entzifferbare Variablen- und Funktionsnamen. Ooooh ja.
Naught101

30

Plagiat (theoretisch oder methodisch). Meine erste Überprüfung betraf in der Tat ein Papier, in dem viele nicht referenzierte Texte aus einem vor 10 Jahren veröffentlichten, etablierten methodologischen Papier kopiert / eingefügt wurden.

Ich habe gerade ein paar interessante Artikel zu diesem Thema gefunden: Autorenschaft und Plagiat in der Wissenschaft .

Ebenso empfinde ich die Fälschung (von Daten oder Ergebnissen) als die schlimmste von allen.


20
Erinnert mich daran, dass ich in meinen Anfängen als Schiedsrichter viel zu lange damit verbracht habe, ein statistisches Dokument zu überprüfen, das schließlich von dieser bestimmten Zeitschrift abgelehnt wurde, aber die anderen Schiedsrichter und ich schlugen eine nützlichere Anwendung für die Methode vor, und ich skizzierte auch einen algebraischen Beweis eine unbefriedigende Simulationsstudie im Manuskript zu ersetzen. Die Autoren haben inzwischen zwei veröffentlichte Artikel herausgebracht. Das ärgert mich nicht , aber eine Anerkennung wie "Wir danken den Schiedsrichtern einer früheren Version des Papiers für hilfreiche Kommentare" wäre eine gute Manier gewesen.
am

1
@onestop Ja, ich kann mir vorstellen, wie enttäuschend eine solche Situation sein könnte ...
chl

24
Vor ein paar Wochen erhielt ich einen Aufsatz zur Begutachtung und stellte fest, dass 85% davon in einer anderen Zeitschrift veröffentlicht worden waren ... von denselben Autoren. Auch das gilt nach wie vor als Plagiat. In den letzten Jahren habe ich regelmäßig mehrere Beiträge - insbesondere Abstracts, Einführungen und Schlussfolgerungen - an Web-Suchmaschinen übermittelt, bevor ich eine Überprüfung durchführte. Ich möchte sichergehen, dass die Arbeit originell ist, bevor ich sie lese.
Whuber

7
+1, @whuber. Als Herausgeber einer methodischen Zeitschrift habe ich oft die schwierige Aufgabe, herauszufinden, ob der Beitrag (in der Regel von etablierten Autoren; die jüngeren Autoren haben diesen Weg noch nicht alle eingeschlagen) die Veröffentlichung rechtfertigt, da sie Nachdem sie fertig sind, werden die acht Lego-Blöcke, aus denen ihre vorherigen fünf Papiere bestehen, auf andere Weise wieder zusammengesetzt. Dies veranlasst mich, den Beitrag in den vorhergehenden fünfzig Veröffentlichungen, die diese Autoren ebenfalls veröffentlicht haben, in Frage zu stellen :(.
StasK

26

Wenn wir die Autoren darum bitten

  1. kleiner Kommentar zu einer Idee, die wir haben (dies wird in diesem Sinne nicht als Grund für die Ablehnung des Artikels angesehen, sondern nur, um sicherzugehen, dass die Autoren in der Lage sind, einen anderen POV zu diskutieren), oder
  2. unklare oder widersprüchliche Ergebnisse,

und dass die Autoren in Fall (1) nicht wirklich antworten oder dass die belasteten Ergebnisse in (2) aus der MS verschwinden.


7
Auf mysteriöse Weise verschwundene Ergebnisse sollten automatisch abgelehnt werden. Ich bin mir sicher, dass dies viel "hinter den Kulissen" passiert (dh bevor die Zeitung eingereicht wird), aber dies ist ein klarer Beweis für "Kirschpflücken", den normale Leser der Zeitung niemals erfahren würden.
Makro

3
Ein weiterer Grund für ein offenes Peer-Review-System.
Markieren Sie den

24

Verwirrende p-Werte und Effektgröße (dh die Angabe, dass mein Effekt groß ist, weil ich einen wirklich winzigen p-Wert habe).

Etwas anders als Stephans Antwort , Effektgrößen auszuschließen, aber p-Werte anzugeben. Ich bin damit einverstanden, dass Sie beide geben sollten (und hoffentlich den Unterschied verstehen!)


23

Ohne Effektgrößen.

Ping überall in der Forschung (ich muss meinen Lieblingsprofessor für die Schule für diese Linie gutschreiben).

Geben Sie eine absurde Anzahl von Ziffern (Männer haben 3.102019 Pfund mehr zugenommen als Frauen)

Ohne Seitenzahlen (was das Überprüfen erschwert)

Falsche Zahlen und Tabellen

(wie bereits erwähnt - schrittweise und Kategorisierung stetiger Variablen)


7
(+1) lachte laut über "Eine absurde Anzahl von Ziffern (Männer nahmen 3.102019 Pfund mehr zu als Frauen)".
Makro

19

Wenn sie ihre Analyse nicht ausreichend erklären und / oder einfache Fehler enthalten, die es schwierig machen, herauszufinden, was tatsächlich getan wurde. Dies beinhaltet oft das Herumwerfen einer Menge Jargon zur Erklärung, was mehrdeutiger ist, als der Autor zu erkennen scheint und auch missbraucht werden kann.


Einverstanden sein - es ist wirklich ärgerlich zu verstehen, was die Autoren meinten, bevor sie den wissenschaftlichen Inhalt bewerteten.
Laurent

5
Ich stimme zu, finde es aber noch ärgerlicher, wenn ein Prüfer Sie auffordert, die realistisch sehr wichtigen Details der Analyse wegzulassen (oder zu ergänzenden Materialien überzugehen). Dieses Problem macht es so, dass viele wissenschaftliche / sozialwissenschaftliche Artikel, die selbst die leicht kompliziertesten Analysen durchführen, in dieser Hinsicht ziemlich kryptisch sind.
Makro

16

Die Verwendung der Kausalsprache zur Beschreibung von Assoziationen in Beobachtungsdaten, wenn Variablen ausgelassen werden, ist mit ziemlicher Sicherheit ein ernstes Problem.


3
Ich bin damit einverstanden, dass Forscher die Verantwortlichkeiten von Beobachtungsforschungsdesigns verstehen sollten, insbesondere diejenigen, die sich auf ausgelassene Variablen beziehen, aber ich denke nicht, dass die Vermeidung von Kausalsprache dies bewirkt. Siehe die Arbeit von Hubert Blalock, insbesondere sein Buch Causal Inferences in Non-experimental Research für ein detaillierteres Argument zur Verteidigung der Verwendung von Kausalsprache.
Andy W

3
(+1) Dies könnte mein größtes Problem bei der epidemiologischen Forschung sein.
Makro

14

Wenn Autoren den einen statistischen Test verwenden, den sie kennen (in meinem Fachgebiet normalerweise ein T-Test oder eine ANOVA), ad infinitum, unabhängig davon, ob er angemessen ist. Ich habe kürzlich einen Artikel gelesen, in dem die Autoren ein Dutzend verschiedener Behandlungsgruppen vergleichen wollten. Deshalb hatten sie für jedes mögliche Behandlungspaar einen T-Test mit zwei Stichproben durchgeführt ...


13

Neue Wörter für die vorhandenen Konzepte finden oder die vorhandenen Begriffe verwenden, um etwas anderes zu bezeichnen.

Einige der bestehenden Terminologiedifferenzen haben sich in der Literatur längst niedergeschlagen: Längsschnittdaten in der Biostatistik vs. Paneldaten in der Ökonometrie; Ursache- und Wirkungsindikatoren in der Soziologie vs. formative und reflektierende Indikatoren in der Psychologie; usw. Ich hasse sie immer noch, aber Sie können zumindest ein paar tausend Verweise auf jeden von ihnen in ihrer jeweiligen Literatur finden. Das jüngste ist diese ganze Reihe von Arbeiten über gerichtete azyklische Graphen in der Kausalliteratur: Die meisten, wenn nicht alle, der darin enthaltenen Theorie der Identifizierung und Schätzung wurden in den 1950er Jahren von Ökonomen unter dem Namen simultaner Gleichungen entwickelt.

Der Begriff, der eine doppelte, wenn nicht dreifache Bedeutung hat, ist "robust", und die verschiedenen Bedeutungen sind oft widersprüchlich. "Robuste" Standardfehler sind bei weitem nicht robust. Darüber hinaus sind sie bis auf die angenommene Abweichung vom Modell unempfindlich und weisen häufig eine schlechte Leistung bei kleinen Stichproben auf. Die Standardfehler von White sind nicht robust gegenüber seriellen oder Cluster-Korrelationen. "robuste" Standardfehler in SEM sind nicht robust gegen Fehlspezifikationen der Modellstruktur (weggelassene Pfade oder Variablen). Genau wie bei der Idee des Nullhypothesen-Signifikanztests ist es unmöglich, mit einem Finger auf irgendjemanden zu zeigen und zu sagen: "Sie sind dafür verantwortlich, mehrere Generationen von Forschern zu verwirren, wenn Sie dieses Konzept prägen, das nicht wirklich für seinen Namen steht."


1
Ich muss zugeben, dass ich beide Sünden begangen habe: Ich beschreibe meine Daten als "hierarchisch strukturiert": wenn ich Ebenen mit 1: n-Beziehungen habe (viele Messungen jeder Probe, mehrere Proben pro Patient). Irgendwann habe ich das eher aus Versehen gelernt wird als "Clustered" -Datenstruktur bezeichnet - jetzt verwende ich beide Begriffe. Aber ich weiß immer noch nicht, wie ich diesen Begriff hätte finden können. Ich habe verzweifelt nach dem Wort gesucht, um meine Datenstruktur zu beschreiben. ich benutze Techniken , die Soft - Klassifizierung in der Fernerkundung genannt werden Mein Feld (Chemometrie) verwendet es mit ganz anderen Sinn..
cbeleites

2
Das ist alles in Ordnung - Sie können Ihrer Liste der Möglichkeiten, sich auch auf diese Struktur zu beziehen, "mehrstufig" hinzufügen. "Clustered" bedeutet normalerweise, dass die Beobachtungen als korreliert bekannt sind, aber niemand kümmert sich darum, diese Korrelation zu modellieren, da sie nicht von primärem Interesse ist, und Methoden zu beseitigen, die für eine solche Korrelation robust sind, wie z. B. GEE. Was Sie haben, ist so etwas wie wiederholte Maßnahmen MANOVA. Es gibt ein Stata-Paketgllamm , das Ihre Daten als mehrstufige / hierarchische Daten betrachtet, aber die meisten anderen Pakete würden mehrere Messungen als Variablen / Spalten und Stichproben als Beobachtungen / Zeilen betrachten.
StasK

Danke für die Eingabe. Naja, heutzutage würde ich hier natürlich fragen, wie es heißt ... Es handelt sich nicht um exakt wiederholte Messungen: Normalerweise messe ich eine Zahl (Größenordnung: zwischen 10 ^ 2 und 10 ^ 4) verschiedener Stellen auf der Probe, um erzeugen Falschfarbenkarten verschiedener Bestandteile, und jede Messung hat bereits 10 ^ 2 - 10 ^ 3 Beobachtungen (Wellenlängen im Spektrum). Innerhalb jeder Probe sind viele Spektren stark korreliert, aber nicht alle: Die Proben sind nicht homogen. ...
Glaube

1
... Ihre Beschreibung von "gruppiert" hört sich sehr nach dem an, was wir tun. Aber ich achte darauf, die Proben für die Validierung aufzuteilen, sage, ich habe keine Ahnung von der effektiven Probengröße (abgesehen davon, dass es sich um mindestens die Anzahl der tatsächlichen Proben handelt) und zeige manchmal, dass alle diese Messungen vorhanden sind sample hilft eigentlich beim model training.
Glaube

1
Sicherlich interessante und herausfordernde Daten.
StasK

11

Keine Berücksichtigung fehlender Daten.

In vielen praktischen Anwendungen werden Daten verwendet, für die zumindest einige Werte fehlen. Dies ist sicherlich sehr wahr in der Epidemiologie. Fehlende Daten stellen viele statistische Methoden vor Probleme - einschließlich linearer Modelle. Fehlende Daten bei linearen Modellen werden häufig durch Löschen von Fällen mit fehlenden Daten zu Kovariaten behoben. Dies ist ein Problem, es sei denn, Daten fehlen unter der Annahme, dass Daten völlig zufällig fehlen (MCAR).

Vor vielleicht 10 Jahren war es vernünftig, Ergebnisse von linearen Modellen ohne weitere Berücksichtigung von Fehlzeiten zu veröffentlichen. Dafür bin ich sicher schuldig. Sehr gute Ratschläge für den Umgang mit fehlenden Daten mit multipler Imputation sind inzwischen ebenso verfügbar wie statistische Pakete / Modelle / Bibliotheken / etc. geeignetere Analysen unter vernünftigeren Annahmen zu ermöglichen, wenn ein Mangel vorliegt.


1
Können Sie im Geiste des Erziehungsversuchs mehr herausfinden? Was halten Sie davon, zuzugeben, dass es existiert, oder die statistische Analyse angesichts dessen anzupassen (z. B. Zurechnung)? Wenn zutreffend, versuche ich supp einzuschließen. Tabellen mit fehlenden Werten von Kovariaten von Interesse, aber es ist nicht klar, ob dies für die "Berücksichtigung" durch diese Bemerkung ausreicht.
Andy W

8

Melden von Effekten, die sich der Signifikanz näherten (z. B. p <.10) und dann darüber schrieben, als hätten sie eine Signifikanz auf einer strengeren und akzeptableren Ebene erreicht Eine gut etablierte Analysestrategie nehmen und sie so präsentieren, als hätte noch niemand daran gedacht, sie zu verwenden. Vielleicht qualifiziert sich dies als Plagiat bis zum n-ten Grad.


Vielleicht erfindet es das Rad neu, anstatt es zu plagiieren?
Gerrit

7

Ich empfehle die folgenden zwei Artikel:

Martin Bland:
Wie man den statistischen Schiedsrichter verärgert
Dies basiert auf einer Reihe von Gesprächen, die Martin Bland zusammen mit Daten von anderen statistischen Schiedsrichtern gehalten hat („eine Convenience-Stichprobe mit einer geringen Rücklaufquote“). Es endet mit einer 11-Punkte-Liste mit "Wie kann ich den statistischen Schiedsrichter stören?".

Stian Lydersen:
Statistischer Überblick: Häufig gestellte Kommentare In
diesem kürzlich erschienenen Artikel (veröffentlicht 2014/2015) sind die 14 häufigsten Kommentare des Autors aufgeführt. 200 statistische Überprüfungen von wissenschaftlichen Artikeln (in einer bestimmten Zeitschrift). Jeder Kommentar enthält eine kurze Erläuterung des Problems und Anweisungen zur ordnungsgemäßen Durchführung der Analyse / Berichterstellung. Die Liste der zitierten Referenzen ist eine Fundgrube interessanter Arbeiten.


Die Liste von Lydersen ist interessant. Ich glaube, ich bin nicht einverstanden mit einer Handvoll von ihnen. . .
StatsStudent

6

Am meisten (und am häufigsten) ärgert mich die "Validierung", die auf Verallgemeinerungsfehler von Vorhersagemodellen abzielt, bei denen die Testdaten nicht unabhängig sind (z. B. typischerweise mehrere Messungen pro Patient in den Daten, Messungen außerhalb des Bootstraps oder keine Aufteilung der Kreuzvalidierung) Patienten ).

Noch ärgerlicher sind Arbeiten, die solche fehlerhaften Kreuzvalidierungsergebnisse liefern, sowie ein unabhängiges Testset, das die überoptimistische Tendenz der Kreuzvalidierung zeigt, aber nicht ein einziges Wort darüber, dass das Design der Kreuzvalidierung falsch ist ...

(Ich würde mich sehr freuen, wenn die gleichen Daten vorliegen würden. "Wir wissen, dass die Kreuzvalidierung Patienten aufteilen sollte, aber wir stecken in einer Software, die dies nicht zulässt. Deshalb haben wir zusätzlich eine wirklich unabhängige Gruppe von Testpatienten getestet ")

(Mir ist auch bewusst, dass Bootstrapping = Resampling mit Ersetzung in der Regel besser ist als Kreuzvalidierung = Resampling ohne Ersetzung. Wir haben jedoch für spektroskopische Daten (simulierte Spektren und leicht künstliche Modelleinstellungen, aber reale Spektren) festgestellt, dass die Kreuzvalidierung wiederholt / iteriert wurde und nicht -of-bootstrap hatte eine ähnliche allgemeine Unsicherheit, oob hatte mehr Voreingenommenheit, aber weniger Varianz - zum Umrechnen betrachte ich dies aus einer sehr pragmatischen Perspektive: Die wiederholte Kreuzvalidierung im Vergleich zu Out-of-Bootstrap spielt keine Rolle, solange es nicht so viele Papiere gibt aufgrund der begrenzten Stichprobengröße weder patientenseitig aufgeteilt noch zufällige Unsicherheiten melden / diskutieren / erwähnen.)

Abgesehen davon, dass dies falsch ist, hat dies auch den Nebeneffekt, dass Menschen, die eine ordnungsgemäße Validierung durchführen, häufig verteidigen müssen, warum ihre Ergebnisse so viel schlechter sind als all diese anderen Ergebnisse in der Literatur.


1
Ich bin mir nicht sicher, ob Sie das sagen wollten, aber der "Optimismus" -Bootstrap ist eine der besten Möglichkeiten, ein Modell zu validieren, und seine Trainings- und Testbeispiele überlappen sich.
Frank Harrell

1
@Frank Harrell - Ich bin nicht sicher, ob ich deinen Standpunkt verstehe. Vielleicht liegt die Schwierigkeit darin, dass es bei der Validierung eines Vorhersagemodells in der Chemometrie immer um die Leistung für neue, unbekannte, zukünftige Fälle geht (im Beispiel: Diagnose neuer Patienten). Ich verwende die ganze Zeit Out-of-Bootstrap oder wiederholte / wiederholte Kreuzvalidierung. Können Sie erklären, welchen Vorteil die Überlappung von Test- und Zugsätzen gegenüber der Aufteilung auf Patientenebene hat? (Ich gehe davon aus, dass "Überlappung" die Aufteilung von Messungen bedeutet, sodass Test- und Trainingsmessungen demselben Patienten gehören können und immer über ein Interpatientenmodell gesprochen wird )?
Glaube

... und ja, einige Punkte der Modellvalidierung können beantwortet werden, ohne die Daten in verschiedene Test- und Trainingsfälle aufzuteilen (z. B. Modellstabilität in Bezug auf die Koeffizienten). Aber schon Modellstabilität wrt. Zu den Vorhersagen sollten unbekannte Patienten herangezogen werden (unbekannt: nie im Prozess der Erstellung des Modells erschienen, einschließlich einer datengesteuerten Vorverarbeitung, die alle Fälle berücksichtigt). Für eine traditionelle Quantifizierung in der Chemometrie umfasst die Validierung tatsächlich Schritte, die weitere unabhängig gemessene Testdaten
erfordern

Nach bewährter Praxis muss ein unbekannter Bediener des Instruments und ein wichtiges Merkmal der Analysemethode während der Validierung ermittelt werden: Wie oft muss die Kalibrierung wiederholt werden (oder ob die Drift des Instruments über einen bestimmten Zeitraum vernachlässigbar ist) - einige Autoren sprechen sogar von einem "Resampling-Missbrauch", der dazu führt, dass solche unabhängigen Testsätze vernachlässigt werden .
Glaube

1
Wenn die Ausrüstung oder Messtechnik validiert werden muss, ist eine unabhängige Probe erforderlich. Ein häufiger Fehler ist jedoch die Verwendung der Datenaufteilung, um eine unabhängige Validierung zu simulieren. Dies ist noch eine interne Validierung. Um die obige @ cbeleites-Frage zu beantworten, führen die mit dem Bootstrapping verbundenen überlappenden Beispiele zu genaueren Schätzungen der zukünftigen Modellleistung als die Datenaufteilung in den meisten Datasets, die man wahrscheinlich sieht. Ich habe Datenaufteilung mit n = 17.000 und 0,30 Ereignisrate schlecht durchführen lassen.
Frank Harrell

4

Verwenden von "Daten" im Singularsinn. Daten sind, sind sie nie.


2
Wahrscheinlich ein französischer Statistiker;)
Stéphane Laurent

9
Ich muss zugeben, dass ich vor kurzem die Mehrfachnutzung von Daten aufgegeben habe, nachdem ich mich etwa 10 Jahre daran festgehalten hatte. Ich schreibe im Allgemeinen für nicht-technisches Publikum und hatte Angst, dass ich pompös rüberkomme. Die APA scheint immer noch streng im Plural zu sein, aber interessanterweise scheint die Royal Statistical Society keine bestimmte Ansicht zu haben. Hier gibt es eine interessante Diskussion: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley

1
Ich spreche kein Englisch, aber das Problem bei Arbeiten wie "Daten" oder "Medien" im Singular ist, dass Englisch viele andere lateinische Wörter entlehnt hat und Sie alle lateinischen Wörter konsistent verwenden müssen. Was kommt als nächstes? "Curricula is" oder "Curriculum are"? "Medium sind"? Wenn "data" lateinisch ist, ist es pluralisch. Ende der Diskussion. Egal wie viele Leute es jetzt ignorieren wollen.
Fran

Vielleicht missbrauche ich es, aber ich wechsle je nach Kontext zwischen Singular und Plurar.
StatsStudent

Die Verwendung des Wortes "Datum" ist gering und nur unter bestimmten Umständen möglich. Ich betrachte das Wort "Daten" als etwas, das dem Wort "Rudel" in Bezug auf "Wölfe" entspricht. Es ist durchaus akzeptabel, das Wort "Rudel" im Singular zu verwenden, um mehrere Wölfe zu beschreiben. Das Wort 'Daten' wird allmählich zu einem eigenen Sammelbegriff ...
Robert de Graaf

3

Für mich ist es bei weitem so, eine Ursache ohne eine angemessene Kausalanalyse zuzuschreiben oder wenn es einen falschen Kausalzusammenhang gibt.

Ich hasse es auch, wenn Null darauf geachtet wird, wie mit fehlenden Daten umgegangen wird. Ich sehe auch so viele Artikel, in denen die Autoren einfach eine vollständige Fallanalyse durchführen und nicht erwähnen, ob die Ergebnisse für die Bevölkerung mit fehlenden Werten verallgemeinerbar sind oder nicht oder wie sich die Bevölkerung mit fehlenden Werten systematisch von der Bevölkerung mit vollständigen Daten unterscheiden könnte.


3

Verwenden Sie Microsoft Word anstelle von LaTeX.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.