Die Berichterstattung über Kurvenanpassungsergebnisse in einem wissenschaftlichen Artikel

(Ich hoffe, diese Frage passt zu dieser Seite; wenn nicht, akzeptiere meine Entschuldigung).

Ich habe eine bestimmte Simulation ausgeführt und eine Zeitreihe y (t), t = 0, 1, ... 20 erhalten. Nachdem ich einige Funktionen ausprobiert hatte, stellte ich Folgendes fest:

y(t) =~ 1 / (A t + B)

Wobei A und B Koeffizienten sind, die ich unter Verwendung einer linearen Regression mit R ^ 2> 0,99 berechnet habe.

Was ist die Standardmethode, um solche Ergebnisse in einem wissenschaftlichen Artikel zu melden? Speziell:

A. Ich habe keine theoretische Erklärung, warum die Ausgabe so aussieht (ich weiß, dass sie abnehmen sollte und dass sie von unten begrenzt ist, aber nicht viel mehr). Es war nur eine erfolgreiche Vermutung. Sollte ich alle anderen erfolglosen Vermutungen beschreiben, die ich versucht habe?

B. Immer wenn ich die Simulation ausführe, erhalte ich leicht unterschiedliche Werte für A und B. Soll ich nur einen zufälligen Lauf melden oder sollte ich die Simulation viele Male ausführen und die Ergebnisse mitteln? Wenn ja, wie oft ist genug?

regression publications

— Erel Segal-Halevi
quelle

Was möchten Sie vermitteln? Was repräsentiert jede einzelne Simulation?

— Bill Barth

Es ist eine Simulation des Landbesitzes. Es gibt N Bürger und N Grundstücke. Jedes Grundstück wird zunächst einem zufälligen Bürger übergeben. Dann wird jedes Jahr jedes Land mit einer bestimmten Wahrscheinlichkeit p verkauft, und wenn es tatsächlich verkauft wird, wird der Käufer zufällig ausgewählt. Nach 50 Jahren führe ich ein "Jubiläums" -Verfahren durch, bei dem einige Grundstücke an die ursprünglichen Eigentümer zurückgegeben werden, wenn diese Eigentümer derzeit kein Land haben. Ich messe die Anzahl der Bürger ohne Land (y) nach jedem Jubiläum (t). Sicherlich nimmt y (t) nicht zu. Ich möchte zeigen, dass es in einer vorhersehbaren Rate abnimmt und dass es gegen 0 konvergiert.

— Erel Segal-Halevi

A

$A$

B

$B$

x_{n}

$x_n$

n = 0 \dots N

$n=0\dots N$

n

$n$

Bill: Meinst du, ich sollte A und B viele Male berechnen und dann den Mittelwert und den Standard angeben? Ich denke, ein besserer Ansatz besteht darin, eine einzige lineare Regression mit allen Stichproben aus allen Simulationen durchzuführen. Aber wie oft sollte ich die Simulation ausführen?

— Erel Segal-Halevi

Antworten:

Sie versuchen, ein Potenzgesetz an Ihre Verteilung anzupassen. Sehr interessant. Diese tauchen ständig in der Graphentheorie , in sozialen Netzwerken und an vielen anderen Orten auf.

Es gibt einige Tutorials zum Anpassen Ihrer Daten hier und hier .

Wie hängt die Wahrscheinlichkeit, dass eine Person Land kauft, in Bezug auf Frage A davon ab, wie viel Land sie bereits hat? Möglicherweise können Sie das Barbasi-Modell verwenden , um zu erklären, warum ein Potenzgesetz angemessen zu Ihren Daten passt.

Update: Ich habe dies verwendet und es funktioniert hervorragend: https://pypi.python.org/pypi/powerlaw

— dranxo
quelle

+1 für alle Links! Ich habe auch an das Potenzgesetz gedacht, aber seine einfache Form (y = A t ^ k) beinhaltet aufgrund der B-Konstante (y = (A t + B) ^ - 1) nicht die Form, die ich gefunden habe. Gibt es eine allgemeinere Form?

— Erel Segal-Halevi

Wenn Sie die Form der Kurve beschreiben möchten, sollten Sie vor dem Anpassen eines Potenzgesetzes faktorisieren und verschieben. Die Tatsache, dass Sie ein B haben, ist für die Form der Kurve nicht relevant.

— Dranxo

Entschuldigung, ich habe dich nicht verstanden. Was meinst du mit "dann solltest du faktorisieren und verschieben"?

— Erel Segal-Halevi

Setze x = t + B / A. Dann (At + B) ^ {- 1} = (A * x) ^ {- 1}, welches die Form in den Links ist.

— Dranxo

tuvalu.santafe.edu/~aaronc/courses/7000/csci7000-001_2011_L3.pdf

— dranxo

Ein paar Gedanken zu Ihrer Frage:

Wie Sie Ihre Modellanpassung melden, hängt stark von Ihrer Zielgruppe und Ihrem Fachgebiet ab. In meinem Bereich werden beispielsweise Modellanpassungsstatistiken wie R ^ 2 sehr selten gemeldet - weder als beeindruckend noch als besonders nützlich angesehen. Stattdessen werden in der Regel einige Kriterien beschrieben, wie Sie zu dem Modell gekommen sind, zu dem Sie gekommen sind, und dann melden Sie Ihre Modellergebnisse - wir alle gehen davon aus, dass Sie tatsächlich richtig zum Modell passen.
"Ich bin über diese Form hinweg passiert" ist eine schlechte Erklärung. Eine wirklich schlechte. Trotz einer Vorliebe für Geschichten über zufälliges Genie wie die Entdeckung von Penicillin oder Chinin ist "blindes dummes Glück" kein verlässlicher wissenschaftlicher Prozess. Sie haben beispielsweise gezeigt, dass dieses Formular gut zu Ihren Daten passt, aber Sie haben noch nicht gezeigt, dass es am besten zu Ihren Daten passt. R ^ 2 allein ist keine ausreichende Metrik, um zu bewerten, wie gut Ihr Modell zu den Daten passt. Siehe Anscombes Quartett .
Wie @rcompton erwähnt hat, sieht es so aus, als würden Sie versuchen, eine Potenzgesetzverteilung anzupassen, ohne es zu wissen, aber selbst wenn Sie es schaffen, ein Potenzgesetz gut anzupassen, ist es wirklich am besten, wenn Sie einen Grund gefunden haben, warum Sie denken, dass es ein Potenzgesetz ist . Es kann ausreichen, Y im Laufe der Zeit zu zeichnen, zu CrossValidated (oder einem College / einer Abteilung, die mit Statistiken besser vertraut ist) zu wechseln und systematisch Verteilungen zu überprüfen , die Ihnen ungefähr das Aussehen verleihen. Neben der Verteilung des Potenzgesetzes gibt es noch andere, die Ihnen eine überlegene Passform bieten könnten.

— Fomite
quelle

+1 für die Einsichten. "Gehen Sie systematisch Verteilungen durch, die Ihnen ungefähr so aussehen könnten." - Wo finde ich diese?

— Erel Segal-Halevi

@ErelSegalHalevi Sie könnten bei CrossValidated beginnen, dieser Schwesterseite dieser Site, die Statistiken und Datenanalysen betrifft.

— Fomite