Unterschied zwischen Regressionsanalyse und Kurvenanpassung

Kann mir bitte jemand den tatsächlichen Unterschied zwischen Regressionsanalyse und Kurvenanpassung (linear und nichtlinear) erklären, wenn möglich anhand eines Beispiels?

Es scheint, dass beide versuchen, eine Beziehung zwischen zwei Variablen (abhängig und unabhängig) zu finden und dann den Parameter (oder Koeffizienten) zu bestimmen, der den vorgeschlagenen Modellen zugeordnet ist. Zum Beispiel, wenn ich einen Datensatz habe wie:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Kann jemand eine Korrelationsformel zwischen diesen beiden Variablen vorschlagen? Ich habe Schwierigkeiten, den Unterschied zwischen diesen beiden Ansätzen zu verstehen. Wenn Sie es vorziehen, Ihre Antwort mit anderen Datensätzen zu unterstützen, ist dies in Ordnung, da dieser schwer zu passen scheint (vielleicht nur für mich).

Der obige Datensatz stellt die und Achse einer Empfängerkennlinie (ROC) dar, wobei die wahre positive Rate (TPR) und die falsche positive Rate (FPR) ist. $x$ $y$ $y$ $x$

Ich versuche, eine Kurve anzupassen oder eine Regressionsanalyse gemäß meiner ursprünglichen Frage durchzuführen, wobei ich noch nicht sicher bin, ob ich den TPR für einen bestimmten FPR schätzen soll (oder umgekehrt).

Ist es wissenschaftlich akzeptabel, eine solche Kurvenanpassungsfunktion zwischen zwei unabhängigen Variablen (TPR und FPR) zu finden?

Zweitens, ist es wissenschaftlich akzeptabel, eine solche Funktion zu finden, wenn ich weiß, dass die Verteilungen der tatsächlichen negativen und der tatsächlichen positiven Fälle nicht normal sind?

— Ali Sultan
quelle

Begriffe werden (leider) von unterschiedlichen Personen und in unterschiedlichen Zusammenhängen unterschiedlich verwendet. Können Sie ein Beispiel verlinken, bei dem Menschen zwischen ihnen unterscheiden?

— gung - Reinstate Monica

Das ist es, was ich herauszufinden versuche, wie sie sich unterscheiden und wie ich sie unterscheiden kann.

— Ali Sultan

Fair genug, aber hat dir jemand gesagt, dass sie anders sein sollten?

— gung - Reinstate Monica

Auf dieser Seite haben einige Leute "Kurvenanpassung" in Sinnen verwendet, die nicht als Regression betrachtet werden können. Zum Beispiel betrachten einige von ihnen das Schätzen einer Dichte als eine Form der "Kurvenanpassung" an ein Histogramm.

— whuber

Antworten:

Ich bezweifle, dass es eine klare und konsistente Unterscheidung zwischen statistisch denkenden Wissenschaften und Gebieten zwischen Regression und Kurvenanpassung gibt .

Eine Regression ohne Qualifikation impliziert eine lineare Regression und eine Schätzung der kleinsten Quadrate. Das schließt andere oder umfassendere Sinne nicht aus: Wenn Sie Logit, Poisson, negative binomische Regression usw. zulassen, wird es schwieriger zu erkennen, was Modellierung in gewissem Sinne nicht Regression ist.

Die Kurvenanpassung schlägt im wahrsten Sinne des Wortes eine Kurve vor, die in einer Ebene oder zumindest in einem Raum mit geringen Abmessungen gezeichnet werden kann. Die Regression ist nicht so begrenzt und kann Oberflächen in einem mehrdimensionalen Raum vorhersagen.

Die Kurvenanpassung kann lineare Regression und / oder kleinste Quadrate verwenden oder nicht. Dies kann sich auf die Anpassung eines Polynoms (Potenzreihe) oder eines Satzes von Sinus- und Cosinus-Termen beziehen oder auf eine andere Art und Weise als lineare Regression im Sinne einer linearen Anpassung einer funktionalen Form in die Parameter qualifizieren. In der Tat Kurvenanpassung, wenn nichtlineare Regression auch Regression ist.

Der Begriff Kurvenanpassung kann in einem abfälligen, abfälligen, abwertenden oder abweisenden Sinne verwendet werden ("das ist nur Kurvenanpassung!") Oder (fast das Gegenteil) bezieht sich auf die Anpassung einer bestimmten Kurve, die sorgfältig mit bestimmten physikalischen (biologischen, wirtschaftlich, was auch immer) begründet oder auf bestimmte Arten von anfänglichem oder einschränkendem Verhalten zugeschnitten (z. B. immer positiv, in eine oder beide Richtungen begrenzt, monoton, mit einer Beugung, mit einem einzigen Wendepunkt, oszillierend usw.).

Eines von mehreren unscharfen Problemen ist, dass dieselbe funktionale Form unter bestimmten Umständen bestenfalls empirisch und unter anderen Umständen eine hervorragende Theorie sein kann. Newton lehrte, dass Flugbahnen von Projektilen parabolisch sein können und daher auf natürliche Weise durch Quadratics angepasst werden können, wohingegen eine quadratische Anpassung an die Altersabhängigkeit in den Sozialwissenschaften oft nur ein Unsinn ist, der mit einer Krümmung in den Daten übereinstimmt. Der exponentielle Zerfall ist eine wirklich gute Näherung für radioaktive Isotope und eine manchmal nicht allzu verrückte Vermutung, wie die Landwerte mit der Entfernung von einem Zentrum sinken.

Ihr Beispiel bekommt keine expliziten Vermutungen von mir. Hier geht es vor allem darum, dass es bei einem sehr kleinen Datensatz und genau keinen Informationen darüber, was die Variablen sind oder wie sie sich voraussichtlich verhalten, unverantwortlich oder dumm sein kann, eine Modellform vorzuschlagen. Vielleicht sollten die Daten von (0, 0) stark ansteigen und sich dann (1, 1) nähern, oder vielleicht etwas anderes. Du erzählst uns!

Hinweis. Weder die Regression noch die Kurvenanpassung sind auf einzelne Prädiktoren oder einzelne Parameter (Koeffizienten) beschränkt.

— Nick Cox
quelle

"Kurvenanpassung" bedeutet für mich etwas a-theoretisches (z. B. Niedriges). Wirtschaftswissenschaftler verspotten manchmal eine theoretische Funktionsanpassung als "Diagramm", was einigen Verwendungen der Kurvenanpassung ähnelt. Ich denke, dass es (z. B. Niedrige) sowohl Vor- als auch Nachteile hat, wenn es richtig verstanden wird. Es ist jedoch schwer zu wissen, wie jemand die Begriffe eindeutig ohne mehr Kontext meinte.

— gung - Reinstate Monica

@gung Ich denke, es gibt einen ähnlichen teils scherzhaften, teils ernsten Gebrauch in mehreren Naturwissenschaften (und unnatürlichen Wissenschaften). Eines der Probleme ist, dass Sie bei genügend Parametern zwangsläufig viel Spielraum haben. Ich erinnere mich an Zeitreihenmodelle, die nicht nur ARIMA, sondern auch sinusförmige Terme und Schritte, Rampen und Spitzen zulassen, wo immer die Daten dies nahelegen.

— Nick Cox

Als zweites @gung hat die Kurvenanpassung zumindest für mich eine nichtparametrischere Konnotation.

— Christoph Hanck

@ChristophHanck Bitte nicht "nichtparametrisch" einbringen! Die Diskussion ist schon matschig genug!

— Nick Cox

@gung: Wenn ich die Glättung von Splines und RKHS-Methoden im Allgemeinen als das Rückgrat der "Kurvenanpassung" betrachte, empfinde ich "Kurvenanpassung" als viel theoretischer als "Regression". (+1 an NickCox für diese Antwort)

— usεr11852 sagt Reinstate Monic

Zusätzlich zu der hervorragenden Antwort von @ NickCox (+1) wollte ich meinen subjektiven Eindruck zu diesem etwas unscharfen Terminologiethema teilen . Ich denke, dass ein eher subtiler Unterschied zwischen den beiden Begriffen im Folgenden liegt. Einerseits impliziert die Regression oft, wenn nicht immer, eine analytische Lösung (die Bezugnahme auf Regressoren impliziert die Bestimmung ihrer Parameter , daher meine Argumentation zur analytischen Lösung). Auf der anderen Seite impliziert die Kurvenanpassung nicht unbedingt die Erstellung einer analytischen Lösung, und IMHO wird möglicherweise häufig als explorativer Ansatz verwendet .

— Aleksandr Blekh
quelle

Kann etwas mit einer analytischen Lösung nicht auch aus Forschungsgründen verwendet werden? Ich glaube nicht, dass ich die Opposition bekomme, die Sie machen.

— Amöbe sagt Reinstate Monica

@amoeba: Analytische Lösungen können sicherlich auch für die explorative Forschung verwendet werden. Der Punkt, den ich anspreche, bezieht sich jedoch auf das populärste implizite Wesen der fraglichen Begriffe.

— Aleksandr Blekh