Ich meine, einige dieser Variablen sind stark miteinander korreliert. Wie / warum / in welchem Kontext definieren wir sie als unabhängige Variablen?
Ich meine, einige dieser Variablen sind stark miteinander korreliert. Wie / warum / in welchem Kontext definieren wir sie als unabhängige Variablen?
Antworten:
Wenn wir uns von der heutigen Betonung des maschinellen Lernens zurückziehen und uns daran erinnern, wie viel statistische Analyse für kontrollierte experimentelle Studien entwickelt wurde, ist der Ausdruck "unabhängige Variablen" durchaus sinnvoll.
In kontrollierten experimentellen Studien werden die Auswahl eines Arzneimittels und seiner Konzentrationen oder die Auswahl eines Düngemittels und seiner Mengen pro Morgen vom Prüfer unabhängig getroffen . Das Interesse besteht darin, wie eine interessierende Antwortvariable (z. B. Blutdruck, Ernteertrag) von diesen experimentellen Manipulationen abhängt . Idealerweise sind die Eigenschaften der unabhängigen Variablen eng spezifiziert, ohne dass im Wesentlichen Fehler bei der Kenntnis ihrer Werte auftreten. Die standardmäßige lineare Regression modelliert beispielsweise die Unterschiede zwischen den Werten abhängiger Variablen in Bezug auf die Werte der unabhängigen Variablen zuzüglich der Restfehler.
Der gleiche mathematische Formalismus, der für die Regression im Rahmen kontrollierter experimenteller Studien verwendet wird, kann auch auf die Analyse beobachteter Datensätze ohne oder mit nur geringen experimentellen Manipulationen angewendet werden Studien. Aber, wie andere auf dieser Seite bemerken, ist dies wahrscheinlich eine unglückliche Entscheidung, da "Prädiktoren" oder "Funktionen" in solchen Zusammenhängen besser geeignet sind.
In vielerlei Hinsicht ist "unabhängige Variable" eine unglückliche Wahl. Die Variablen müssen nicht unabhängig voneinander sein und müssen natürlich nicht unabhängig von der abhängigen Variablen . Im Unterricht und in meinem Buch Regressionsmodellierungsstrategien verwende ich das Wort Prädiktor . In manchen Situationen ist dieses Wort nicht stark genug, aber es funktioniert im Durchschnitt gut. Eine vollständige Beschreibung der Rolle der Variablen (auf der rechten Seite) in einem statistischen Modell ist möglicherweise zu lang, um sie jedes Mal zu verwenden: die Menge von Variablen oder Messungen, von denen die Verteilung von abhängig ist. Dies ist eine andere Art, die Menge der Variablen zu beschreiben, deren Verteilungen uns derzeit nicht interessieren, deren Werte wir aber als Konstanten behandeln.
Ich stimme den anderen Antworten hier zu, dass "unabhängig" und "abhängig" eine schlechte Terminologie ist. Wie EdM erklärt, entstand diese Terminologie im Kontext kontrollierter Experimente, bei denen der Forscher die Regressoren unabhängig voneinander einstellen konnte. Es gibt viele bevorzugte Begriffe, die diese belastende kausale Konnotation nicht haben, und meiner Erfahrung nach bevorzugen Statistiker eher die neutraleren Begriffe. Es gibt viele andere Begriffe, die hier verwendet werden, einschließlich der folgenden:
Personally, I use the terms explanatory variables, and response variable, since those terms have no connotation of statistical independence or control, etc. (One might argue that 'response' has a causal connotation, but this is a fairly weak connotation, so I have not found it problematic.)
To add to Frank Harrell's and Peter Flom's answers:
I agree that calling a variable "independent" or "dependent" is often misleading. But some people still do that. I once heard an answer why:
In regression analysis we have one "special" variable (usually denoted by ) and many "not-so-special" variables ('s) and we want to see how changes in 's affect . In other words, we want to see how depends on 's.
That is why is called "dependent". And if one is called "dependent" how would you call another one?
"Dependent" and "independent" can be confusing terms. One sense is pseudo-causal or even causal and this is the one that is meant when saying "independent variable" and "dependent variable". We mean that the DV, in some sense, depends on the IV. So, for example, when modeling the relationship of height and weight in adult humans, we say weight is the DV and height is the IV.
This does capture something that "predictor" does not - namely, the direction of the relationship. Height predicts weight, but weight also predicts height. That is, if you were told to guess the height of people and were told their weights, that would be useful.
But we wouldn't say that height depends on weight.
Based on the above answers, yes , i agree that this dependent and independent variable are weak terminology. But I can explain the context in which it is being used by many of us. You say that for a general regression problem we have a Output variable, say Y, whose value depends on other input variables, say x1, x2, x3. That is why it is called a "Dependent Variable". And similarly depending upon this context only, and just to differentiate between Output and Input Variable, x1, x2, x3 are termed as independent variable. Because unlike Y it does not depend on any other variable(But yes here we are not talking about there dependency with themselves.)
Independent variables are called independent because they do not depend on other variables. For example, consider the house price prediction problem. Assume we have data on house_size, location, and house_price. Here, house_price is determined based on the house_size and location but the location and house_size can vary for different houses.