Unterschied zwischen linearem Modell und linearer Regression


8

Ich interessiere mich für den Unterschied zwischen einer linearen Regression und einem linearen Modell. Nach meinem Verständnis gehört die lineare Regression zu einer größeren Familie linearer Modelle, aber beide Begriffe werden häufig als Synonyme verwendet. Nun wurde mir vorgeschlagen, eine Regressionsanalyse durch ein lineares Modell zu ersetzen, um die Annahmen zu umgehen, die bei der Durchführung einer linearen Regression erfüllt werden müssen. Wenn Sie Lesevorschläge zum Thema haben, sind diese sehr willkommen.

Ich möchte, dass Sie mir helfen, herauszufinden, ob ich was tue

  • ist eine lineare Regression und sollte so behandelt werden
  • könnte durch ein "lineares Modell" ersetzt werden
  • Meine Methode ist ein Synonym für ein "lineares Modell".

Also, hier ist was ich kurz gemacht habe. Der Zweck der Analyse bestand darin, eine Linie in einem Streudiagramm zu zeichnen. Sowohl die Steigung als auch der Schnittpunkt der Linie mit der x-Achse würden zur Analyse des Datensatzes verwendet. Die Ergebnisvariable war eine Rate (Konzentration pro Zeit) eines chemischen Elements und der Prädiktor war ein Verhältnis von zwei Konzentrationen (also keine Einheit). Ich habe Raten in verschiedenen Umgebungen (Tiefen) gemessen, die in einem Diagramm verglichen werden müssen. Nur eine der Tiefen entspricht nicht den Regressionsannahmen.

  1. Ich habe die lm-Funktion in R verwendet, um eine lineare Gleichung zu berechnen.
  2. Ich habe die Residuen des lm-Objekts überprüft.
  3. Ich fand heraus, dass Residuen weder normal verteilt waren noch gleiche Varianzen hatten.
  4. Ich nahm an, dass die logarithmische Transformation der Ergebnisvariable (Rate) die Varianz korrigieren würde, aber die Residuen waren immer noch nicht normal verteilt.
  5. Ich habe mich für eine robuste Methode entschieden, damit die Gleichung weniger von Ausreißern beeinflusst wird, die ich nicht von der Analyse ausschließen kann (Funktion lmrob, Paket robustbase).
  6. Ich habe die Linie wegen der Protokolltransformation nicht gezeichnet. Es gibt andere Daten im Diagramm, die nicht protokolltransformiert werden müssen, aber mit dem Datensatz vergleichbar bleiben sollten, der Probleme verursacht. Es ist auch nicht möglich, das Diagramm mit einem logarithmischen Maßstab um ein anderes zu erweitern, da das ursprüngliche Diagramm Teil eines bereits recht umfangreichen Mehrfachplotdesigns ist.

Vielleicht sind für meinen Zweck die Regressionsannahmen nicht von Interesse? Im Moment bin ich ziemlich festgefahren, was zu tun ist. Vielen Dank für Ihre Hilfe!


2
Eine verwandte Frage hier .
Richard Hardy

Könnten Sie etwas mehr über Ihr Problem sagen: die Art der Daten (insbesondere sind sie notwendigerweise positiv); ob die Protokolltransformation für Prädiktoren oder die Ergebnisvariable durchgeführt wurde; warum Sie "die Linie wegen der Protokolltransformation nicht zeichnen konnten".
EdM

@ Richard Hardy: Danke für den Kommentar, aber ich bin mir immer noch nicht sicher, was ich in meinem Fall tun soll.
Syrafina

@EdM: Ich habe versucht, etwas genauer zu sein und meine Frage bearbeitet. Ich habe nicht zu viele Details hinzugefügt, weil ich denke, dass mein Problem eher ein allgemeines ist. Hoffentlich ist die Bearbeitung eine Hilfe für Kommentare zu der Frage.
Syrafina

@ Syrafina, ich kenne die Antwort auf deine Frage nicht; Mein Kommentar zeigte nur auf einen etwas verwandten Thread, das war's.
Richard Hardy

Antworten:


2

Der einfachste Weg, um Ihr unmittelbares Problem zu lösen, wobei die meisten Ihrer Daten mit Ausnahme von Daten aus einer Tiefe gut zur einfachen linearen Regression passen, besteht darin, das Problem des Modells selbst von dem der Anzeige der Modellergebnisse zu trennen. Für die eine Tiefe, die eine Transformation von Variablen erfordert, transformieren Sie die Regressionsanpassung vor dem Plotten in die ursprüngliche Skala zurück. Für diese eine Tiefe haben Sie eher eine Kurve als die geraden Linien, die die anderen Tiefen charakterisieren, aber Sie sollten immer noch einen nützlichen x-Achsenabschnitt haben, und die Steigung der Kurve in der Nähe dieses Achsenabschnitts ist ein Ausgangspunkt für Vergleiche von Steigungen zwischen Tiefen.

Sie sollten sich jedoch überlegen, warum diese bestimmte Tiefe so unterschiedliche Eigenschaften zu haben scheint als die anderen Tiefen. Handelt es sich um ein Extrem von Tiefenwerten, möglicherweise jenseits einer Grenze (in Bezug auf Temperatur, Mischen usw.) gegenüber den anderen Tiefen? Oder könnte es nur sein, dass die Messungen in dieser bestimmten Tiefe einige systematische Fehler aufwiesen. In diesem Fall sollten Sie sie überhaupt nicht berücksichtigen? Solche wissenschaftlichen und technischen Fragen sind viel wichtiger als die Einzelheiten der statistischen Ansätze.

Für die allgemeineren Fragen, die in Ihrer Frage aufgeworfen werden, werden die Annahmen, die linearen Modellen zugrunde liegen, auf dieser Site ausführlich erörtert, beispielsweise hier . Die Linearität des Ergebnisses in Bezug auf die Prädiktorvariablen ist wichtig, aber andere Annahmen wie Normalverteilungen von Fehlern beeinflussen hauptsächlich die Fähigkeit, p- Werte zu interpretieren . Wenn es eine Linearität in Bezug auf Prädiktorvariablen gibt, liefert die Regression immer noch eine nützliche Schätzung der zugrunde liegenden Beziehung. Verallgemeinerte lineare Modelle bieten eine Möglichkeit, mit Fehlern umzugehen, die eine Funktion des vorhergesagten Werts sind, wie Sie es für diese eine beunruhigende Tiefe zu haben scheinen.

Beachten Sie, dass Ihr experimenteller Entwurf, wenn es sich um eine Beobachtungsstudie handelt, die auf Konzentrationen von Chemikalien basiert, die in verschiedenen Tiefen gemessen wurden, bereits gegen eine der Annahmen der linearen Standardregression verstößt, da vermutlich Fehler in den Werten der Prädiktorvariablen vorliegen. Was Sie in diesem Fall wirklich haben, ist ein Fehler-in-Variablen- Modell. In der Praxis wird diese Unterscheidung oft übersehen, aber Ihre Regressionsmodelle (und die der meisten Wissenschaftler, die sich eher mit Beobachtungs- als mit kontrollierten Studien befassen) verstoßen bereits gegen strenge lineare Regressionsannahmen.

Schließlich, obwohl ich zu schätzen wissen , dass Sie bereits viel Datenanalyse gemacht haben, überlegen , ob Sie wirklich Konzentration verwenden sollten Verhältnisseals Prädiktorvariablen. Verhältnisse sind notorisch problematisch, insbesondere wenn ein Nenner nahe bei 0 liegen kann. Fast alles, was mit Verhältnissen als Prädiktoren erreicht werden kann, kann mit logarithmischen Transformationen der Zähler- und Nennervariablen durchgeführt werden. Soweit ich Ihre Situation verstehe, haben Sie eine einzige Ergebnisvariable (Produktionsrate einiger Chemikalien) und mehrere gemessene Konzentrationen anderer Chemikalien. Sie haben dann verschiedene Verhältnisse dieser anderen Chemikalien als Prädiktoren für die Ergebnisvariable untersucht. Wenn Sie stattdessen ein kombiniertes Regressionsmodell erstellt haben, das die logarithmischen Konzentrationen aller anderen Chemikalien als Prädiktoren für das Ergebnis verwendet, erhalten Sie möglicherweise ein nützlicheres Modell, das unerwartete Wechselwirkungen zwischen den Chemikalien zeigt und dennoch in Begriffen interpretiert werden kann von Verhältnissen, wenn Sie wünschen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.