Diese Frage ist eher theoretisch. Ich bin mir nicht sicher, ob dies der richtige Ort ist, versuche es aber trotzdem.
Ich habe zwei Variablen - direkte Kosten und indirekte Kosten. Wenn Verkäufer ein Verkaufsgespräch mit einem Kunden führen, wissen sie über die direkten Kosten Bescheid, die ihnen für diesen Service entstehen, aber sie wissen nicht viel über die indirekten Kosten (sie werden in späteren Phasen davon erfahren). Eine Schätzung der indirekten Kosten in dieser Phase ist für Verkäufer wertvoll.
Ich versuche, indirekte Kosten als Funktion der direkten Kosten vorherzusagen. Ich mache das über eine einfache lineare Regression. Ich habe ein Streudiagramm zwischen direkten und indirekten Kosten aufgezeichnet und sehe eine gute lineare Beziehung zwischen ihnen. Ich sehe auch, dass direkte und indirekte Kosten mit einem Korrelationskoeffizienten von 0,98 stark miteinander korrelieren, daher habe ich eine sehr gute Vorhersagegenauigkeit erwartet. Aber überraschenderweise ist meine Vorhersagegenauigkeit nicht so gut. Ich habe ungefähr 200.000 Punkte in meinen Trainingsdaten und der durchschnittliche Vorhersagefehler bei Trainingsdaten beträgt 17%. Der angepasste R-Quadrat-Wert beträgt jedoch 0,97. Ich benutze die lm()Funktion von R.
Meine Frage ist, ob wir im Falle einer einfachen linearen Regression im Allgemeinen eine bessere Vorhersagegenauigkeit erwarten sollten, wenn abhängige und unabhängige Variablen stark korrelieren, oder ist es mein Missverständnis? Wenn wir eine gute Genauigkeit erwarten, fehlt mir hier etwas. Bitte beachten Sie, dass ich auch versucht habe, diese Variablen um den Mittelwert zu zentrieren.
predictFunktion oder versuchen Sie, die Koeffizienten manuell zu verwenden? Haben Sie einen Abschnitt in Ihrem Modell? Wenn Sie Ihre Daten nicht veröffentlichen möchten, sollten Sie ein Paar stark korrelierter Variablen simulieren, eine ähnliche Analyse durchführen und prüfen, ob Sie dasselbe Problem finden, wenn Sie genau denselben Prozess ausführen.

