Ich kann diese Grafik nicht interpretieren. Meine abhängige Variable ist die Gesamtzahl der Kinokarten, die für eine Show verkauft werden. Die unabhängigen Variablen sind die Anzahl der Tage vor der Show, Dummy-Variablen für die Saisonalität (Wochentag, Monat des Jahres, Feiertag), Preis, bis zum Datum verkaufte Tickets, Filmbewertung, Filmtyp (Thriller, Komödie usw. als Dummy) ). Bitte beachten Sie auch, dass die Kapazität der Filmhalle festgelegt ist. Das heißt, es kann maximal x Personen aufnehmen. Ich erstelle eine lineare Regressionslösung, die nicht zu meinen Testdaten passt. Also dachte ich daran, mit der Regressionsdiagnostik zu beginnen. Die Daten stammen aus einer einzelnen Filmhalle, für die ich die Nachfrage vorhersagen möchte.
Das ist ein multivariater Datensatz. Für jedes Datum gibt es 90 doppelte Zeilen, die Tage vor der Show darstellen. Für den 1. Januar 2016 gibt es also 90 Datensätze. Es gibt eine Variable 'lead_time', die mir die Anzahl der Tage vor der Show angibt. Wenn also für den 1. Januar 2016 "lead_time" den Wert 5 hat, bedeutet dies, dass die Tickets bis 5 Tage vor dem Ausstellungsdatum verkauft werden. In der abhängigen Variablen "Gesamtzahl der verkauften Tickets" habe ich 90-mal den gleichen Wert.
Gibt es als Nebenbemerkung ein Buch, in dem erklärt wird, wie die Restdarstellung interpretiert und das Modell anschließend verbessert wird?