Ich möchte das Preissetzungsverhalten von Fluggesellschaften untersuchen - insbesondere, wie Fluggesellschaften auf die Preise der Wettbewerber reagieren.
Da ich sagen würde, dass mein Wissen über komplexere Analysen sehr begrenzt ist, habe ich fast alle grundlegenden Methoden angewendet, um eine Gesamtansicht der Daten zu erhalten. Dies schließt einfache Diagramme ein, die bereits helfen, ähnliche Muster zu identifizieren. Ich verwende auch SAS Enterprise 9.4.
Ich suche jedoch einen mehr auf Zahlen basierenden Ansatz.
Datensatz
Der von mir verwendete (selbst) gesammelte Datensatz enthält ca. 54.000 Tarife. Alle Tarife wurden täglich (jede Nacht um 00:00 Uhr) innerhalb eines Zeitfensters von 60 Tagen abgeholt.
Jeder Flugpreis innerhalb dieses Zeitfensters wird also mal je nach Verfügbarkeit des Flugpreises und Abflugdatum des Fluges verrechnet, wenn das Abholdatum des Flugpreises verstrichen ist. (Sie können keinen Flugpreis für einen Flug abholen, wenn das Abflugdatum des Fluges in der Vergangenheit liegt.)
Das unformatierte sieht im Grunde so aus: (gefälschte Daten)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" wird über where berechnet
- Ich & Intervall (Tage vor Abreise)
- s & Datum des Flugpreises (Abflug)
- Datum, an dem der Fahrpreis abgeholt wurde
Hier ist ein Beispiel eines gruppierten Datensatzes von I (DaysBeforeDep.) (Gefälschte Daten!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Was mir bisher eingefallen ist
Anhand der Liniendiagramme kann ich bereits abschätzen, dass mehrere Linien einen hohen Korrelationsfaktor haben werden. Daher habe ich versucht, die Korrelationsanalyse zuerst für die gruppierten Daten zu verwenden. Aber ist das der richtige Weg? Grundsätzlich versuche ich jetzt eher Korrelationen zu den Durchschnitten als zu den Einzelpreisen herzustellen? Gibt es eine andere Art und Weise?
Ich bin mir nicht sicher, welches Regressionsmodell hier passt, da sich die Preise in keiner linearen Form bewegen und nicht linear erscheinen. Würde ich ein Modell für jede Preisentwicklung einer Fluggesellschaft brauchen?
PS: Dies ist eine lange Textwand. Wenn ich etwas klären muss, lass es mich wissen. Ich bin neu in diesem U-Boot.
Hat jemand eine Ahnung? :-)