Ich habe eine praktische Frage zum Feature Engineering ... Ich möchte die Immobilienpreise mithilfe der logistischen Regression vorhersagen und habe eine Reihe von Funktionen einschließlich der Postleitzahl verwendet. Wenn ich dann die Wichtigkeit der Funktionen überprüfe, stelle ich fest, dass Zip eine ziemlich gute Funktion ist. Deshalb habe ich beschlossen, einige weitere Funktionen basierend auf Zip hinzuzufügen. Ich gehe zum Beispiel zum Volkszählungsbüro und erhalte das Durchschnittseinkommen, die Bevölkerung, die Anzahl der Schulen und die Anzahl von Krankenhäusern jeder Postleitzahl. Mit diesen vier neuen Funktionen finde ich die Modellleistungen jetzt besser. Also füge ich noch mehr Zip-bezogene Funktionen hinzu ... Und dieser Zyklus geht weiter und weiter. Irgendwann wird das Modell von diesen Zip-bezogenen Funktionen dominiert, oder?
Meine Fragen:
- Ist es überhaupt sinnvoll, dies zu tun?
- Wenn ja, woher weiß ich, wann ein guter Zeitpunkt ist, um diesen Zyklus zu stoppen?
- Wenn nicht, warum nicht?