Hey Willkommen auf der Seite!
Was Sie sagen, ist richtig, Data Science erreicht nicht das Stadium, in dem es einige Standardmethoden gibt, um dies zu erreichen (Standardverfahren, ich weiß nicht, ob wir dieses Stadium in naher Zukunft erreichen können). Aber wir haben einige allgemeine Standards wie:
- Prognose: ETS, ARIMA, SARIMA usw.
- Vorhersage: Lineare Regression, Random Forest, GLM, Neuronales Netz usw.
- Klassifizierung: Logistische Regression, Random Forest usw.
Wenn Sie auf granularer Ebene arbeiten, ist es schwierig, dies zu verallgemeinern, da jedes Geschäftsproblem anders ist und nicht eine einzige Methode zur Lösung aller Geschäftsprobleme verwendet werden kann.
Um die nächste Frage zu beantworten, wie Sie das Vertrauen gewinnen, dass das Ergebnis gut genug ist, gehe ich davon aus, dass Sie von RMSE, MAPE und vielem mehr für Vorhersagen und Verwirrungsmatrix für Klassifizierungsprobleme gehört haben. Wir verwenden diese Metriken, um den Zugriff auf die Leistung des Modells zu sehen. Wenn Sie beispielsweise klassifizieren möchten, ob es sich bei der angegebenen Zelle um eine Krebszelle handelt oder nicht, gibt es 100 Datensätze, in denen 90 Nicht-Krebszellen und 10 Krebszellen sind 99% Genauigkeit, könnte aber 5 von 9 buchstäblich klassifizieren. 55% der Gesamtzahl in solchen Szenarien, die Sie betrachten müssen, können keine Genauigkeit verwenden, Sie müssen F1-Punktzahl usw. verwenden. Da Sie nach einem Modell gefragt haben, sind nicht alle Modelle nützlich. Zwar werden nicht alle gebauten Modelle das Produktionsniveau erreichen, Sie würden das beste auswählen und es produzieren. Sie können Ihr Modell auf einer Basis neu trainieren (Täglich, Wöchentlich, Monatlich basierend auf Geschäftsanforderungen). Würden Sie es einen Tag nach Abschluss der Validierung als frei bezeichnen? Ich würde nicht, ich würde zum Fachexperten gehen und ihm die Ergebnisse präsentieren. Fragen Sie ihn / sie nach ihren Einsichten. Wenn beide inline sind, würde ich einen Beta-Test für einige tatsächliche Daten durchführen und diese dann produzieren.
Um Ihre letzte Frage zu beantworten: Es gibt keinen Standard, der besagt, dass dies gut oder schlecht ist. Wenn es für Sie, Ihr Unternehmen, funktioniert, ist dies ein gutes Modell. Um Ihre Manager und Fachexperten (Daten) zu unterstützen, müssen Sie tief in die Daten eintauchen und versuchen, in allen verschiedenen Szenarien so viele Fragen wie möglich zu stellen. Versuchen Sie, die Daten sehr gut zu verstehen. Sie können also Geschäftsfragen mit datenunterstützenden Antworten beantworten (dies ist nur möglich, wenn Sie mit Daten schlechter abschneiden). Da sie sehr gut mit dem Geschäft umgehen können, stellen sie Fragen zum Geschäft. Sie müssen mit all diesen Szenarien fertig sein, indem Sie das Geschäft und die Daten gut verstehen.
Schließlich habe ich ein Gefühl wie Sie. Ich habe viele Dinge getan, aber nichts hat funktioniert, aber Sie sollten nicht unglücklich sein, da Sie verstanden haben, dass dies die Wege sind, die Sie zu erfolglosen Ergebnissen führen würden (das beste Beispiel ist, dass Thomas Alva Edison 1000 verschiedene Metalle verwendet hat, bevor er Wolfram zur Herstellung einer Glühbirne verwendet hat). . In ähnlicher Weise sind alle Methoden, die wir ausprobiert haben, verschiedene Schritte, mit denen Sie versucht haben, die Lösung zu finden. Meine Funda ist, habe ich jeden Tag etwas anderes / neues ausprobiert oder nicht. Ein entscheidender Teil dieses Prozesses ist die Aufrechterhaltung einer klaren Dokumentation bei jedem Schritt. Was sich in naher Zukunft als nützlich erweisen würde.
Alles in Forschung und Entwicklung ist niemals eine Verschwendung, sondern nur ein anderer Versuch oder ein anderes Experiment. Ihre Arbeit ist also niemals Verschwendung. Sie versuchen, eine solide Basis für die glänzende Zukunft Ihres Unternehmens zu schaffen.