Vladimir Vapnik (Miterfinder der Support Vector Machine und führender Theoretiker des rechnergestützten Lernens) befürwortet, immer zu versuchen, das Problem direkt zu lösen, anstatt ein allgemeineres Problem zu lösen und dann einige der von der Lösung bereitgestellten Informationen zu verwerfen. Ich bin im Allgemeinen damit einverstanden, daher würde ich einen Klassifizierungsansatz für das derzeit gestellte Problem vorschlagen. Der Grund dafür ist, dass wir, wenn wir nur daran interessiert sind, ein Projekt als rentabel oder nicht rentabel einzustufen, wirklich nur an der Region interessiert sind, in der die Rentabilität bei Null liegt. Wenn wir ein Klassifizierungsmodell bilden, konzentrieren wir dort unsere Modellierungsressourcen. Wenn wir einen Regressionsansatz verfolgen, verschwenden wir möglicherweise Modellierungsressourcen, um kleine Leistungsverbesserungen für Projekte zu erzielen, die entweder sehr rentabel oder unrentabel sind, möglicherweise auf Kosten der Leistungsverbesserung von Grenzprojekten.
Der Grund, warum ich "wie derzeit gestellt" sagte, ist, dass nur sehr wenige Probleme tatsächlich eine einfache, harte binäre Klassifizierung beinhalten (optische Zeichenerkennung wäre wahrscheinlich eine). Im Allgemeinen haben verschiedene Arten der Fehlklassifizierung unterschiedliche Kosten, oder die Häufigkeit von Betriebsklassen kann unbekannt oder variabel sein usw. In solchen Fällen ist es besser, einen probabilistischen Klassifikator wie die logistische Regression zu habeneher als eine SVM. Wenn mir das für eine finanzielle Anwendung erscheint, werden wir es besser machen, wenn wir die Wahrscheinlichkeit kennen, ob das Projekt rentabel sein wird und wie rentabel oder auf andere Weise es wahrscheinlich ist. Wir sind möglicherweise bereit, ein Projekt zu finanzieren, das eine geringe Rentabilitätschance hat, aber im Erfolgsfall massiv profitabel ist, aber kein Projekt, dessen Erfolg fast garantiert ist, das aber eine so geringe Gewinnspanne aufweist, wie wir es wären Besser einfach das Geld auf ein Sparkonto stecken.
Frank und Omri374 haben also beide recht! (+1; o)
BEARBEITEN: Um zu verdeutlichen, warum Regression möglicherweise nicht immer ein guter Ansatz zur Lösung eines Klassifizierungsproblems ist, finden Sie hier ein Beispiel. Angenommen, wir haben drei Projekte mit Rentabilität , und für jedes Projekt haben wir eine erklärende Variable, von der wir hoffen, dass sie die Rentabilität anzeigt, → x = ( 1 , 2) , 10 ) . Wenn wir einen Regressionsansatz (mit Offset) wählen , erhalten wir Regressionskoeffizienten β 0 = - 800,8288y⃗ = ( - $ 1000 , + $ 1 , + $ 1000 )x⃗ = ( 1 , 2 , 10 )β0= - 800,8288und (vorausgesetzt, ich habe die Summen richtig gemacht!). Das Modell sagt dann die Projekte als Nachgeben Gewinne y 1 ≈ - $ 616 , y 2 ≈ - $ 431 und y 3 ≈ $ 1.048 . Beachten Sie, dass das zweite Projekt fälschlicherweise als unrentabel vorhergesagt wird. Wenn wir andererseits einen Klassifizierungsansatz verfolgen und stattdessen auf → t = 2 ∗ ( y > = 0 ) zurückgehen -β1= 184,8836y^1≈ - $ 616y^2≈ - $ 431y^3≈ $ 1048 , erhalten wir Regressionskoeffizienten ß 0 = - 0,2603 und β 1 = 0,1370 , die Partituren der drei Projekte wie folgt: t 1 = - 0,1233 , t 2 = 0,0137 und t 3 = 1,1096 . Ein Klassifizierungsansatz klassifiziert Projekt 1 korrekt als unrentabel und die anderen beiden als rentabel.t⃗ = 2 ∗ ( y> = 0 ) - 1β0= - 0,2603β1= 0,1370t^1= - 0,1233t^2= 0,0137t^3= 1,1096
Der Grund dafür ist, dass ein Regressionsansatz gleichermaßen bemüht ist, die Summe der quadratischen Fehler für jeden der Datenpunkte zu minimieren. In diesem Fall wird eine niedrigere SSE erhalten, indem Projekt zwei auf die falsche Seite der Entscheidungsgrenze fallen gelassen wird, um geringere Fehler an den beiden anderen Punkten zu erzielen.
Frank sagt also zu Recht, dass ein Regressionsansatz in der Praxis wahrscheinlich ein guter Ansatz ist, aber wenn die Klassifizierung tatsächlich das ultimative Ziel ist, gibt es Situationen, in denen er schlecht abschneiden kann und ein Klassifizierungsansatz besser abschneidet.