Ich habe einen Datensatz und möchte den Parameter so finden, dass er die Summe minimiert m - x i | .
Ich habe einen Datensatz und möchte den Parameter so finden, dass er die Summe minimiert m - x i | .
Antworten:
Möglicherweise fragen Sie nach einem Beweis, dass der Median das Problem löst? Nun, das kann so gemacht werden:
Das Objektiv ist stückweise linear und daher mit Ausnahme der Punkte differenzierbar . Was ist die Steigung des Objektivs ist ein Punkt m ≠ x i ? Nun, die Steigung ist die Summe der Steigungen der Abbildungen m ↦ | m - x j | und dies ist entweder + 1 (für m > x j ) oder - 1 (für m < x j ). Daher gibt die Steigung an, wie viele x i kleiner als m sind. Sie sehen, dass die Steigung Null ist, wenn es gleich viele kleinere und größere als m gibt (für und gerade Anzahl von x i ). Wenn es eine ungerade Anzahl von x i gibt, ist die Steigung - 1 links von der "mittelsten" und + 1 rechts davon, daher ist die mittelste die minimale.
Eine Verallgemeinerung dieses Problems auf mehrere Dimensionen wird als geometrisches Medianproblem bezeichnet . Wie David betont, ist der Median die Lösung für den 1-D-Fall; Dort könnten Sie Median-Finding- Auswahlalgorithmen verwenden , die effizienter sind als das Sortieren. Sortierungen sind während Auswahlalgorithmen O ( n ) sind ; Sortierungen sind nur dann effizienter, wenn mehrere Auswahlen erforderlich sind. In diesem Fall können Sie einmal (teuer) sortieren und dann wiederholt aus der sortierten Liste auswählen.
Der Link zum geometrischen Medianproblem nennt Lösungen für mehrdimensionale Fälle.
Die explizite Lösung in Bezug auf den Median ist korrekt, aber als Reaktion auf einen Kommentar von mayenew ist hier ein anderer Ansatz.
Es ist bekannt , dass Minimierungsprobleme im Allgemeinen und das entsandte Problem kann insbesondere durch lineare Programmierung gelöst werden.
Die folgende LP-Formulierung reicht für die gegebene Übung mit Unbekannten :
so dass: z i ≥ m - x i z i ≥ x i - m
Klar muss ich gleich sein | x i - m | im Minimum, so dass dies die Summe der absoluten Werte von Fehlern zu minimieren fordert.
Die überlastete konvexe Analyse, mit der dies gezeigt werden kann, erfordert lediglich Subgradienten. Tatsächlich entspricht dies der Argumentation, die in einigen anderen Antworten verwendet wurde, die Steigungen betrafen.
Das Optimierungsproblem ist konvex (da das Ziel konvex ist und keine Einschränkungen bestehen). Außerdem ist der Subgradient von ist
-1 wenn
[-1,1] wenn
+1 wenn .