Vielleicht macht ein einfacher Fall die Sache klarer. Nehmen wir an, wir wählen eine 1x2-Pixel-Stichprobe anstelle von 100x100.
Beispielpixel aus dem Bild
+----+----+
| x1 | x2 |
+----+----+
Stellen Sie sich vor, wir haben beim Zeichnen unseres Trainingssatzes festgestellt, dass es mit einem linearen Modell nicht einfach zu trennen ist. Aus diesem Grund fügen wir Polynomterme hinzu, um die Daten besser anzupassen.
Nehmen wir an, wir konstruieren unsere Polynome, indem wir alle Pixelintensitäten und alle möglichen Multiplikatoren einbeziehen, die daraus gebildet werden können.
Da unsere Matrix klein ist, listen wir sie auf:
x1, x 2, x 21, x 22, x 1× x2, x 2× x1
Das Interpretieren der obigen Folge von Merkmalen kann erkennen, dass ein Muster vorliegt. Die ersten beiden Begriffe, Gruppe 1, sind Merkmale, die nur aus ihrer Pixelintensität bestehen. Die folgenden zwei Terme, Gruppe 2, sind Merkmale, die aus dem Quadrat ihrer Intensität bestehen. Die letzten beiden Terme, Gruppe 3, sind das Produkt aller Kombinationen von paarweisen (zwei) Pixelintensitäten.
Gruppe 1:x1, x 2
Gruppe 2: x21, x 22
Gruppe 3: x1× x2, x 2× x1
Aber warte, es gibt ein Problem. Wenn Sie sich die Terme der Gruppe 3 in der Reihenfolge ( und x 2 × x 1 ) ansehen, werden Sie feststellen, dass sie gleich sind. Erinnern Sie sich an unser Wohnbeispiel. Stellen Sie sich vor, Sie haben zwei Funktionen x1 = Quadratmeter und x2 = Quadratmeter für dasselbe Haus ... Das ergibt keinen Sinn! Ok, also müssen wir das doppelte Feature loswerden, sagen wir willkürlich x 2 × x 1 . Jetzt können wir die Liste der Features der Gruppe drei wie folgt umschreiben:x1× x2x2× x1x2× x1
Gruppe 3: x1× x2
Wir zählen die Features in allen drei Gruppen und erhalten 5.
Dies ist jedoch ein Spielzeugbeispiel. Lässt uns eine allgemeine Formel für die Berechnung der Anzahl der Features ableiten. Lassen Sie uns unsere ursprünglichen Feature-Gruppen als Ausgangspunkt verwenden.
s i ze gr o u p 1 + s i ze gr o u p 2 + s i ze gr o u p 3 = m × n + m × n + m × n = 3 × m × n
Ah! Aber wir mussten das doppelte Produkt in Gruppe 3 loswerden.
Um die Merkmale für Gruppe 3 richtig zu zählen, müssen Sie alle eindeutigen paarweisen Produkte in der Matrix zählen. Dies kann mit dem Binomialkoeffizienten geschehen, der eine Methode zum Zählen aller möglichen eindeutigen Untergruppen der Größe k aus einer gleichen oder größeren Gruppe der Größe n ist. Um die Merkmale in Gruppe 3 richtig zu zählen, berechnen Sie .C( m × n , 2 )
Unsere generische Formel wäre also:
m × n + m × n + C( m × n , 2 ) = 2 m × n + C( m × n , 2 )
Verwenden wir es, um die Anzahl der Features in unserem Spielzeugbeispiel zu berechnen:
2 × 1 × 2 + C( 1 × 2 , 2 ) = 4 + 1 = 5
Das ist es!