Wenn wir ein Buch lesen, spielt das Verstehen der Notationen eine sehr wichtige Rolle für das Verständnis des Inhalts. Leider haben verschiedene Communities unterschiedliche Notationskonventionen für die Formulierung des Modells und das Optimierungsproblem. Könnte jemand hier einige Formulierungsnotationen zusammenfassen und mögliche Gründe nennen?
Ich werde hier ein Beispiel geben: In der linearen Algebra-Literatur ist das klassische Buch Strangs Einführung in die lineare Algebra . Die am häufigsten verwendete Schreibweise im Buch ist
Wenn eine Koeffizientenmatrix ist , sind die zu lösenden Variablen und ein Vektor auf der rechten Seite der Gleichung . Der Grund, warum das Buch diese Schreibweise wählt, ist das Hauptziel der linearen Algebra, ein lineares System zu lösen und herauszufinden, was der Vektor . Bei einer solchen Formulierung ist das OLS-Optimierungsproblem
In Statistik oder Maschinellem Lernen (aus dem Buch Elemente des Statistischen Lernens ) verwenden Menschen unterschiedliche Schreibweisen, um dasselbe zu repräsentieren:
Wo die Datenmatrix ist , ist ; die zu lernenden Koeffizienten oder Gewichte , ist die Antwort. Der Grund, warum die Leute dies verwenden, ist, dass die Leute in der Statistik oder in der Community des maschinellen Lernens datengesteuert sind. Daher sind Daten und Antworten für sie am interessantesten, wenn sie und um darzustellen.
Jetzt können wir sehen, dass alle möglichen Verwirrungen vorhanden sein können: in der ersten Gleichung ist dasselbe wie in der zweiten Gleichung. Und in der zweiten Gleichung ist nicht etwas zu lösen. Auch für die Begriffe: ist die Koeffizientenmatrix in der linearen Algebra, aber es sind Daten in der Statistik. wird auch als "Koeffizient" bezeichnet.
Darüber hinaus erwähnte ich, dass nicht genau das ist, was Menschen im maschinellen Lernen häufig verwenden. Die Menschen verwenden eine halbvektorisierte Version, die alle Datenpunkte zusammenfasst. Sowie
Ich denke, der Grund dafür ist, dass es gut ist, wenn man über den stochastischen Gradientenabstieg und andere unterschiedliche Verlustfunktionen spricht. Außerdem verschwindet die Kurzmatrixnotation bei anderen Problemen als der linearen Regression.
Matrixnotation für logistische Regression
Könnte jemand mehr Zusammenfassungen über die Notationen geben, die verschiedene Literaturstellen kreuzen? Ich hoffe, dass kluge Antworten auf diese Frage als eine gute Referenz für Leute dienen können, die Bücher lesen, die verschiedene Literaturstellen durchqueren.
Bitte lassen Sie sich nicht durch mein Beispiel und einschränken . Es gibt viele andere. SowieX β = y
Warum gibt es zwei verschiedene Formulierungen / Notationen für logistische Verluste?