Verwendung der Informationstheorie in der angewandten Datenwissenschaft

Heute bin ich auf das Buch "Informationstheorie: Eine Einführung in ein Tutorial" von James Stone gestoßen und habe ein oder zwei Momente über das Ausmaß der Verwendung der Informationstheorie in der angewandten Datenwissenschaft nachgedacht (wenn Sie mit diesem noch etwas unscharfen Begriff nicht vertraut sind, Denken Sie an Datenanalyse , von der IMHO Data Science eine verherrlichte Version ist. Ich bin mir der bedeutenden Verwendung von auf Informationstheorie basierenden Ansätzen , Methoden und Maßnahmen , insbesondere der Entropie , unter der Haube verschiedener statistischer Techniken und Datenanalysemethoden bewusst .

Ich bin jedoch gespannt auf den Umfang / Wissensstand, den ein angewandter Sozialwissenschaftler benötigt , um diese Konzepte, Maßnahmen und Werkzeuge erfolgreich auszuwählen und anzuwenden , ohne zu tief in die mathematischen Ursprünge der Theorie einzutauchen. Ich freue mich auf Ihre Antworten, die mein Anliegen im Zusammenhang mit dem oben genannten Buch (oder anderen ähnlichen Büchern - Sie können es gerne weiterempfehlen) oder allgemein ansprechen.

Ich würde mich auch über einige Empfehlungen für Print- oder Online-Quellen freuen, die die Informationstheorie und ihre Konzepte, Ansätze, Methoden und Maßnahmen im Kontext (im Vergleich zu) anderen (eher) traditionellen statistischen Ansätzen ( Frequentist und Bayesian ) diskutieren .

information-theory

— Aleksandr Blekh
quelle

Vielleicht findet einer der bekanntesten und "angewandten" Fälle der Verwendung von Entropie beim Aufbau eines Baumes statt. Eine der Möglichkeiten beim Teilen von Algorithmen besteht darin, die Informationsverstärkungsmetrik zu verwenden, die den Unterschied zwischen der Entropie zwischen der obersten und der untersten Ebene darstellt. Sie haben weitere Informationen hier en.wikipedia.org/wiki/Information_gain_in_decision_trees

— D.Castro

@ D.Castro: Vielen Dank für Ihren Kommentar - mir ist dieser Fall bekannt (und ich habe sogar eine Antwort zu diesem Thema entweder hier auf Cross Validated oder auf der Data Science SE-Website veröffentlicht). Ich hoffe auf eine umfassendere Berichterstattung / Diskussion des Themas.

— Aleksandr Blekh

Für mich und zum großen Teil ist es eine Frage der Disziplin oder des Fachgebiets, in dem man ausgebildet ist, sowie des geografischen Kontinents. Meiner Ansicht nach sind Physiker, Mathematiker und Praktiker des reinen maschinellen Lernens viel häufiger mit der Informationstheorie vertraut als beispielsweise Statistiker, Ökonomen oder quantitative Finanzanalysten. Darüber hinaus würde ich dies für in Europa ausgebildete Personen verdoppeln, dh Europäer sind viel eher mit IT vertraut. Das Aufkommen von Modellen für statistisches Lernen ändert jedoch das für Datenwissenschaftler in den USA.

— Mike Hunter

@DJohnson Kleinste Punkte, aber in Großbritannien und vielleicht anderswo IT == Informationstechnologie. Ansonsten ähneln deine Eindrücke meinen.

— Nick Cox

@ NickCox Danke, dein Punkt gilt auch für die Staaten. Es war ein längerer Kommentar, und wenn es der Platz erlaubt, hätte ich die Wörter buchstabiert oder, noch besser, die Bedeutung des Akronyms zu einem früheren Zeitpunkt eingeführt.

— Mike Hunter

Der erste Teil der Frage: Müssen Datenwissenschaftler die Informationstheorie kennen ? Ich dachte, die Antwort ist bis vor kurzem nein. Der Grund, warum ich es mir anders überlegt habe, ist eine entscheidende Komponente: Lärm.

Viele Modelle des maschinellen Lernens (sowohl stochastisch als auch nicht stochastisch) verwenden Rauschen als Teil ihres Codierungs- und Transformationsprozesses. In vielen dieser Modelle müssen Sie die Wahrscheinlichkeit ableiten, die das Rauschen nach dem Decodieren der transformierten Ausgabe des Modells beeinflusst. Ich denke, dass dies ein zentraler Bestandteil der Informationstheorie ist. Nicht nur, dass beim Deep Learning die KL-Divergenz eine sehr wichtige Maßnahme ist, die auch aus der Informationstheorie stammt.

Zweiter Teil der Frage: Ich denke, die beste Quelle sind David MacKays Algorithmen für Informationstheorie, Inferenz und Lernen . Er beginnt mit der Informationstheorie und nimmt diese Ideen sowohl in Inferenz- als auch in neuronale Netze auf. Das PDF ist kostenlos auf Daves Website und die Vorträge sind online, was großartig ist

— Ambodi
quelle

Es ist ein ausgezeichnetes Buch. Jeder Interessierte sollte auch einen Blick auf en.wikipedia.org/wiki/David_J._C._MacKay

— Nick Cox

Vielen Dank für Ihre Antwort (+1 und potenzielle Akzeptanz, wenn keine umfassenderen Antworten früh genug auftauchen). Besondere Anerkennung für die Referenzen. Ich bin überrascht, dass Sie auf diese fast vergessene, aber wichtige Frage von mir gestoßen sind. :-)

— Aleksandr Blekh

Ja, das ist interessant. Sie sollten niemals eine Frage aufgeben. Kam zu mir, nachdem ich an NIPS2016 teilgenommen hatte und all diese Gespräche über KL-Divergenz und Rauschauswirkungen für Encoder gesehen hatte.

— Ambodi