Haben Sie eine globale Vision für diese Analysetechniken?


24

Ich bin derzeit in einem Projekt, in dem ich wie wir alle im Grunde genommen verstehen muss, wie Output mit Input . Die Besonderheit hierbei ist, dass die Daten einzeln an mich übergeben werden. Ich möchte meine Analyse daher jedes Mal aktualisieren, wenn ich eine neue erhalte . Ich glaube, dies wird als "Online" -Verarbeitung bezeichnet, im Gegensatz zur "Stapel" -Verarbeitung, bei der Sie über alle erforderlichen Daten verfügen und Ihre Berechnungen mit allen Daten gleichzeitig durchführen.yx(y,x)(y,x)

Also habe ich mich nach Ideen umgesehen und bin zu dem Schluss gekommen, dass die Welt in drei Teile geteilt ist:

  • Der erste Teil ist das Land der Statistik und Ökonometrie. Die Leute dort machen OLS, GLS, Instrumentenvariablen, ARIMA, Tests, Unterschiede, PCA und so weiter. Dieses Land wird hauptsächlich von Linearität dominiert und verarbeitet nur "Batch".

  • Der zweite Teil ist die Insel des maschinellen Lernens und anderer Wörter wie künstliche Intelligenz, überwachtes und unbeaufsichtigtes Lernen, neuronale Netze und SVMs. Hier erfolgt sowohl die "Batch" - als auch die "Online" -Bearbeitung.

  • Der dritte Teil ist ein ganzer Kontinent, den ich gerade entdeckt habe und der größtenteils von Elektrotechnikern bewohnt wird. Dort fügten die Leute ihren Werkzeugen oft das Wort "Filter" hinzu und erfanden großartige Dinge wie den Widrow-Hoff-Algorithmus, die rekursiven kleinsten Quadrate , den Wiener-Filter , den Kalman-Filter und wahrscheinlich andere Dinge, die ich noch nicht entdeckt habe. Anscheinend bearbeiten sie hauptsächlich "online", da dies ihren Bedürfnissen besser entspricht.

Meine Frage ist also, haben Sie eine globale Vision für all dies? Ich habe den Eindruck, dass diese drei Teile der Welt nicht zu viel miteinander reden. Liege ich falsch? Gibt es eine große einheitliche Theorie des Verständnisses, wie auf bezieht ? Kennen Sie Ressourcen, auf denen die Grundlagen dieser Theorie beruhen könnten?Y.X

Ich bin mir nicht sicher, ob diese Frage wirklich Sinn macht, aber ich bin ein bisschen verloren zwischen all diesen Theorien. Ich stelle mir die Antwort auf die Frage "Soll ich dies oder das verwenden?" wäre "es hängt davon ab, was Sie tun möchten (und von Ihren Daten)". Ich habe jedoch das Gefühl, dass diese drei Welten versuchen, auf die gleiche Frage zu antworten ( ?). Daher sollte es möglich sein, all dies genauer zu betrachten und zu verstehen, was jede Technik besonders macht.y=f(x)


Ich denke, die ersten beiden Bereiche sprechen heutzutage viel mehr miteinander. Gute Frage!
Zach

Dynamit-Thema und gut geschriebene Frage!
Rolando2

1
Bitte machen Sie diese CW.
Kardinal

1
Ich würde mich selbst als Statistiker bezeichnen, aber ich mache viele Online-Arbeiten, mache einige nichtlineare Modellierungen verschiedener Art und habe mich zumindest ein wenig mit KI beschäftigt. Ich denke, die Unterschiede bei den typischen Werkzeugen haben eher mit den Problemen zu tun, auf die die Leute stoßen. Wo sich ihre Probleme zusammentun, neigen sie früher oder später dazu, die gleichen Werkzeuge zu finden oder neu zu erfinden (oft unter verschiedenen Namen und mit leicht unterschiedlichem Schnickschnack).
Glen_b

Antworten:


4

Meine Erfahrung zeigt, dass man manchmal beides kombiniert. Was ich meine ist, dass Sie das schwere Heben, dh das rechenintensive Material in Bezug auf die Modellformulierung, offline erledigen lassen und dann schnelle / adaptive Verfahren anwenden, um diese Modelle zu verwenden. Wir haben festgestellt, dass "neue Daten" auf drei Arten verwendet werden können; 1. einfach vorherzusagen; 2. die Parameter des bekannten Modells zu überarbeiten und 3. die Parameter und möglicherweise das Modell zu überarbeiten. Diese drei Ansätze wurden für die "Live-Analyse" verwendet, und die Dauer eines dieser drei Schritte hängt natürlich sowohl von der verwendeten Software als auch von der verfügbaren Hardware ab.

Nun zu Ihrem anderen Punkt bezüglich des Modellierens von y vs x. Ich bevorzuge eine erweiterte Version der Regression (Übertragungsfunktionen oder ARMAX-Modelle genannt), um die Auswirkungen des Verlaufs von y und der aktuellen und pas-Werte von x herauszuholen. Es ist entscheidend, dass man die Gaußschen Anforderungen validiert und bei Bedarf Proxies sowohl für die ausgelassene deterministische Struktur (über die Ausreißererkennung) als auch für die ausgelassene stochastische Struktur über die ARMA-Komponente einbezieht. Zusätzlich muss sichergestellt werden, dass man nicht zu viele Daten verwendet (Tests auf Parameterkonstanz) und dass keine nicht konstante Fehlervarianz resultiert aus der deterministischen / stochastischen Fehlervarianz und / oder Verknüpfung zwischen dem erwarteten Wert von y und der Varianz von Residuen.

Jetzt haben historisch (oder hysterisch, wenn Sie es wünschen) verschiedene Denksilos versucht, Ansätze zu formulieren. Es kann gezeigt werden, dass viele der von unseren Vorfahren verwendeten Ad-hoc-Modelle Teilmengen einer Übertragungsfunktion sind. Es sind jedoch auch Datensätze vorstellbar, die die Annahmen einer Übertragungsfunktion in Frage stellen. Obwohl diese Datensätze möglicherweise existieren, sollte nicht davon ausgegangen werden, dass sie sich direkt auf Sie auswirken, es sei denn, die Analyse ergibt diese Schlussfolgerung.

Texte wie Wei (Addison-Wessley) oder Box-Jenkins sollten einen vernünftigen Fahrplan liefern, um meine Kommentare zu unterstützen und Sie zu weiteren "Antworten" zu führen.

Übrigens ist das eine tolle Frage!

Wenn Sie darüber hinaus Daten haben, die Sie verwenden möchten, könnte ich die verschiedenen hier beschriebenen Optionen demonstrieren. Bitte posten Sie Ihre Daten im Internet, damit alle sehen und sie für ihre Bemühungen nutzen können, "y to x" in Beziehung zu setzen.


Danke für deine Antwort! Ich werde das genauer untersuchen, sobald ich Zeit habe, und wahrscheinlich werde ich mich bei Ihnen melden. Ich muss sagen, dass ich das ARMAX-Modell nicht kannte. Ich glaube, ich war direkt bei einem allendogenen VAR. Was die Daten anbelangt, so arbeiten wir derzeit noch an anderen Dingen für unser Projekt, sodass ich momentan nicht über viele relevante Daten verfüge. Aber vielen Dank, Sie sollten wieder von mir hören!
Arthur

"Validieren Sie die Gaußschen Anforderungen": Ist Gaußsches / Nichtparametrisches / Vergessen-Modellieren (Tempo Breiman) keine tiefe Kluft?
Denis

2

Breiman spricht dieses Problem in " Statistical Modeling: Two Cultures " an. Eine erste Antwort auf eine ausgezeichnete Frage.


Danken! Ihr Link hat bei mir nicht funktioniert, dieser funktioniert und dieser führt direkt zum PDF. Ich habe nur die Zusammenfassung und einen Teil des Textes zufällig gelesen und es sieht sehr interessant aus. Die Jungs scheinen aber total "Anti-Klassiker-Statistiken" zu sein. Danke noch einmal.
Arthur

Super - ich habe den Link aktualisiert. Es macht Spaß zu lesen - viel Spaß!
Ram Ahluwalia

Breiman der „Zwei Kulturen“ wurden diskutiert hier : einige interessante Punkte, aber es ist schwer zu ändern oder sogar ein Geist-Satz zu erklären.
Denis

1

Ich vermute, die Antwort auf diese Frage lautet: "Es gibt kein kostenloses Mittagessen." Vielleicht liegt der Grund, warum Statistiker, Informatiker und Elektrotechniker unterschiedliche Algorithmen entwickelt haben, darin, dass sie daran interessiert sind, verschiedene Arten von Problemen zu lösen.


0

Ich würde sagen, dass diese drei Gruppen, die Sie angegeben haben, tatsächlich nur zwei Gruppen sind:

  • Statistiken
  • Maschinelles Lernen, künstliche Intelligenz und Mustererkennung.

Alle Zweige, die sich auf die Signalfilterung beziehen, basieren auf zwei Aspekten: der Merkmalsextraktion (Wavelets, Gabor und Fourier), die zur Mustererkennung gehört, und der diskreten Fouriertransformation, die zur harten Mathematik gehört. Tatsächlich ist die digitale Filterung eher einer technischen Seite verwandt, da sie versucht, dieses Mustererkennungsproblem mit Hilfe einfacher und kostengünstiger Algorithmen zu lösen. Aber im Grunde ist es maschinelles Lernen.

Darüber hinaus werden Filter, Wavelets, Gabor und Fourier in großem Umfang in der Bildverarbeitung eingesetzt, da sie den Kern des künstlichen Sehens bilden.

Der Unterschied besteht zwischen Statistik und maschinellem Lernen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.