Big Data-Fallstudie oder Anwendungsbeispiel


13

Ich habe viele Blogs und Artikel darüber gelesen, wie unterschiedliche Branchen Big Data Analytic einsetzen. Die meisten dieser Artikel werden jedoch nicht erwähnt

  1. Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten?
  2. Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten?
  3. Was war das Problem, mit dem sie konfrontiert waren und wie der Einblick, den sie in die Daten hatten, ihnen half, das Problem zu lösen.
  4. Wie sie das Werkzeug ausgewählt haben, um es ihren Bedürfnissen anzupassen.
  5. Welches Muster identifizierten sie aus den Daten und welche Muster suchten sie aus den Daten.

Ich frage mich, ob mir jemand eine Antwort auf all diese Fragen oder einen Link geben kann, der zumindest einige der Fragen beantwortet. Ich suche ein reales Beispiel.

Es wäre großartig, wenn jemand mitteilen würde, wie die Finanzbranche Big Data Analytic einsetzt.

Antworten:


14

Nachrichtenagenturen neigen dazu, "Big Data" ziemlich locker zu verwenden. Anbieter bieten in der Regel Fallstudien zu ihren spezifischen Produkten an. Es gibt nicht viel für Open-Source-Implementierungen, aber sie werden erwähnt. Zum Beispiel wird Apache nicht viel Zeit damit verbringen, eine Fallstudie über Hadoop zu erstellen, aber Anbieter wie Cloudera und Hortonworks werden dies wahrscheinlich tun.

Hier ist eine beispielhafte Fallstudie aus Cloudera im Finanzsektor.

Zitieren der Studie:

Ein großes globales Finanzdienstleistungskonglomerat verwendet Cloudera und Datameer, um unlautere Handelsaktivitäten zu identifizieren. Die Teams der Asset-Management-Gruppe des Unternehmens führen Ad-hoc-Analysen zu täglichen Feeds mit Preis-, Positions- und Auftragsinformationen durch. Durch die Ad-hoc-Analyse aller detaillierten Daten kann die Gruppe Anomalien in bestimmten Assetklassen erkennen und verdächtiges Verhalten erkennen. Bisher vertrauten Benutzer ausschließlich auf Desktop-Tabellenkalkulationstools. Jetzt haben Benutzer mit Datameer und Cloudera eine leistungsstarke Plattform, mit der sie mehr Daten schneller sichten und potenzielle Verluste vermeiden können, bevor sie beginnen.

.

Eine führende Einzelhandelsbank verwendet Cloudera und Datameer, um die Datengenauigkeit und -qualität gemäß Dodd-Frank Act und anderen Bestimmungen zu überprüfen. Durch die Integration von Kredit- und Filialdaten sowie Wealth-Management-Daten ist die Datenqualitätsinitiative der Bank dafür verantwortlich, dass alle Aufzeichnungen korrekt sind. Der Prozess beinhaltet, dass die Daten mehr als 50 Datenvernunfts- und Qualitätsprüfungen unterzogen werden. Die Ergebnisse dieser Überprüfungen werden mit der Zeit ermittelt, um sicherzustellen, dass sich die Toleranzen für Datenkorruption und Datendomänen nicht nachteilig ändern und dass die Risikoprofile, die Anlegern und Aufsichtsbehörden gemeldet werden, umsichtig sind und den aufsichtsrechtlichen Anforderungen entsprechen. Die Ergebnisse werden über ein Datenqualitäts-Dashboard an den Chief Risk Officer und den Chief Financial Officer gemeldet.

Bei Cloudera habe ich keine anderen finanzbezogenen Studien gesehen, aber ich habe nicht sehr intensiv gesucht. Sie können ihre Bibliothek hier ansehen .

Darüber hinaus hat Hortonworks eine Fallstudie zu Handelsstrategien veröffentlicht, in der die Zeit, die für die Entwicklung einer Strategie mit K-means, Hadoop und R benötigt wurde, um 20% gesunken ist.

Jede Farbe kennzeichnet eine Gruppe von Strategien mit ähnlicher Gewinn- und Verlustwahrscheinlichkeit

Wie das Handelssystem mithilfe von Hadoop (Hortonworks Data Platform) und dem k-means-Algorithmus verbessert wurde

Diese beantworten nicht alle Ihre Fragen. Ich bin mir ziemlich sicher, dass beide Studien die meisten davon abdeckten. Ich sehe nichts speziell über die Werkzeugauswahl. Ich stelle mir vor, dass Vertriebsmitarbeiter viel damit zu tun hatten, das gesamte Produkt in den Griff zu bekommen, aber die Datenwissenschaftler selbst nutzten die Tools, mit denen sie sich am wohlsten fühlten. Ich habe nicht viel Einblick in diesen Bereich im Big-Data-Bereich.


1
Vielen Dank. Das ist sehr hilfreich. Ich weiß, es ist ein Fehlerraum und es gibt keine richtige Antwort. Ich bin sehr daran interessiert zu wissen, wie man Big-Data-Tools und -Technologien auswählt, um sie an ihre Bedürfnisse anzupassen. Ich bezeichne dies nicht als die richtige Antwort für den Moment, aber es verdient sicherlich viele UP-Stimmen. Prost :)
Brown_Dynamite

6

Financial Services ist ein großer Nutzer von Big Data und auch ein Innovator. Ein Beispiel ist der Handel mit Pfandbriefen. Um Ihre Fragen zu beantworten:

Welche Art von Daten haben diese Unternehmen verwendet? Wie groß waren die Daten?

  • Lange Aufzeichnungen über jede in den letzten Jahren begebene Hypothek und monatliche Zahlungen auf diese Hypothek. (Milliarden von Zeilen)
  • Lange Geschichten von Kreditgeschichten. (Milliarden von Zeilen)
  • Immobilienpreisindizes. (Nicht so groß)

Welche Art von Werkzeugtechnologien verwendeten sie, um die Daten zu verarbeiten?

Es variiert. Einige verwenden interne Lösungen, die auf Datenbanken wie Netezza oder Teradata basieren. Andere greifen über von den Datenanbietern bereitgestellte Systeme auf die Daten zu. (Corelogic, Experian usw.) Einige Banken verwenden spaltenweise Datenbanktechnologien wie KDB oder 1010data.

Was war das Problem, mit dem sie konfrontiert waren und wie der Einblick, den sie in die Daten hatten, ihnen half, das Problem zu lösen.

Die zentrale Frage ist, wann Hypothekenanleihen (Mortgage Backed Securities) im Voraus oder in Verzug sind. Dies ist besonders wichtig für Anleihen, für die keine staatliche Garantie besteht. Indem Sie sich mit Zahlungsverläufen, Kreditakten und dem aktuellen Wert des Hauses befassen, können Sie die Wahrscheinlichkeit eines Ausfalls vorhersagen. Das Hinzufügen eines Zinsmodells und eines Vorauszahlungsmodells hilft auch, die Wahrscheinlichkeit einer Vorauszahlung vorherzusagen.

Wie sie das Werkzeug ausgewählt haben, um es ihren Bedürfnissen anzupassen.

Wenn das Projekt von der internen IT gesteuert wird, basiert es normalerweise auf einem großen Datenbankanbieter wie Oracle, Teradata oder Netezza. Wenn es von den Quants gesteuert wird, werden sie eher direkt an den Datenanbieter oder ein "All-in" -System eines Drittanbieters weitergeleitet.

Welches Muster identifizierten sie aus den Daten und welche Muster suchten sie aus den Daten.

Durch das Verknüpfen der Daten erhalten Sie umfassende Informationen darüber, wer mit seinen Krediten in Verzug geraten kann, und können diese im Voraus bezahlen. Wenn Sie die Kredite zu Anleihen zusammengefasst haben, kann dies die Differenz zwischen einer Anleihe sein, die am ausgegeben wurde100,000,000beichnGwÖrththeinteinmÖunt,Öreinslichttleeins20.000.000.


Haben Sie Fälle erlebt, in denen maschinelles Lernen für die Vorauszahlungsmodellierung verwendet wird? Dh Neuronale Netze, Random Forest, GBM?
Josh

5

Kaggle hat eine kurze Zusammenfassung der Anwendungen:

Revolution Analytics veröffentlichte viele allgemeine Fallstudien, Datenblätter und Whitepapers:

Für Anwendungen in Naturwissenschaften und Ingenieurwissenschaften können Sie die Nutonian- Fallstudien heranziehen :

Analyx informierte potenzielle Kunden über Anwendungen im Handel:

Die Financial Times veröffentlichte eine Sammlung von Geschichten über Geschäftsanwendungen von Big Data:

McKinsey skizzierte bereits 2011 Anwendungen:

Andere Beratungsunternehmen gaben ähnliche Berichte ab.

Gartner hat Hype Cycle für Big Data erstellt:

Bildbeschreibung hier eingeben

Ganz zu schweigen von den Fallstudien und Whitepapers anderer Unternehmen, die für ihre Produkte werben möchten.


1

Schauen Sie sich die kostenlosen O'Reilly-Datenberichte an . Sie finden Berichte über Banking und Fintech, Sport, Mode, Musik, Gesundheit, Öl und Gas und so weiter.

Denken Sie daran, dass der oben erwähnte McKinsey-Bericht ein klassischer Bericht ist und unbedingt gelesen werden muss.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.