Suchen Sie beispielsweise nach Infrastruktur-Stacks / Workflows / Pipelines


14

Ich versuche zu verstehen, wie alle "Big Data" -Komponenten in einem realen Anwendungsfall zusammenspielen, z. B. Hadoop, Monogodb / NOSQL, Storm, Kafka, ... Ich weiß, dass dies eine ziemlich breite Palette von Werkzeugen ist, die für verwendet werden verschiedene Typen, aber ich möchte mehr über deren Interaktion in Anwendungen erfahren, z. B. Maschinelles Lernen für eine App, eine Webapp oder einen Online-Shop.

Ich habe Besucher / Sitzung, Transaktionsdaten usw. und speichere diese; Aber wenn ich spontan Empfehlungen aussprechen möchte, kann ich keine langsamen Karten- / Reduzierungsjobs für eine große Datenbank mit Protokollen ausführen, die ich habe. Wo kann ich mehr über die Infrastrukturaspekte erfahren? Ich denke, ich kann die meisten Tools alleine verwenden, aber das Ineinanderstecken scheint eine Kunst für sich zu sein.

Gibt es öffentliche Beispiele / Anwendungsfälle usw.? Ich verstehe, dass die einzelnen Pipelines stark vom Anwendungsfall und vom Benutzer abhängen, aber nur Beispiele werden mir wahrscheinlich sehr nützlich sein.


Haben Sie darüber recherchiert? Es gibt viele YouTube-Videos und SlideShare-Präsentationen, die verschiedene Architekturen beschreiben
Stanpol,

1
Hey Stanpol, danke für deine Antwort - ich habe ein paar erste Suchanfragen durchgeführt und außer AWS und Cloudera-Sachen nicht wirklich etwas gefunden - vielleicht nehme ich es gerne von dort, wenn du mir ein paar vielversprechende Suchbegriffe geben kannst.
Chrshmmmr

Antworten:


14

Um die Vielfalt der Möglichkeiten zu verstehen, mit denen maschinelles Lernen in Produktionsanwendungen integriert werden kann, halte ich es für nützlich, Open-Source-Projekte und Artikel / Blogposts von Unternehmen anzusehen, die ihre Infrastruktur beschreiben.

Das gemeinsame Thema dieser Systeme ist die Trennung des Modelltrainings von der Modellanwendung. In Produktionssystemen muss die Modellanwendung schnell sein, in der Größenordnung von 100 ms, aber es besteht mehr Freiheit, wie häufig angepasste Modellparameter (oder Äquivalente) aktualisiert werden müssen.

Die Mitarbeiter nutzen eine breite Palette von Lösungen für die Schulung und Bereitstellung von Modellen:


7

Eine der detailliertesten und klarsten Erklärungen für die Einrichtung einer komplexen Analyse-Pipeline stammt von den Leuten bei Twitch .
Sie geben detaillierte Motive für jede Architekturauswahl für die Erfassung, den Transport, die Koordination, die Verarbeitung, die Speicherung und die Abfrage ihrer Daten.
Überzeugendes Lesen! Finden Sie es hier und hier .


Das ist ziemlich genial, genau das, wonach ich gesucht habe! Vielen Dank :)
chrshmmmr

@chrshmmmr Gern geschehen. Vergessen Sie nicht, als akzeptiert zu stimmen, wenn dies geholfen hat!
Tschakravarty

3
Diese Links scheinen in der Tat sehr nützlich zu sein, aber andererseits sind sie Links, und ich denke, wir sollten uns bemühen, die Antworten unabhängig von der Stabilität der äußeren Quellen beizubehalten. Daher wäre es schön, wenn Sie zwei oder drei Minuten benötigen würden, um beispielsweise das Diagramm aus diesem Link hinzuzufügen und zusammen mit einer kurzen Beschreibung zu veröffentlichen. Etwas in den Zeilen von: "Dies ist zum Beispiel der Workflow eines ... Systems. <Img>. Weitere Informationen finden Sie in <link>."
Rubens

1
@Rubens Ich werde in Kürze eine Bearbeitung vorschlagen. fgnu: Werde das tun, brauche nur ein bisschen mehr Ansehen, um die Antworten tatsächlich zu verbessern, aber ich werde deinen Beitrag auf jeden Fall ehren :)
jeden Fall

@Rubens Das wäre nicht mehr als die Informationen am Link zu reproduzieren. Ich würde, wenn es etwas gäbe, von dem ich glaube, dass es die dort bereits gegebene Erklärung ergänzen würde.
Tschakravarty


1

Kapitel 1 von Practical Data Science mit R ( http://www.manning.com/zumel/ ) enthält eine detaillierte Beschreibung des datenwissenschaftlichen Prozesses, einschließlich der Teamrollen und ihrer Beziehung zu bestimmten Aufgaben. Das Buch folgt den in diesem Kapitel beschriebenen Modellen, indem es darauf verweist, von welchen Stufen / Personen diese oder jene bestimmte Aufgabe ausgeführt werden würde.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.