Hadoop ist ein Open-Source-Projekt von Apache, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl weiterer ergänzender Ergänzungen.
Ein aufstrebender Datenwissenschaftler hier. Ich weiß nichts über Hadoop, aber da ich über Data Science und Big Data gelesen habe, sehe ich viele Gespräche über Hadoop. Ist es absolut notwendig, Hadoop zu lernen, um ein Data Scientist zu sein?
Mit Hadoop 2.0 und YARN ist Hadoop angeblich nicht mehr nur an Kartenreduzierungslösungen gebunden. Was sind die Anwendungsfälle für Apache Spark und Hadoop, wenn man bedenkt, dass beide auf HDFS basieren? Ich habe die Einführungsdokumentation für Spark gelesen, bin aber gespannt, ob jemand auf ein Problem gestoßen ist, das mit …
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …
Ich habe von vielen Tools / Frameworks gehört, die Menschen bei der Verarbeitung ihrer Daten unterstützen (Big Data-Umgebung). Einer heißt Hadoop und der andere ist das noSQL-Konzept. Was ist der Unterschied in der Verarbeitung? Ergänzen sie sich?
Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist der Vergleich zwischen …
Kann mir jemand freundlich etwas über die Kompromisse erzählen, die bei der Auswahl zwischen Storm und MapReduce in Hadoop Cluster für die Datenverarbeitung entstehen? Abgesehen von der offensichtlichen Tatsache ist Hadoop (Verarbeitung über MapReduce in einem Hadoop-Cluster) natürlich ein Stapelverarbeitungssystem und Storm ein Echtzeitverarbeitungssystem. Ich habe ein bisschen mit Hadoop …
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
In unserem Unternehmen verfügen wir über eine MongoDB-Datenbank mit vielen unstrukturierten Daten, für die wir kartenreduzierende Algorithmen ausführen müssen, um Berichte und andere Analysen zu erstellen. Für die Implementierung der erforderlichen Analysen stehen zwei Ansätze zur Auswahl: Ein Ansatz besteht darin, die Daten aus MongoDB in einen Hadoop-Cluster zu extrahieren …
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …
Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:]. Wie?
Bei der Überprüfung von " Applied Predictive Modeling " stellt ein Prüfer fest : Eine Kritik, die ich an der Pädagogik des statistischen Lernens (SL) habe, ist das Fehlen von Überlegungen zur Rechenleistung bei der Bewertung verschiedener Modellierungstechniken. Mit seinen Schwerpunkten auf Bootstrapping und Kreuzvalidierung zum Tunen / Testen von …
Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten stapelweise zu verarbeiten und die Storm-Ergebnisse zu verwerfen, …
Geschlossen . Diese Frage basiert auf Meinungen . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Kann jemand gute Bücher vorschlagen, um die Grundlagen …
Ich lese über Lambda-Architektur. Es ergibt Sinn. Wir haben warteschlangenbasierte Datenaufnahme. Wir haben einen In-Memory-Speicher für Daten, der sehr neu ist, und wir haben HDFS für alte Daten. Wir haben also unseren gesamten Datensatz. in unserem System. sehr gut. Das Architekturdiagramm zeigt jedoch, dass die Zusammenführungsschicht sowohl die Batch-Schicht als …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.