Als «distributed-computing» getaggte Fragen

5
Erklären von Apache ZooKeeper
Ich versuche ZooKeeper zu verstehen, wie es funktioniert und was es tut. Gibt es eine Anwendung, die mit ZooKeeper vergleichbar ist? Wenn Sie wissen, wie würden Sie ZooKeeper dann einem Laien beschreiben? Ich habe Apache Wiki, Zookeeper SourceForge ausprobiert ... aber ich kann mich immer noch nicht darauf beziehen. Ich …

13
Spark - repartition () vs coalesce ()
Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen verringern. Ein Unterschied, den ich bekomme, ist, dass mit repartition()der Anzahl der …



3
Was bestimmt den Kafka-Verbraucherversatz?
Ich bin relativ neu in Kafka. Ich habe ein bisschen damit experimentiert, aber ein paar Dinge sind mir in Bezug auf den Verbraucher-Offset unklar. Nach dem, was ich bisher verstanden habe, wird beim Start eines Verbrauchers der Offset, von dem er zu lesen beginnt, durch die Konfigurationseinstellung bestimmt auto.offset.reset(korrigieren Sie …

25
Berechnen Sie den Median einer Milliarde Zahlen
Wenn Sie eine Milliarde Zahlen und einhundert Computer haben, wie können Sie den Median dieser Zahlen am besten ermitteln? Eine Lösung, die ich habe, ist: Teilen Sie das Set gleichmäßig auf die Computer auf. Sortieren Sie sie. Finden Sie die Mediane für jeden Satz. Sortieren Sie die Sätze nach Medianen. …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.