Das Szenario ist also das folgende:
Ich habe mehrere Instanzen eines Webdienstes, der einen Datenblock in Azure Storage schreibt. Ich muss in der Lage sein, Blobs in einem Container (oder einem virtuellen Verzeichnis) zu gruppieren, je nachdem, wann sie empfangen wurden. Hin und wieder (im schlimmsten Fall jeden Tag) werden ältere Blobs verarbeitet und dann gelöscht.
Ich habe zwei Möglichkeiten:
Option 1
Ich mache einen Container namens "Blobs" (zum Beispiel) und speichere dann alle Blogs in diesem Container. Jeder Blob verwendet einen Verzeichnisstilnamen, wobei der Verzeichnisname der Zeitpunkt ist, zu dem er empfangen wurde (z. B. "hr0min0 / data.bin", "hr0min0 / data2.bin", "hr0min30 / data3.bin", "hr1min45 / data.bin" ", ...," hr23min0 / dataN.bin "usw. - alle X Minuten ein neues Verzeichnis ). Das Ding, das diese Blobs verarbeitet, verarbeitet zuerst hr0min0-Blobs, dann hr0minX usw. (und die Blobs werden bei der Verarbeitung noch geschrieben).
Option 2
Ich habe viele Container mit einem Namen, der auf der Ankunftszeit basiert (also zuerst ein Container mit dem Namen blobs_hr0min0, dann blobs_hr0minX usw.), und alle Blobs im Container sind die Blobs, die zur angegebenen Zeit angekommen sind. Das Ding, das diese Blogs verarbeitet, verarbeitet jeweils einen Container.
Meine Frage ist also, welche Option ist besser? Gibt mir Option 2 eine bessere Parallelisierung (da sich ein Container auf verschiedenen Servern befinden kann) oder ist Option 1 besser, weil viele Container andere unbekannte Probleme verursachen können?