Warum erfassen Kameras den Dynamikbereich nicht so wie unsere Augen?


29

Wenn ich in einem Raum ohne Licht sitze und aus dem Fenster schaue, kann ich das Innere des Raums leicht sehen, auch wenn ich mich auf einen Baum draußen konzentriere.

Warum kann eine Kamera kein Bild aufnehmen, das dem entspricht, was meine Augen sehen können? Ich denke, dass neuere Kameras in der Lage sein sollten, diesen großen Dynamikumfang problemlos zu erfassen. Ich glaube nicht, dass die Anzeige ein Problem ist, wenn so viel Dynamikbereich erfasst wird, weil es normalisiert werden kann. Bei einer Digitalkamera muss ich die Belichtung so einstellen, dass nur die äußere oder innere Szene korrekt erfasst wird.

Ist dies nur ein Problem bei Digitalkameras oder bei Filmkameras?

Eine ähnliche Frage wird hier bereits diskutiert. Wie kann ich die Szene genau so aufnehmen, wie meine Augen es sehen? . Ich spreche nicht von Auflösung, Fokussierung oder Detail. Ich interessiere mich für Belichtung oder Dynamik, ähnlich wie wenn wir unsere Augen auf eine einzelne Szene richten.


2
Ich verstehe nicht, warum Sie sagen, dass "eine neuere Kamera in der Lage sein sollte, diesen großen Dynamikbereich leicht zu erfassen". Sie basieren auf einer völlig anderen Technologie als wir sie kennen. Ich verstehe also nicht, warum Sie erwarten, dass sie ähnliche Eigenschaften haben.
Philip Kendall

Ist es also der gesamte Dynamikbereich, der das meiste Problem verursacht?
LifeH2O

Ich denke an ein Experiment, mache die Szene auf einem Papier mit einem Objektiv und fange sie dann mit der Kamera ein. Es sollte den Dynamikbereich normalisieren.
LifeH2O

4
Besuchen Sie jvsc.jst.go.jp/find/mindlab/english/index.html , um interaktiv zu sehen, wie Sie vom Gehirn getäuscht werden;)
Stormenet

1
@Stormenet: Das ist eine verdammt gute Verbindung!
Chinmay Kanchi

Antworten:


45

Der Grund, warum Sie einen so großen Dynamikbereich sehen können, ist nicht, dass das Auge als optisches Gerät tatsächlich einen solchen Bereich erfassen kann - der Grund ist, dass Ihr Gehirn Informationen aus vielen, vielen "Belichtungen" von den Augen und kombinieren kann Erstellen Sie ein HDR-Panorama der Szene vor Ihnen.

Das Auge ist vom Standpunkt der Bildqualität aus ziemlich schlecht, hat jedoch eine sehr hohe "Bildrate" und kann Empfindlichkeit, Richtung und Fokus sehr schnell ändern.

Das Gehirn nimmt all diese Bilder aus dem Auge auf und erstellt das Bild, das Sie zu sehen glauben. Dies umfasst Details aus Bildern mit unterschiedlicher Empfindlichkeit und sogar Details, die sich vollständig aus dem zusammensetzen, was Sie erwartet haben. (Dies ist ein Grund, warum es optische Täuschungen gibt - das Gehirn kann dazu gebracht werden, Dinge zu "sehen", die nicht wirklich da sind).

So können Sie mit Ihrer Kamera genau wie mit Ihrem Auge sehen, nur viele Belichtungen mit unterschiedlichen Einstellungen aufnehmen und dann alles in Photoshop laden, ein HDR-Panorama erstellen und "content aware fill" verwenden, um die Lücken zu füllen.

Übrigens, warum sollten Kameras in der Lage sein, diesen Bereich zu erfassen, aber Monitore sollten ihn nicht reproduzieren können? Wenn Technologie, die es nicht gibt, existieren sollte, sollten Monitore in der Lage sein, alles zu reproduzieren, was wir sehen können (und ich sollte in der Lage sein, Urlaub in einem Hotel mit niedriger Schwerkraft auf dem Mond zu machen).


1
Du hast mich mit einer fast identischen Antwort um ungefähr 4 Minuten geschlagen!
Matt Grum

22

Möglicherweise haben Sie einen kleinen Vorteil im Dynamikbereich des Sensors gegenüber einer Kamera, aber der größte Unterschied liegt in einem ausgeklügelten automatischen Belichtungssystem, Sakkaden , HDR-Verarbeitung und einem Szenenerkennungssystem, das über mehrere Belichtungen hinweg funktioniert . Das menschliche Gehirn ist für das visuelle System mindestens genauso wichtig wie das Auge .

Bei einer Szene mit einem sehr hohen Dynamikbereich nimmt das menschliche visuelle System einige Zeit in Anspruch, um sich anzupassen. Das liegt nicht daran, dass wir einen Dynamikbereich anpassen müssen, sondern daran, dass wir die sehr hellen und sehr dunklen Teile der Szene separat analysieren und dann die wichtigen Teile des Bildes zusammenkleben müssen. Eine ganze Menge von dem, was wir "sehen", hängt davon ab, dass wir bereits wissen, was da ist. Wir können sehr wenige echte Detailangaben verwenden, um die Lücken zu füllen (und wenn wir nicht genügend echte Informationen haben, können wir interpolieren - aber nicht immer richtig ).

Wenn eine Kamera - jede Kamera - auf dieser Ebene betrieben werden soll, muss ein System entworfen werden, das "weiß", worauf es ankommt. Wir können bereits die "dumme" Version davon mit verschiedenen HDR-Techniken machen (in Ihrem speziellen Beispiel normalerweise durch einfaches Abdecken, wobei die Türöffnung aus der Dunkelbelichtung herausgeschnitten wird und eine Version von der hellen Belichtung an ihrer Stelle eingefügt wird). Derzeitige automatisierte Prozesse basieren ausschließlich auf Helligkeit (da sie nicht auf Bedeutung oder Wichtigkeit analysiert werden können) und neigen dazu, offensichtliche Artefakte zu produzieren. Und wenn Sie jemals ein unformatiertes 32-Bit-HDR-kombiniertes Bild gesehen haben, das noch nicht mit einem Tonemapping versehen wurde (was im Wesentlichen die Art von Dingen ist, die Sie nur durch Erhöhen des Dynamikbereichs des Sensors erhalten würden), werden Sie es wahrscheinlich bemerkt haben dass das Bild sehr "flach" ist und keinen lokalen und globalen Kontrast aufweist. Es ist wichtig zu wissen, welche Szene es uns ermöglicht, das Mapping durchzuführen und zu entscheiden, wo der Kontrast lokal wichtig ist. Solange die Kamera nicht die gleichen Entscheidungen treffen kann, ist sie nicht in der Lage, ein Bild zu erzeugen, das in etwa dem entspricht, was Ihr Gehirn sieht.


9

Dies hängt damit zusammen, wie das Gehirn die von den Augen gelieferten Informationen interpretiert (oder anders ausgedrückt, es ist die Software, nicht die Hardware).

Wir sehen Farbe und Details nur in einem sehr engen Feld im Zentrum unserer Sicht. Um das detaillierte, farbenfrohe Bild aufzubauen, das wir wahrnehmen, bewegt das Gehirn diesen zentralen Punkt, ohne dass wir es wissen.

Ich bin kein Neurobiologe, aber es liegt auf der Hand, dass das Gehirn bei der Erstellung dieses breiteren Bildes aus vielen kleinen Schnappschüssen auch eine gewisse Normalisierung der Helligkeit vornimmt, um ein Bild zu erhalten, das trotz einiger starker Bereiche überall in etwa dieselbe Helligkeit aufweist in Wirklichkeit heller. Grundsätzlich ist die Fähigkeit, dunkle und helle Dinge gleichzeitig zu sehen, eine Illusion.

Es gibt keinen Grund, warum dieses Verhalten von Digitalkameras nicht nachgeahmt werden kann, und es gibt keinen Grund, warum wir Sensoren nicht mit einer einzigen Belichtung in der Lage sein können, einen viel größeren Dynamikbereich zu erzielen. Tatsächlich hat Fuji einen Sensor mit besonders empfindlichen Fotoseiten hergestellt, um zusätzliche Glanzlichtdetails einzufangen.

Das Problem liegt in der Unfähigkeit, Bilder mit hohem Dynamikbereich anzuzeigen. Um solche Bilder auf einem Standardmonitor mit niedrigem Dynamikumfang anzuzeigen, müssen Sie eine spezielle Verarbeitung durchführen, die als Tonemapping bezeichnet wird und ihre eigenen Nachteile aufweist. Für die meisten Verbraucher wären Kameras mit hohem Dynamikbereich einfach umständlicher.


3

Zusammenfassung:

  • Gott hat unsere Augen gemacht.

  • Wir machen Kameras.

  • Wir haben Gott noch nicht eingeholt.

  • ABER die beste Kamera auf dem Markt entspricht in etwa der von Ihnen beschriebenen Anforderung.

  • Es gibt Möglichkeiten, das zu erreichen, was Sie wollen. Sie haben einfach beschlossen, sie als nicht das zu definieren, was Sie wollen. Das ist deine Wahl.

Die Beleuchtungsstärke in einem abgedunkelten Raum mit einem Fenster, das zu einer Außenszene hin offen ist, kann nur etwa 0,1 Lux (0,1 Lumen pro Quadratmeter) betragen. Die Beleuchtungsstärke der Außenszene kann in der von Ihnen beschriebenen Situation zwischen 10 und Tausenden Lux liegen.

Bei 100 Lux extern und 0,1 Lux intern beträgt das Verhältnis 1000: 1 oder knapp 10 Bit Dynamikumfang. Viele moderne Kameras könnten Tonwertunterschiede an beiden Enden unterscheiden, wenn dieser Bereich richtig eingestellt ist. Wenn die Lichtstärke des Baums den Sensor nur gesättigt hätte, wären im Raum ungefähr 4 Bit Lichtstärke verfügbar = 16 Lichtstärken. man konnte also ein gewisses Maß an Details mit der hellsten Stufe sehen, AUSSER, dass die Lichtstärke so niedrig ist, dass die Augen Probleme damit haben würden.

Wenn die Beleuchtungsstärke des Baums 1000 Lux (= 1% des vollen Sonnenlichts) betrug, bräuchten Sie ungefähr 13 Bit Dynamikumfang. Die allerbesten erhältlichen 35-mm-Vollformatkameras würden damit umgehen. Die Kameraeinstellung müsste auf den Punkt genau erfolgen, und Sie hätten ungefähr keine Toninformationen im Raum. Diese externe Beleuchtungsstärke ist höher als in einer Nacht mit Flutlicht.

Viele moderne DSLRs der Mittel- und Oberklasse verfügen über eine integrierte HDR-Verarbeitung, mit der durch die Kombination mehrerer Bilder ein weitaus größerer Dynamikbereich erzielt werden kann. Sogar ein HDR-Foto mit 2 Bildern passt problemlos zu Ihrer Szene. Mein Sony A77 bietet bis zu +/- 6 EV 3 Frame HDR. Das ergibt einen Dynamikumfang von weit über 20 Bit - was in Ihrem Beispiel sehr ausreichende Tonwertschwankungen am oberen und unteren Ende ermöglicht.


11
Alternativ könnte man sagen, dass die Evolution einen Vorsprung von fünfhundert Millionen Jahren auf unsere Ingenieure hatte, und es wäre unvernünftig zu erwarten, dass wir ihn in einer Weile nachholen werden :)
Staale S

4
Das ist ein Hauch von Theologie ...
Rowland Shaw

2
Ich glaube nicht, dass dies die Frage beantwortet - es heißt nur "weil die Augen besser sind". Okay. Wie schaffen sie das?
Mattdm

1
@ naught101 - "aufgeholt" ist eine ziemlich fein nuancierte Maßnahme :-). Das Auge an sich ist in vielerlei Hinsicht etwas schlechter als das, was wir schaffen können. Aber es schafft immer noch einige erstaunliche Leistungen. zB kann das dunkel angepasste Auge ein einzelnes Photon erkennen! Was den Prätendenten das Leben jedoch schrecklich schwer macht, ist, dass das Auge nur ein Teil eines integrierten Multiorgansystems ist - und das Gehirn bis jetzt einige Schläge hinnehmen muss.
Russell McMahon

1
@RowlandShaw - nur wenn Sie dies wünschen. Andere boten ihre eigene weltanschauungsgerechte Übersetzung an. Eine solche Aussage kann eine Metapher für alles sein, was Sie wollen (Cthulu, FSM, Ever-looshin, ...) oder nicht.
Russell McMahon

2

Ist es nur das Problem von Digitalkameras oder ist es dasselbe für Filmkameras?

Keine der Antworten hat dies bisher berührt, zumindest nicht direkt ... ja, es ist auch ein Problem mit dem Film. Der berühmte Fuji Velvia-Farbtransparenzfilm zum Beispiel hat einen wirklich schlechten Dynamikbereich (obwohl großartige Farbe!). Transparenzfilm leidet im Allgemeinen darunter. Auf der anderen Seite können Negativfilme einen sehr guten Dynamikumfang aufweisen, der ungefähr so ​​gut ist wie die besten aktuellen Digitalkameras. Es wird jedoch ein bisschen anders gehandhabt - während Digital eine lineare Reaktion auf Licht aufweist, weist der Film normalerweise eine ausgeprägte "S" -Kontrastkurve auf. Die Schwarz- und Fast-Schwarz- und Weiß- und Fast-Weißtöne sind mehr als die Mitteltöne gebündelt.

Denken Sie daran, dass Filmfotos in der Regel mit Tinte auf weißem Papierhintergrund gedruckt werden. Daher ist der Dynamikumfang, den Sie zunächst erfassen möchten, nicht allzu großzügig begrenzt. Nehmen Sie beispielsweise einen Dynamikbereich von 30 Blenden auf und geben Sie ihn dann an einen ... aus. Was ist der Standardwert DR eines Fotodrucks überhaupt? Fünf Haltestellen? Sechs? ... Ausgabemedium würde ... seltsam aussehen, um es gelinde auszudrücken. Ich vermute, dass dieser Faktor mehr ist als alle unüberwindbaren Hürden bei der Chemie, die den Dynamikbereich des fotografischen Films einschränkt. Es ist nicht so sehr, dass wir es nicht können, es ist eher so, dass wir es nicht aktiv tun wollen .


2

Genug Zeug, um ein Buch zu füllen - aber das Wesentliche ist, dass menschliche Augen Helligkeit logarithmisch sehen, während Kameras Helligkeit linear "sehen".

Wenn Sie also eine Bedingung annehmen, bei der die Helligkeit von 1 bis 10000 (zufällig gewählte Zahl) in der logarithmischen Basis 10 reicht, würde das menschliche Auge die Helligkeit als 0 bis 5 sehen, während die Kamera sie linear als 1 bis 10000 sieht Ein Sensor, der einen so großen Bereich abdecken kann, ist schwierig, da bei niedrigen Messwerten Störungen auftreten und bei höheren Helligkeitsmessungen Überfüllungen auftreten. Ich glaube jedoch, dass es eine ROTE Kamera gibt, die 18 Stopps des Dynamikbereichs aufzeichnen kann - nicht sicher, ob es sich jedoch nur um einen Prototyp oder ein Serienmodell handelt.

Übrigens ist die logarithmische vs. lineare Differenz auch der Grund, warum sich die Helligkeit pro 1-Stufen-Differenz verdoppelt oder halbiert.

Das reicht aber für ein Forschungsthema - das ist also nur ein kurzer Hinweis.


Dieser logarithmische Effekt im menschlichen Auge verringert den Dynamikbereich und das Gehirn kommt damit zurecht, weil es ihn nur für sein ganzes Leben auf diese Weise erhalten hat. Wenn die Kamera auch den Dynamikbereich reduzieren würde, würden Sie bei Anzeige des Ergebnisses eine doppelte Reduzierung erzielen, und Ihr Gehirn ist nur an eine einfache Reduzierung gewöhnt. Wenn Sie die Welt mit einem Gerät betrachten würden, das dies tat, und Sie die Ansicht tagelang fortsetzten, würden Sie sich wie gewohnt daran gewöhnen. Entfernen Sie das Gerät danach und die Welt würde hart und übermäßig kontrastreich aussehen.
Skaperen

@ Kaperen Ich glaube nicht, dass ich unbedingt einen Logarithmus nennen würde, der den Dynamikbereich abflacht. Wenn Sie die Helligkeit logarithmisch und linear nebeneinander skalieren, erscheint die logarithmische Helligkeit möglicherweise flacher, ABER die Frage ist, wie viele Dezimalstellen sehen wir? Technisch gesehen würden beide Bilder immer noch die gleichen Informationen in unterschiedlichen Maßstäben enthalten - und die Skalierung ändert die enthaltenen Informationen nicht, solange keine Rundungsfehler auftreten.
DetlevCM

2

Das Auge erfasst den Dynamikbereich nicht. Es komprimiert den Dynamikbereich, und dann erzeugt die "Nachbearbeitung" im Gehirn die Illusion eines Dynamikbereichs. Ein komprimierter dynamischer Bereich ist der Grund, warum Sie gleichzeitig in Schatten und beleuchtete Bereiche sehen können. Die "Verstärkung" wird sozusagen automatisch in den Teilen der Netzhaut angehoben, die die Schatten wahrnehmen, wodurch sie heller und an Stellen, an denen die Netzhaut beleuchtete Bereiche sieht, verringert werden. Das Gehirn weiß immer noch, dass es in einen Schatten schaut, sodass es das Gefühl erzeugt, dass es dort dunkel ist. Es findet sozusagen eine Art Erweiterung der komprimierten Daten statt, sodass Sie nicht bemerken, dass der Dynamikbereich komprimiert wurde.

Die Sensoren in Digitalkameras könnten die Netzhaut im rohen Dynamikbereich leicht übertreffen. Das Problem ist, dass Sie die Belichtung nicht flächenbezogen steuern können. Kameras haben Verstärkungseinstellungen (normalerweise in der Filmterminologie als ISO-Einstellungen dargestellt), die global sind.

Was das Auge sozusagen tut, ist, als würde man gleichzeitig "ISO 100" für einen hellen Bereich und "ISO 800" für einen dunklen Bereich verwenden.

Wenn die Kamera die Verstärkung für bestimmte Pixelbereiche auf der Grundlage der Helligkeit einstellen könnte, wäre dies zweifellos nützlich, aber wir wissen aus der Anwendung solcher Verstärkungseffekte bei der Nachbearbeitung, dass sich das Gehirn nicht wirklich von ihnen täuschen lässt. Es sieht nicht natürlich aus. Es sieht nur dann natürlich aus, wenn Ihr eigenes Auge es in Abstimmung mit Ihrem eigenen Gehirn tut.


2

Dies ist eine interessante Frage, wenn Sie es zulassen, anstatt die offensichtlichen Gründe aufzuzeigen, warum Kameras bereits so hergestellt werden, wie sie hergestellt wurden.

Betrachten wir die nächstgelegene Option. Tone Mapping ist eine Methode, bei der ein Tiefpassfilter auf die Exponentenwerte des RGBe-Bildes angewendet wird. Das spielt eine große Rolle, wie Augen etwas sehen. Aber nehmen wir an, dass unsere Augen lange Bilder aufnehmen. Sie funktionieren viel mehr wie Videokameras als wie Fotokameras.

Die Tonwertzuordnung könnte erheblich verbessert werden, wenn sie wie ein GLSL-Shader aufgebaut wäre, der in Echtzeit mit einer speziellen Videokamera ausgeführt wird, die einen konstanten Strom von HDR-Bildern aufzeichnen kann.

In einem viel einfacheren Beispiel setzen sich die "HDR" -Fotos des iPhones aus einem Bild mit niedriger und hoher Belichtung zusammen, das durch einen Tonzuordnungsprozess erstellt wurde, der recht gut funktioniert, wenn Sie ihn nicht ausprobiert haben. Viele andere Consumer-Kameras machen ähnliche Dinge.

Es gibt auch das faszinierende Thema, wie Intuition / Intention / Freier Wille dazu beiträgt, wie Ihre Augen im Lauf der Zeit kalibriert werden. Wenn Sie auf eine dunkle Wand schauen und überlegen, Ihren Kopf in Richtung eines hell erleuchteten Fensters zu drehen, kann Ihr Gehirn Ihre Augen auffordern, die Pupillen zu schließen. Eine Kamera mit automatischer Belichtung kann dasselbe tun, jedoch nur, wenn zu viel Licht hereinkommt. Leute, die im Kino arbeiten, verbringen viel Zeit damit, das Timing der Einstellungen der Filmkameras so zu ändern, dass sie sich bei einer komplizierten Aufnahme natürlich anfühlen (oder eine Szene so zu beleuchten, dass die Kameraeinstellungen nicht angepasst werden müssen.) Aber der einzige Grund, warum solche Dinge funktionieren, ist, dass der Regisseur weiß, was mit der Kamera passieren wird, bevor es passiert.


0

Das größte Problem wäre die Reproduktion des aufgenommenen Bildes.

Es liegt nicht außerhalb des Bereichs der Technologie, einen Bildsensor und eine Bildkonfiguration zu entwickeln, die einen extrem großen Bereich von Helligkeitsstufen in einem einzelnen Bild erfassen. Am Ende geht es nur um das Zählen von Photonen, eine Technologie, die sich auf das erforderliche Maß skalieren lässt. Aktuelle Kameras verwenden in erster Linie Belichtungseinstellungen, um die vom Sensor wahrgenommene Helligkeit zu modulieren. Ein Großteil dieser Arbeit könnte jedoch im Sensor ausgeführt werden, was möglicherweise zu einem größeren Fehlerrauschen führt, aber Sie könnten mit Sicherheit einen größeren Bereich aus einem Fotosensor herausholen als Was ist derzeit auf dem Markt erhältlich.

Aber das Problem ist folgendes: wenn Sie das Bild haben, was Sie tun mit ihm? Sogar High-End-Displays verwenden immer noch 24-Bit-Farben, was bedeutet, dass nur 256 Schattierungen pro Farbkanal zulässig sind. Aktuelle Drucker sind in ähnlicher Weise eingeschränkt, wenn nicht noch mehr. Also eigentlich nichts werden könnte getan zuerst mit einem solchen Bild ohne irgendeine Verarbeitung den Bereich auf, was vorhandenen Kameras produzieren zu reduzieren.

Sie haben dieses Problem wahrscheinlich schon einmal gesehen: Die meisten aktuellen RAW-Formate speichern bereits einen größeren Bereich, als reproduziert werden kann, und der Farbbereich muss bereits komprimiert oder beschnitten werden, bevor Sie sich das Bild ansehen können. Wenn Sie der RAW-Ausgabe noch mehr Reichweite hinzufügen, ist dies in etwa gleich. Die Kamera würde wahrscheinlich dramatisch teurer sein , aber die Bilder nicht wesentlich besser, weil man noch den Bereich bis zu 24-Bit - Farbe hat hacken , bevor man es aussehen kann.

Vielleicht können Sie mit der richtigen Software und der richtigen Art von Benutzer dennoch etwas Wunderbares daraus machen. Es wäre wahrscheinlich nicht sehr anders als bei der aktuellen HDR-Fotografie, aber Sie müssten nicht mehrere Bilder aufnehmen.


2
Es sind nicht die Bits pro Farbe, die das Problem darstellen - sie bestimmen die Anzahl der unterschiedlichen Farbtöne, sagen aber nichts über den Gesamtbereich aus.
Mattdm

@mattdm true; Die Gesamtreichweite ist jedoch eine Funktion des Ausgabegeräts, die von den Bilddaten selbst unabhängig ist . Das Helligkeits- und Kontrastverhältnis auf meinem Display ist eine Funktion, die nur meinem Display bekannt ist, und wird nicht von der Kamera beeinflusst, mit der ich das Bild aufgenommen habe. Wiederum sind Ausgabegeräte der begrenzende Faktor, nicht Kameras. Allerdings sind die Bits pro Farbe macht den Bereich , in dem Sinne beeinflussen , dass Ihre Reichweite zu erhöhen , ohne die Anzahl der Ebenen innerhalb des Bereichs zu erhöhen Sie nur gibt ein heller / dunkler Bild , ohne dass Sie etwas mehr nach innen zu sehen.
tylerl
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.