Zunächst einmal haben weder IEEE-754-2008 noch -1985 16-Bit-Floats. Es handelt sich jedoch um eine vorgeschlagene Addition mit einem 5-Bit-Exponenten und einem 10-Bit-Bruch. IEE-754 verwendet ein dediziertes Vorzeichenbit, sodass der positive und der negative Bereich gleich sind. Außerdem hat der Bruch eine implizite 1 vor sich, sodass Sie ein zusätzliches Bit erhalten.
Wenn Sie die Genauigkeit an der Stelle wünschen, an der Sie jede Ganzzahl darstellen können, ist die Antwort ziemlich einfach: Der Exponent verschiebt den Dezimalpunkt zum rechten Ende des Bruchs. Ein 10-Bit-Bruch ergibt also ± 2 11 .
Wenn Sie ein Bit nach dem Dezimalpunkt möchten, geben Sie ein Bit davor auf, sodass Sie ± 2 10 haben .
Die einfache Genauigkeit hat einen 23-Bit-Bruch, sodass Sie ± 2 24 Ganzzahlen haben.
Wie viele Genauigkeitsbits Sie nach dem Dezimalpunkt benötigen, hängt ganz von den Berechnungen ab, die Sie durchführen, und wie viele Sie ausführen.
- 2 10 = 1.024
- 2 11 = 2,048
- 2 23 = 8,388,608
- 2 24 = 16.777.216
- 2 53 = 9.007.199.254.740.992 (doppelte Genauigkeit)
- 2 113 = 10.384.593.717.069.655.257.060.992.658.440.192 (Quad-Präzision)
Siehe auch