Gleitkommaformat mit einfacher Genauigkeit - Single-precision floating-point format

Das Gleitkommaformat mit einfacher Genauigkeit (manchmal auch als FP32 oder float32 bezeichnet ) ist ein Computerzahlenformat , das normalerweise 32 Bit im Computerspeicher belegt ; es repräsentiert einen breiten dynamischen Bereich numerischer Werte durch die Verwendung eines Gleitkommas .

Eine Gleitkommavariable kann auf Kosten der Genauigkeit einen größeren Zahlenbereich darstellen als eine Festkommavariable der gleichen Bitbreite. Ein signiertes 32-Bit - Integer - Variable hat einen Maximalwert von 2 ³¹ - 1 = 2,147,483,647, während eine IEEE 754 32-Bit - Basis-2 Gleitkommavariable einen Maximalwert von HAS (2 - 2 ^-23 ) × 2 ¹²⁷ ≈ 3,4028235 × 10 ³⁸ . Alle ganzen Zahlen mit 7 oder weniger Dezimalstellen und beliebigen 2 ⁿ für eine ganze Zahl −149 n ≤ 127 können exakt in einen IEEE 754-Gleitkommawert mit einfacher Genauigkeit umgewandelt werden.

Im IEEE 754-2008- Standard wird das 32-Bit-Base-2-Format offiziell als binary32 bezeichnet ; es wurde in IEEE 754-1985 als Single bezeichnet . IEEE 754 spezifiziert zusätzliche Gleitkommatypen, wie 64-Bit-Basis-2- Double-Precision und neuerdings auch Basis-10-Darstellungen.

Eine der ersten Programmiersprachen , die Gleitkommadatentypen mit einfacher und doppelter Genauigkeit bereitstellte, war Fortran . Vor der weit verbreiteten Einführung von IEEE 754-1985 hingen die Darstellung und Eigenschaften von Gleitkomma-Datentypen vom Computerhersteller und Computermodell sowie von Entscheidungen der Programmiersprachendesigner ab. ZB war der Datentyp mit einfacher Genauigkeit von GW-BASIC das 32-Bit-MBF- Gleitkommaformat.

Einfache Genauigkeit wird als REAL in Fortran , SINGLE-FLOAT in Common Lisp , Schwimmer in C , C ++ , C # , Java , Float in Haskell und Swift und Single in Object Pascal ( Delphi ), Visual Basic , und MATLAB . Allerdings Schwimmer in Python , Ruby - , PHP und OCaml und einzelne in Versionen von Octave vor 3.2 beziehen sich auf doppelte Genauigkeit Zahlen. In den meisten Implementierungen von PostScript und einigen eingebetteten Systemen ist die einzige unterstützte Genauigkeit Single.

Binäres Gleitkommaformat nach IEEE 754 mit einfacher Genauigkeit: binary32

Der IEEE 754-Standard spezifiziert eine binary32 mit:

Vorzeichenbit : 1 Bit
Exponentenbreite : 8 Bit
Signifikante Genauigkeit : 24 Bit (23 explizit gespeichert)

Dies ergibt eine Genauigkeit von 6 bis 9 signifikanten Dezimalstellen . Wenn eine Dezimalzeichenfolge mit höchstens 6 signifikanten Stellen in eine IEEE 754-Darstellung mit einfacher Genauigkeit umgewandelt und dann wieder in eine Dezimalzeichenfolge mit der gleichen Anzahl von Stellen umgewandelt wird, sollte das Endergebnis mit der ursprünglichen Zeichenfolge übereinstimmen. Wenn eine IEEE 754-Zahl mit einfacher Genauigkeit in eine Dezimalzeichenfolge mit mindestens 9 signifikanten Stellen umgewandelt und dann wieder in eine Darstellung mit einfacher Genauigkeit umgewandelt wird, muss das Endergebnis mit der ursprünglichen Zahl übereinstimmen.

Das Vorzeichenbit bestimmt das Vorzeichen der Zahl, das auch das Vorzeichen des Signifikanten ist. Der Exponent ist eine 8-Bit-Ganzzahl ohne Vorzeichen von 0 bis 255 in vorgespannter Form : ein Exponentenwert von 127 repräsentiert die tatsächliche Null. Exponenten reichen von −126 bis +127, da Exponenten von −127 (alle 0s) und +128 (alle 1s) für Sonderzahlen reserviert sind.

Der wahre Signifikand enthält 23 Bruchbits rechts vom Binärkomma und ein implizites führendes Bit (links vom Binärkomma) mit dem Wert 1, es sei denn, der Exponent wird mit Nullen gespeichert. Somit erscheinen nur 23 Bruchbits des Signifikanten im Speicherformat, aber die Gesamtgenauigkeit beträgt 24 Bit (entspricht log ₁₀ (2 ²⁴ ) 7,225 Dezimalstellen). Die Bits sind wie folgt angeordnet:

Der reelle Wert, der von einem gegebenen 32-Bit- Binär32- Datenwert mit einem gegebenen Vorzeichen , einem vorgespannten Exponenten e (der 8-Bit-Ganzzahl ohne Vorzeichen) und einem 23-Bit-Bruch angenommen wird, ist

(-1)^{b_{31}}\times 2^{(b_{30}b_{29}\dots b_{23})_{2}-127}\times (1.b_{22 .) }b_{21}\dotsb_{0})_{2}

,

was ergibt

{\text{value}}=(-1)^{\text{sign}}\times 2^{(E-127)}\times \left(1+\sum _{i=1}^ {23}b_{23-i}2^{-i}\right).

In diesem Beispiel:

${\text{Zeichen}}=b_{31}=0$ ,
$(-1)^{\text{sign}}=(-1)^{0}=+1\in \{-1,+1\}$ ,
$E=b_{30}b_{29}\dots b_{23}=\sum _{i=0}^{7}b_{23+i}2^{+i}=124\in \{ 1,\ldots ,(2^{8}-1)-1\}=\{1,\ldots ,254\}$ ,
$2^{(E-127)}=2^{124-127}=2^{-3}\in \{2^{-126},\ldots,2^{127}\}$ ,
$1.b_{22}b_{21}...b_{0}=1+\sum_{i=1}^{23}b_{23-i}2^{-i}=1+ 1\cdot 2^{-2}=1,25\in \{1,1+2^{-23},\ldots ,2-2^{-23}\}\subset [1;2-2^{- 23}]\Teilmenge [1;2)$ .

daher:

${\text{value}}=(+1)\times 2^{-3}\times 1,25=+0,15625$ .

Notiz:

$1+2^{-23}\ca. 1.000\,000\,119$ ,
$2-2^{-23}\ca. 1,999\,999\,881$ ,
$2^{-126}\approx 1,175\,494\,35\times 10^{-38}$ ,
$2^{+127}\ca. 1.701\,411\,83\times 10^{+38}$ .

Exponentencodierung

Der binäre Gleitkomma-Exponent mit einfacher Genauigkeit wird unter Verwendung einer Offset-Binär- Darstellung codiert , wobei der Null-Offset 127 beträgt; im IEEE 754-Standard auch als Exponent-Bias bekannt.

E _min = 01 _H -7F _H = -126
E _max = FE _H -7F _H = 127
Exponenten-Bias = 7F _H = 127

Um also den wahren Exponenten zu erhalten, wie er durch die Offset-Binärdarstellung definiert ist, muss der Offset von 127 vom gespeicherten Exponenten subtrahiert werden.

Die gespeicherten Exponenten 00 _H und FF _H werden speziell interpretiert.

Exponent	Bruch = 0	Bruch ≠ 0	Gleichung
00 _H = 00000000 ₂	±null	subnormale Zahl	$(-1)^{Zeichen}\times 2^{-126}\times 0.fraction$
01 _H , ..., FE _H = 0000001 ₂ , ..., 11111110 ₂	Normaler Wert		$(-1)^{Zeichen}\times 2^{Exponent-127}\times 1.Bruch$
FF _H = 11111111 ₂	± unendlich	NaN (ruhig, signalisierend)

Der minimale positive Normalwert ist und der minimale positive (subnormale) Wert ist . $2^{-126}\approx 1,18\times 10^{-38}$ $2^{-149}\approx 1,4\times 10^{-45}$

Konvertieren von der Dezimaldarstellung in das Binär32-Format

Im Allgemeinen beziehen Sie sich auf den IEEE 754-Standard selbst für die strikte Konvertierung (einschließlich des Rundungsverhaltens) einer reellen Zahl in das entsprechende binäre32-Format.

Hier können wir zeigen, wie man eine reelle Zahl zur Basis 10 in ein IEEE 754-Binär32-Format umwandelt, indem wir die folgende Übersicht verwenden:

Betrachten Sie eine reelle Zahl mit einer ganzen Zahl und einem Bruchteil wie 12,375
Konvertieren und normalisieren Sie den ganzzahligen Teil in binär
Konvertieren Sie den Bruchteil mit der folgenden Technik, wie hier gezeigt
Fügen Sie die beiden Ergebnisse hinzu und passen Sie sie an, um eine korrekte endgültige Konvertierung zu erzielen

Umrechnung des Bruchteils: Betrachten Sie 0,375, den Bruchteil von 12,375. Um ihn in einen binären Bruch umzuwandeln, multiplizieren Sie den Bruch mit 2, nehmen Sie den ganzzahligen Teil und wiederholen Sie mit dem neuen Bruch mit 2, bis ein Bruch von Null gefunden wird oder bis die Genauigkeitsgrenze erreicht ist, die 23 Nachkommastellen für das binäre 32-Format nach IEEE 754 beträgt .

0.375\times 2=0.750=0+0.750\Rightarrow b_{-1}=0

, der ganzzahlige Teil stellt die binäre Bruchziffer dar. Multiplizieren Sie 0,750 erneut mit 2, um fortzufahren

0.750\times 2=1.500=1+0.500\Rightarrow b_{-2}=1

0.500\times 2=1.000=1+0.000\Rightarrow b_{-3}=1

, Bruch = 0,011, terminieren

Wir sehen, dass dies in binär als genau dargestellt werden kann . Nicht alle Dezimalbrüche können in einem endlichen binären Bruch dargestellt werden. Dezimal 0,1 kann beispielsweise nicht exakt binär dargestellt werden, sondern nur angenähert. Deswegen: $(0,375)_{10}$ $(0.011)_{2}$

(12.375)_{10}=(12)_{10}+(0.375)_{10}=(1100)_{2}+(0.011)_{2}=(1100.011)_{2}

Da das IEEE 754-Binär32-Format erfordert, dass reelle Werte im Format dargestellt werden (siehe Normalisierte Zahl , Denormalisierte Zahl ), wird 1100.011 um 3 Stellen nach rechts verschoben, um zu . zu werden $(1.x_{1}x_{2}...x_{23})_{2}\times 2^{e}$ $(1.100011)_{2}\times 2^{3}$

Endlich können wir das sehen: $(12.375)_{10}=(1.100011)_{2}\times 2^{3}$

Daraus leiten wir ab:

Der Exponent ist 3 (und in der verzerrten Form ist er daher ) $130=1000\ 0010$
Der Bruch ist 100011 (Blick nach rechts vom Binärkomma)

Aus diesen können wir die resultierende 32-Bit-IEEE 754-Binär32-Formatdarstellung von 12.375 bilden:

(12.375)_{10}=(0\ 100000010\ 10001100000000000000000)_{2}=(41460000)_{16}

Hinweis: Ziehen Sie in Betracht, 68.123 in das IEEE 754-Binär32-Format zu konvertieren: Wenn Sie das obige Verfahren verwenden, erwarten Sie, dass die letzten 4 Bits 1001 sind. Aufgrund des standardmäßigen Rundungsverhaltens des IEEE 754-Formats erhalten Sie jedoch , dessen letzte 4 Bits sind 1010. $({\text{42883EF9}})_{16}$ $({\text{42883EFA}})_{16}$

Beispiel 1: Betrachten Sie Dezimal 1. Wir können das sehen: $(1)_{10}=(1.0)_{2}\times 2^{0}$

Daraus leiten wir ab:

Der Exponent ist 0 (und in der verzerrten Form daher ) $127=0111\ 1111$
Der Bruch ist 0 (ein Blick nach rechts vom Binärkomma in 1.0 ist alles ) $0=000...0$

Aus diesen können wir die resultierende 32-Bit-Darstellung im binären32-Format nach IEEE 754 der reellen Zahl 1 bilden:

(1)_{10}=(0\ 01111111\ 00000000000000000000000)_{2}=({\text{3F800000}})_{16}

Beispiel 2: Betrachten Sie einen Wert von 0,25. Wir können das sehen: $(0.25)_{10}=(1.0)_{2}\times 2^{-2}$

Daraus leiten wir ab:

Der Exponent ist −2 (und in der verzerrten Form ist er ) $(127+(-2))_{10}=(125)_{10}=(0111\ 1101)_{2}$
Der Bruch ist 0 (rechts vom Binärkomma in 1.0 sind alle Nullen)

Daraus können wir die resultierende 32-Bit-Darstellung im binären 32-Bit-IEEE 754-Format der reellen Zahl 0,25 bilden:

(0,25)_{10}=(0\ 01111101\ 00000000000000000000000)_{2}=({\text{3E800000}})_{16}

Beispiel 3: Betrachten Sie einen Wert von 0,375. Das haben wir gesehen $0.375={(0.011)_{2}}={(1.1)_{2}}\times 2^{-2}$

Daher können wir nach der Bestimmung einer Darstellung von 0,375 wie oben vorgehen: ${(1.1)_{2}}\times 2^{-2}$

Der Exponent ist −2 (und in der verzerrten Form ist er ) $(127+(-2))_{10}=(125)_{10}=(0111\ 1101)_{2}$
Der Bruch ist 1 (rechts vom Binärkomma in 1.1 ist ein einzelner ) $1=x_{1}$

Aus diesen können wir die resultierende 32-Bit-Darstellung im binären 32-Format nach IEEE 754 der reellen Zahl 0,375 bilden:

(0.375)_{10}=(0\ 01111101\ 10000000000000000000000)_{2}=({\text{3EC00000}})_{16}

Single-Precision-Beispiele

Diese Beispiele werden in Bit- Darstellung , in hexadezimaler und binärer Form , des Gleitkommawerts angegeben. Dazu gehören das Vorzeichen, der (verzerrte) Exponent und der Signifikand.

0 00000000 00000000000000000000001₂ = 0000 0001₁₆ = 2⁻¹²⁶ × 2⁻²³ = 2⁻¹⁴⁹ ≈ 1.4012984643 × 10⁻⁴⁵
                                                   (smallest positive subnormal number)

0 00000000 11111111111111111111111₂ = 007f ffff₁₆ = 2⁻¹²⁶ × (1 − 2⁻²³) ≈ 1.1754942107 ×10⁻³⁸
                                                   (largest subnormal number)

0 00000001 00000000000000000000000₂ = 0080 0000₁₆ = 2⁻¹²⁶ ≈ 1.1754943508 × 10⁻³⁸
                                                   (smallest positive normal number)

0 11111110 11111111111111111111111₂ = 7f7f ffff₁₆ = 2¹²⁷ × (2 − 2⁻²³) ≈ 3.4028234664 × 10³⁸
                                                   (largest normal number)

0 01111110 11111111111111111111111₂ = 3f7f ffff₁₆ = 1 − 2⁻²⁴ ≈ 0.999999940395355225
                                                   (largest number less than one)

0 01111111 00000000000000000000000₂ = 3f80 0000₁₆ = 1 (one)

0 01111111 00000000000000000000001₂ = 3f80 0001₁₆ = 1 + 2⁻²³ ≈ 1.00000011920928955
                                                   (smallest number larger than one)

1 10000000 00000000000000000000000₂ = c000 0000₁₆ = −2
0 00000000 00000000000000000000000₂ = 0000 0000₁₆ = 0
1 00000000 00000000000000000000000₂ = 8000 0000₁₆ = −0
                                   
0 11111111 00000000000000000000000₂ = 7f80 0000₁₆ = infinity
1 11111111 00000000000000000000000₂ = ff80 0000₁₆ = −infinity
                                   
0 10000000 10010010000111111011011₂ = 4049 0fdb₁₆ ≈ 3.14159274101257324 ≈ π ( pi )
0 01111101 01010101010101010101011₂ = 3eaa aaab₁₆ ≈ 0.333333343267440796 ≈ 1/3
                                   
x 11111111 10000000000000000000001₂ = ffc0 0001₁₆ = qNaN (on x86 and ARM processors)
x 11111111 00000000000000000000001₂ = ff80 0001₁₆ = sNaN (on x86 and ARM processors)

Aufgrund der geraden Anzahl von Bits im Signifikand wird standardmäßig 1/3 aufgerundet, anstatt wie doppelte Genauigkeit abzurunden. Die Bits von 1/3 hinter dem Rundungspunkt sind das, 1010...was an letzter Stelle mehr als 1/2 einer Einheit ist .

Kodierungen von qNaN und sNaN sind in IEEE 754 nicht spezifiziert und auf verschiedenen Prozessoren unterschiedlich implementiert. Die Prozessoren der x86- Familie und der ARM- Familie verwenden das höchstwertige Bit des Signifikand-Feldes, um ein ruhiges NaN anzuzeigen. Die PA-RISC- Prozessoren verwenden das Bit, um eine Signalisierungs-NaN anzuzeigen.

Konvertieren von binär mit einfacher Genauigkeit in dezimal

Wir beginnen in diesem Beispiel mit der hexadezimalen Darstellung des Wertes 41C80000 und wandeln ihn in binär um:

{\text{41C8 0000}}_{16}=0100\ 0001\ 1100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}

dann zerlegen wir es in drei Teile: Vorzeichenbit, Exponent und Signifikant.

Vorzeichenbit: $0_{2}$
Exponent: $1000\ 0011_{2}=83_{16}=131_{10}$
Bedeutung: $100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}=480000_{16}$

Dann fügen wir das implizite 24. Bit zum Signifikanten hinzu:

Bedeutung: $\mathbf {1} 100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}={\text{C80000}}_{16}$

und decodiere den Exponentenwert durch Subtrahieren von 127:

Rohexponent: $83_{16}=131_{10}$
Dekodierter Exponent: $131-127=4$

Jedes der 24 Bits des Signifikanten (einschließlich des impliziten 24. Bits), Bit 23 bis Bit 0, stellt einen Wert dar, beginnend bei 1 und halbiert sich für jedes Bit wie folgt:

bit 23 = 1
bit 22 = 0.5
bit 21 = 0.25
bit 20 = 0.125
bit 19 = 0.0625
bit 18 = 0.03125
.
.
bit 0 = 0.00000011920928955078125

Der Signifikant in diesem Beispiel hat drei gesetzte Bits: Bit 23, Bit 22 und Bit 19. Wir können nun den Signifikanten decodieren, indem wir die durch diese Bits repräsentierten Werte addieren.

Dekodierte Bedeutung: $1+0.5+0.0625=1.5625={\text{C80000}}/2^{23}$

Dann müssen wir mit der Basis 2 hoch des Exponenten multiplizieren, um das Endergebnis zu erhalten:

1.5625\times 2^{4}=25

Daher

{\text{41C8 0000}}=25

Dies ist äquivalent zu:

n=(-1)^{s}\times (1+m*2^{-23})\times 2^{x-127}

wobei $s$ das Vorzeichenbit ist, $x$ der Exponent ist und $m$ der Signifikand ist.

Genauigkeitsbeschränkungen für Dezimalwerte in [1, 16777216]

Dezimalstellen zwischen 1 und 2: festes Intervall 2 ⁻²³ (1+2 ⁻²³ ist der nächstgrößere Float nach 1)
Dezimalstellen zwischen 2 und 4: festes Intervall 2 ⁻²²
Dezimalstellen zwischen 4 und 8: festes Intervall 2 ⁻²¹
...
Dezimalstellen zwischen 2 ⁿ und 2 ⁿ⁺¹ : festes Intervall 2 ^n-23
...
Dezimalstellen zwischen 2 ²² =4194304 und 2 ²³ =8388608: festes Intervall 2 ⁻¹ =0.5
Dezimalstellen zwischen 2 ²³ =8388608 und 2 ²⁴ =16777216: festes Intervall 2 ⁰ =1

Genauigkeitsbeschränkungen für ganzzahlige Werte

Ganzzahlen zwischen 0 und 16777216 können exakt dargestellt werden (gilt auch für negative Ganzzahlen zwischen −16777216 und 0)
Ganzzahlen zwischen 2 ²⁴ =16777216 und 2 ²⁵ =33554432 runden auf ein Vielfaches von 2 (gerade Zahl)
Ganzzahlen zwischen 2 ²⁵ und 2 ²⁶ runden auf ein Vielfaches von 4
...
Ganzzahlen zwischen 2 ⁿ und 2 ⁿ⁺¹ runden auf ein Vielfaches von 2 ^n-23
...
Ganzzahlen zwischen 2¹²⁷ und 2¹²⁸ runden auf ein Vielfaches von 2¹⁰⁴
Ganzzahlen größer oder gleich 2 ¹²⁸ werden auf "unendlich" gerundet.

Optimierungen

Das Design des Gleitkommaformats ermöglicht verschiedene Optimierungen, die sich aus der einfachen Generierung einer Basis-2-Logarithmus- Approximation aus einer ganzzahligen Sicht des Rohbitmusters ergeben. Ganzzahlarithmetik und Bitverschiebung können eine Annäherung an die reziproke Quadratwurzel ( schnelle inverse Quadratwurzel ) ergeben, die üblicherweise in der Computergrafik benötigt wird .

Siehe auch

Verweise

Externe Links

Languages

In other projects

Gleitkommaformat mit einfacher Genauigkeit - Single-precision floating-point format

Inhalt

Binäres Gleitkommaformat nach IEEE 754 mit einfacher Genauigkeit: binary32

Exponentencodierung

Konvertieren von der Dezimaldarstellung in das Binär32-Format

Single-Precision-Beispiele

Konvertieren von binär mit einfacher Genauigkeit in dezimal

Genauigkeitsbeschränkungen für Dezimalwerte in [1, 16777216]

Genauigkeitsbeschränkungen für ganzzahlige Werte

Optimierungen

Siehe auch

Verweise

Externe Links