浮點類型全面解讀

2021-02-25 嵌入式情報局
前言

今天,我們來思考幾個問題:

為什麼負數要用補碼表示?

十進位小數怎麼轉成二進位?

計算機是怎麼存小數的?

0.1 + 0.2 == 0.3 嗎?

別看這些問題都看似簡單,但是其實還是有點東西的這些問題。

正文為什麼負數要用補碼表示?

十進位轉換二進位的方法相信大家都熟能生巧了,如果你說你還不知道,我覺得你還是太謙虛,可能你只是忘記了,即使你真的忘記了,不怕,貼心的小林在和你一起回憶一下。

十進位數轉二進位採用的是除 2 取餘法,比如數字 8 轉二進位的過程如下圖:

接著,我們看看「整數類型」的數字在計算機的存儲方式,這其實很簡單,也很直觀,就是將十進位的數字轉換成二進位即可。

我們以 int 類型的數字作為例子,int 類型是 32 位的,其中最高位是作為「符號標誌位」,正數的符號位是 0,負數的符號位是 1,剩餘的 31 位則表示二進位數據

那麼,對於 int 類型的數字 1 的二進位數表示如下:

而負數就比較特殊了點,負數在計算機中是以「補碼」表示的,所謂的補碼就是把正數的二進位全部取反再加 1,比如 -1 的二進位是把數字 1 的二進位取反後再加 1,如下圖:

不知道你有沒有想過,為什麼計算機要用補碼的方式來表示負數?在回答這個問題前,我們假設不用補碼的方式來表示負數,而只是把最高位的符號標誌位變為 1 表示負數,如下圖過程:

如果採用這種方式來表示負數的二進位的話,試想一下 -2 + 1 的運算過程,如下圖:

按道理,-2 + 1 = -1,但是上面的運算過程中得到結果卻是 -3,所可以發現,這種負數的表示方式是不能用常規的加法來計算了,就需要特殊處理,要先判斷數字是否為負數,如果是負數就要把加法操作變成減法操作才可以得到正確對結果。

到這裡,我們就可以回答前面提到的「負數為什麼要用補碼方式來表示」的問題了。

如果負數不是使用補碼的方式表示,則在做基本對加減法運算的時候,還需要多一步操作來判斷是否為負數,如果為負數,還得把加法反轉成減法,或者把減法反轉成加法,這就非常不好了,畢竟加減法運算在計算機裡是很常使用的,所以為了性能考慮,應該要儘量簡化這個運算過程。

而用了補碼的表示方式,對於負數的加減法操作,實際上是和正數加減法操作一樣的。你可以看到下圖,用補碼表示的負數在運算 -2 + 1 過程的時候,其結果是正確的:

十進位小數與二進位的轉換

好了,整數十進位轉二進位我們知道了,接下來看看小數是怎麼轉二進位的,小數部分的轉換不同於整數部分,它採用的是乘 2 取整法,將十進位中的小數部分乘以 2 作為二進位的一位,然後繼續取小數部分乘以 2 作為下一位,直到不存在小數為止。

話不多說,我們就以 8.625 轉二進位作為例子,直接上圖:

最後把「整數部分 + 小數部分」結合在一起後,其結果就是 1000.101。

但是,並不是所有小數都可以用二進位表示,前面提到的 0.625 小數是一個特例,剛好通過乘 2 取整法的方式完整的轉換成二進位,如果我們用相同的方式,來把 0.1 轉換成二進位,過程如下:

可以發現,0.1 的二進位表示是無限循環的,由於計算機的資源是有限的,所以是沒辦法用二進位精確的表示 0.1,只能用「近似值」來表示,就是在有限的精度情況下,最大化接近 0.1 的二進位數,於是就會造成精度缺失的情況

對於二進位小數轉十進位時,需要注意一點,小數點後面的指數冪是負數,比如二進位 0.1 轉成十進位就是 2^(-1),也就是十進位 0.5,二進位 0.01 轉成十進位就是 2^-2,也就是十進位 0.25,以此類推。

舉個例子,二進位 1010.101 轉十進位的過程,如下圖:

計算機是怎麼存小數的?

1000.101 這種二進位小數是「定點數」形式,代表著小數點是定死的,不能移動,如果你移動了它的小數點,這個數就變了, 就不再是它原來的值了。

然而,計算機並不是這樣存儲的小數的,計算機存儲小數的採用的是浮點數,名字裡的「浮點」表示小數點是可以浮動的,比如 1000.101 這個二進位數,可以表示成 1.000101 x 2^(-3),類似於數學上的科學記數法。

既然提到了科學計數法,我再幫大家複習一下,比如有個很大的十進位數 1230000,我們可以也可以表示成 1.23 x 10^6,這種方式就稱為科學記數法,該方法在小數點左邊只有一個數字,而且把這種整數部分沒有前導 0 的數字稱為規格化,比如 1.0 x 10^(-9) 是規格化的科學記數法,而 0.1 x 10^(-9) 和 10.0 x 10^(-9) 就不是了。

因此,如果二進位要用到科學記數法,同時要規範化,那麼不僅要保證基數為 2,還要保證小數點左側只有 1 位,而且必須為 1,所以通常將 1000.101 這種二進位數,表示成 1.000101 x 2^(-3),其中,最為關鍵的是 000101 和 -3 這兩個東西,它就可以包含了這個二進位小數的所有信息,000101 稱為尾數,即小數點後面的數字,-3 稱為指數,指定了小數點在數據中的位置。

現在絕大多數計算機使用的浮點數,一般採用的是 IEEE 制定的國際標準,這種標準形式如下圖:

這三個重要部分的意義如下:

符號位:表示數字是正數還是負數,為 0 表示正數,為 1 表示負數;

指數位:指定了小數點在數據中的位置,指數可以是負數,也可以是正數,指數位的長度越長則數值的表達範圍就越大

尾數位:小數點右側的數字,也就是小數部分,比如二進位 1.0011 x 2^(-2),尾數部分就是 0011,而且尾數的長度決定了這個數的精度,因此如果要表示精度更高的小數,則就要提高尾數位的長度;

用 32 位來表示的浮點數,則稱為單精度浮點數,也就是我們程式語言中的 float 變量,而用 64 位來表示的浮點數,稱為雙精度浮點數,也就是 double 變量,它們的結構如下:

可以看到:

double 的尾數部分是 52 位,float 的尾數部分是 23 位,由於同時都帶有一個固定隱含位(這個後面會說),所以 double 有 53 個二進位有效位,float 有 24 個二進位有效位,所以所以它們的精度在十進位中分別是 log10(2^53) 約等於 15.95 和 log10(2^24)約等於 7.22 位,因此 double 的有效數字是 15~16 位,float 的有效數字是 7~8位,這些是有效位是包含整數部分和小數部分;

double 的指數部分是 11 位,而 float 的指數位是 8 位,意味著 double 相比 float 能表示更大的數值範圍;

那二進位小數,是如何轉換成二進位浮點數的呢?我們就以 10.625 作為例子,看看這個數字在 float 裡是如何存儲的。

首先,我們計算出 10.625 的二進位小數為 1010.101,然後把小數點,移動到第一個有效數字後面,即將 1010.101 右移 3 位成 1.010101,右移 3 位就代表 +3,左移 3 位就是 -3,float 中的「指數位」就跟這裡移動的位數有關係,把移動的位數再加上「偏移量」,float 的話偏移量是 127,相加後就是指數位的值了,即指數位這 8 位存的是 10000010(十進位 130),因此你可以認為「指數位」相當於指明了小數點在數據中的位置。

1.010101 這小數點右側的數字就是 float 裡的「尾數位」,由於尾數位是 23 位,則後面要補充 0,所以最終尾數位存儲的數字是 01010100000000000000000。

在算指數的時候,你可能會有疑問為什麼要加上偏移量呢?

前面也提到,指數可能是正數,也可能是負數,即指數是有符號的整數,而有符號整數的計算是比無符號整數麻煩的,所以為了減少不必要的麻煩,在實際存儲指數的時候,需要把指數轉換成無符號整數,float 的指數部分是 8 位,IEEE 標準規定單精度浮點的指數取值範圍是 -127 ~ +128,於是為了把指數轉換成無符號整數,就要加個偏移量,比如 float 的指數偏移量是 127,這樣指數就不會出現負數了。

比如,指數如果是 8,則實際存儲的指數是 8 + 127 = 135,即把 135 轉換為二進位之後再存儲,而當我們需要計算實際的十進位數的時候,再把指數減去偏移量即可。

細心的朋友肯定發現,移動後的小數點左側的有效位(即 1)消失了,它並沒有存儲到 float 裡,這是因為 IEEE 標準規定,二進位浮點數的小數點左側只能有 1 位,並且還只能是 1,既然這一位永遠都是 1,那就可以不用存起來了,於是就讓 23 位尾數隻存儲小數部分,電路在計算時會自動把這個 1 加上,這樣就可以節約 1 位的空間,尾數就能多存一位小數,相應的精度就更高了一點。

那麼,對於我們在從 float 的二進位浮點數轉換成十進位時,要考慮到這個隱含的 1,轉換公式如下:

舉個例子,我們把下圖這個 float 的數據轉換成十進位,過程如下:

0.1 + 0.2 == 0.3 ?

前面提到過,並不是所有小數都可以用「完整」的二進位來表示的,比如十進位 0.1 在轉換成二進位小數的時候,是一串無限循環的二進位數,計算機是無法表達無限循環的二進位數的,畢竟計算機的資源是有限。

因此,計算機只能用「近似值」來表示該二進位,那麼意味著計算機存放的小數可能不是一個真實值,現在基本都是用 IEEE 754 規範的單精度浮點類型或雙精度浮點類型來存儲小數的,根據精度的不同,近似值也會不同。

那計算機是存儲 0.1 是一個怎麼樣的二進位浮點數呢?偷個懶,我就不自己手動算了,可以使用 binaryconvert 這個工具,將十進位 0.1 小數轉換成 float 浮點數:

可以看到,8 位指數部分是 01111011,23 位的尾數部分是 10011001100110011001101,可以看到尾數部分是 0011 是一直循環的,只不過尾數是有長度限制的,所以只會顯示一部分,所以是一個近似值,精度十分有限。

接下來,我們看看 0.2 的 float 浮點數:

可以看到,8 位指數部分是 01111100,稍微和 0.1 的指數不同,23 位的尾數部分是 10011001100110011001101 和 0.1 的尾數部分是相同的,也是一個近似值。

0.1 的二進位浮點數轉換成十進位的結果是 0.100000001490116119384765625:

0.2 的二進位浮點數轉換成十進位的結果是 0.20000000298023223876953125:

這兩個結果相加就是 0.300000004470348358154296875:

所以,你會看到在計算機中 0.1 + 0.2 並不等於完整的 0.3,這主要是因為有的小數無法可以用「完整」的二進位來表示,所以計算機裡只能採用近似數的方式來保存,那兩個近似數相加,得到的必然也是一個近似數。

我們在 JavaScript 裡執行 0.1 + 0.2,你會得到下面這個結果:

結果和我們前面推到的類似,因為 JavaScript 對於數字都是使用 IEEE 754 標準下的雙精度浮點類型來存儲的,而我們二進位只能精準表達 2 除盡的數字 1/2, 1/4, 1/8,但是例如 0.1(1/10) 和 0.2(1/5),在二進位中都無法精準表示時,需要根據精度捨入。

我們人類熟悉的十進位運算系統,可以精準表達 2 和 5 除盡的數字,例如1/2, 1/4, 1/5(0.2), 1/8, 1/10(0.1)。當然,十進位也有無法除盡的地方,例如 1/3, 1/7,也需要根據精度捨入。

總結

最後,再來回答開頭多問題。

為什麼負數要用補碼表示?

負數之所以用補碼的方式來表示,主要是為了統一和正數的加減法操作一樣,畢竟數字的加減法是很常用的一個操作,就不要搞特殊化,儘量以統一的方式來運算。

十進位小數怎麼轉成二進位?

十進位整數轉二進位使用的是「除 2 取餘法」,十進位小數使用的是「乘 2 取整法」。

計算機是怎麼存小數的?

計算機是以浮點數的形式存儲小數的,大多數計算機都是 IEEE 754 標準定義的浮點數格式,包含三個部分:

符號位:表示數字是正數還是負數,為 0 表示正數,為 1 表示負數;

指數位:指定了小數點在數據中的位置,指數可以是負數,也可以是正數,指數位的長度越長則數值的表達範圍就越大;

尾數位:小數點右側的數字,也就是小數部分,比如二進位 1.0011 x 2^(-2),尾數部分就是 0011,而且尾數的長度決定了這個數的精度,因此如果要表示精度更高的小數,則就要提高尾數位的長度;

用 32 位來表示的浮點數,則稱為單精度浮點數,也就是我們程式語言中的 float 變量,而用 64 位來表示的浮點數,稱為雙精度浮點數,也就是 double 變量。

0.1 + 0.2 == 0.3 嗎?

不是的,0.1 和 0.2 這兩個數字用二進位表達會是一個一直循環的二進位數,比如 0.1 的二進位表示為 0.0 0011 0011 0011… (0011 無限循環),對於計算機而言,0.1 無法精確表達,這是浮點數計算造成精度損失的根源。

因此,計算機只能用「近似值」來表示該二進位,那麼意味著計算機存放的小數可能不是一個真實值。

0.1 + 0.2 並不等於完整的 0.3,這主要是因為這兩個小數無法用「完整」的二進位來表示,所以計算機裡只能採用近似數的方式來保存,那兩個近似數相加,得到的必然也是一個近似數。

長按前往圖中包含的公眾號關注

相關焦點

  • 探究PHP浮點類型取整的使用規則
    探究PHP浮點類型取整的使用規則 PHP浮點類型取整的函數有很多種,包括ceil,floor,round,intval。我們可以根據自己的實際情況來具體的選用,以達到我們的需求。
  • MSSQL數據類型-浮點數據類型 (real、float、decimal、numeric)
    浮點數據類型包括real型、float型、decimal型和numeric型。浮點數據類型用於存儲十進位小數。在SQL Server 中浮點數值的數據採用上捨入(Round up)的方式進行存儲,所謂上捨入也就是,要捨入的小數部分不論其大小,只要是一個非零的數,就要在該數字的最低有效位上加1,並進行必要的進位。由於浮點數據為近似值,所以並非數據類型範圍內的所有數據都能精確地表示。real型數據的存儲大小為4個字節,可精確到小數點後第7位數字。
  • Go 數據類型篇(二):布爾類型、整型、浮點型和複數類型
    布爾值 FALSE 本身整型值 0(零)浮點型值 0.0(零)空字符串,以及字符串 "0"不包括任何元素的數組特殊類型 NULL(包括尚未賦值的變量)從空標記生成的 SimpleXML 對象而在 Go 語言中則不然,不同類型的值不能使用 == 或 !
  • MATLAB小數(浮點數)類型
    如果某個數據沒有被指定數據類型,那麼 MATLAB 會用雙精度浮點數來存儲它。為了得到其他類型的數值類型,可以使用類型轉換函數。MATLAB 中的雙精度浮點數和單精度浮點數均採用 IEEE 754 中規定的格式來定義。其表示範圍、存儲大小和類型轉換函數如下表所示。
  • 偽·從零開始學Python - 2.2.1 基本數據類型 - 整型與浮點型
    數據類型簡介儘管都是0和1的序列,但數據在計算機裡的存儲方式千差萬別。我們考慮存儲空間、字節大小、效率、容錯性等因素,根據數據的不同,也會讓計算機以不同的方式存儲數據。這些方式的不同,就是各個數據類型的不同。不同的程式語言都會對數據類型進行定義和分別。Python自身有三大數據類型:整型、浮點型和字符串。整型和浮點型又分多個數據類型。Python內置的整型有整數和布爾型,自身提供的浮點型有浮點數、複數和十進位數字(decimal.Decimal)。
  • MySQL資料庫中float、double、decimal三個浮點類型到底有什麼區別?
    首先我們先來了解一下每個浮點類型的存儲大小和範圍,如下表:| 類型       | 大小                                     | 範圍(有符號)                                               | 範圍(無符號)
  • 浮點型數據存儲方式分析
    在面試的過程中一般面試官也很少問關於浮點數的問題,因為浮點數對於很多的處理器是不支持的,對於上層應用的程式設計師而言,存儲類型的問題都會考慮,但是對於嵌入式程式設計師掌握內存的分配情況是必須的,只有這樣才能把握基本的操作,關於浮點型數據,在C語言中存在兩種類型的浮點型,其中一種是單精度的浮點型 (float)、雙精度的浮點型(double)。
  • 浮點峰值那些事
    本文只介紹Intel x86-64架構,並且只針對單精度float類型。浮點峰值的計算,一般是計算單位時間內,乘法和加法的最大總吞吐量,單位是GFLOPS或者TFLOPS,表示每秒鐘計算乘法和加法的總次數。
  • 定點DSP C55X實現浮點相關運算
    大多數DSP的開發工具只是在C語言的基礎上支持標準的浮點運算,而定點DSP硬體一般都是面向定點的運算,不支持標準的浮點運算,缺乏硬體的支持極大地限制了浮點的應用,因而標準的浮點運算在實際定點DSP應用中並不多見。C5509是一款16位定點DSP。在本文中,對C5509輸入FTSK信號,用C語言和彙編語言混合編程的方式對輸入浮點型的FTSK信號進行相關運算,並輸出浮點運算結果。
  • 變量專題之二:double,float和浮點變量底層表示
    整數只是數字世界的一部分,為了讓計算機運行能夠進一步映射數學運算,我們引入了浮點變量類型。浮點類型其實就是小數類型。小數在程序界被稱為浮點數 (Floating-point arithmetic),這個名稱的由來和浮點數在計算機底層中的存在方式有關。
  • Python實驗課:Python數字類型
    intNum += 30floatNum += 100.05print(intNum)print(floatNum)下圖是代碼截圖3、整型與浮點類型計算整型和浮點類型的計算,和普通的四則運算一樣,也不用擔心數據類型的轉換問題,Python會自動在整型和浮點類型間轉換。
  • DSP編程技巧之22---詳解浮點運算的定點編程
    我們使用的處理器一般情況下,要麼直接支持硬體的浮點運算,比如某些帶有FPU的器件,要麼就只支持定點運算,此時對浮點數的處理需要通過編譯器來完成。在支持硬體浮點處理的器件上,對浮點運算的編程最快捷的方法就是直接使用浮點類型,比如單精度的float來完成。
  • C語言的數據類型簡述
    >(1)整型類型。整型類型包含:基本整型(int)、短整型(short int)、長整型(long int)、雙長整型(long long int)、字符型(char)和布爾型(bool)。註:整型數據可在類型符號前面加修飾符:signed(有符號整數類型)和unsigned(無符號整數類型),若不指定則默認為「有符號類型」。
  • MySQL欄位類型最全解析
    要了解一個資料庫,我們必須了解其支持的數據類型。MySQL 支持大量的欄位類型,其中常用的也有很多。前面文章我們也講過 int 及 varchar 類型的用法,但一直沒有全面講過欄位類型,本篇文章我們將把欄位類型一網打盡,講一講常用欄位類型的用法。
  • AMD顯卡將支持BFloat16浮點:AI性能飛躍
    GitHub開源社區最新公布的AMD ROCm開發庫顯示,AMD GPU將在未來加入對BFloat16(BF16)浮點指令的支持,相比現在的FP16浮點可帶來巨大的飛躍。BF16可以視為精簡版的FP32單精度浮點指令,使用8個有效位、8個階位,內存和帶寬佔用減半,執行效率大大提升,同時又在性能方面遠勝FP16,可以大大提升AI人工智慧、ML機器學習、DL深度學習等應用的性能、效率,不再受限於FP16的性能、FP32的效率。根據模擬,BF16相比於FP16帶來的性能提升在不同運算類型中,少則可達1.6倍,多則能夠超過4倍。
  • Python數字類型Number
    本篇介紹Python中的數字類型,文中會討論整型、浮點型、布爾型和複數類型。通過本篇的學習,可以達成如下目標。(1) 整型的運用(2) 浮點型的運用(3) 布爾型的運用(4) 複數的運用。數字類型提供了標量存儲和直接訪問。它是不可更改類型,變更數字的值會生成新的對象,當然開發者不會感覺到對象已經變化。數字類型是數值型數據,支持整型、浮點、布爾類型和複數。數值型即數值數據,用於表示數量,並可以進行數值運算。數值型數據由整數、小數、布爾值和複數組成,分別對應整型類型、浮點類型、布爾類型和複數類型。
  • 高效的C編程之: 浮點運算
    大多數的ARM處理器硬體上並不支持浮點運算。但ARM上提供了以下幾個選項來實現浮點運算。本文引用地址:http://www.eepw.com.cn/article/257015.htm·浮點累加協處理器FPA(Floating-PointAccelerator):ARM上提供了一組協處理器指令專門實現浮點運算。
  • 三菱PLC浮點運算應用指令
    浮點運算應用指令能實現浮點數的轉換、比較、四則運算、開方運算、三角函數等功能,浮點運算應用指令大都為32位指令。一、二進位浮點比較與區間比較指令本文引用地址:http://www.eepw.com.cn/article/201612/331348.htm二進位浮點比較ECMP指令比較源操作數S1與源操作數S2內的32位二進位浮點數,根據大小一致比較結果,對應輸出驅動目的操作數D指定軟元件開始的連續3個位軟元件的狀態,二、二進位浮點數與十進位浮點數轉換指令二進位浮點數轉換為十進位浮點數
  • 單精度浮點加法器的FPGA實現
    >浮點的存儲格式,設計出一種適合在FPGA上實現單精度浮點加法運算的算法處理流程,依據此算法處理流程劃分的各個處理模塊便於流水設計的實現。所以這裡所介紹的單精度浮點加法器具有很強的運算處理能力。關鍵詞:IEEE 754;單精度浮點;加法運算;FPGA本文引用地址:http://www.eepw.com.cn/article/192020.htm 圖像處理通常採用軟體或者數位訊號處理器(DSP)實現。
  • MATLAB基礎:數據類型
    >singlesingle(0.1)單精度浮點類型double6.732、1.562-0.425i雙精度浮點型,默認數據類型相對於雙精度浮點數類型數據,整數型與單精度浮點型數據的優點在於節省變量佔用的內存空間:要在滿足精度要求的情況下,可以考慮優先採用。