小小的 float,藏著大大的學問

2021-02-19 碼農有道
前言

今天,我們來思考幾個問題:

為什麼負數要用補碼表示?

十進位小數怎麼轉成二進位?

計算機是怎麼存小數的?

0.1 + 0.2 == 0.3 嗎?

別看這些問題都看似簡單,但是其實還是有點東西的這些問題。

正文為什麼負數要用補碼表示?

十進位轉換二進位的方法相信大家都熟能生巧了,如果你說你還不知道,我覺得你還是太謙虛,可能你只是忘記了,即使你真的忘記了,不怕,貼心的小林在和你一起回憶一下。

十進位數轉二進位採用的是除 2 取餘法,比如數字 8 轉二進位的過程如下圖:

接著,我們看看「整數類型」的數字在計算機的存儲方式,這其實很簡單,也很直觀,就是將十進位的數字轉換成二進位即可。

我們以 int 類型的數字作為例子,int 類型是 32 位的,其中最高位是作為「符號標誌位」,正數的符號位是 0,負數的符號位是 1,剩餘的 31 位則表示二進位數據

那麼,對於 int 類型的數字 1 的二進位數表示如下:

而負數就比較特殊了點,負數在計算機中是以「補碼」表示的,所謂的補碼就是把正數的二進位全部取反再加 1,比如 -1 的二進位是把數字 1 的二進位取反後再加 1,如下圖:

不知道你有沒有想過,為什麼計算機要用補碼的方式來表示負數?在回答這個問題前,我們假設不用補碼的方式來表示負數,而只是把最高位的符號標誌位變為 1 表示負數,如下圖過程:

如果採用這種方式來表示負數的二進位的話,試想一下 -2 + 1 的運算過程,如下圖:

按道理,-2 + 1 = -1,但是上面的運算過程中得到結果卻是 -3,所可以發現,這種負數的表示方式是不能用常規的加法來計算了,就需要特殊處理,要先判斷數字是否為負數,如果是負數就要把加法操作變成減法操作才可以得到正確對結果。

到這裡,我們就可以回答前面提到的「負數為什麼要用補碼方式來表示」的問題了。

如果負數不是使用補碼的方式表示,則在做基本對加減法運算的時候,還需要多一步操作來判斷是否為負數,如果為負數,還得把加法反轉成減法,或者把減法反轉成加法,這就非常不好了,畢竟加減法運算在計算機裡是很常使用的,所以為了性能考慮,應該要儘量簡化這個運算過程。

而用了補碼的表示方式,對於負數的加減法操作,實際上是和正數加減法操作一樣的。你可以看到下圖,用補碼表示的負數在運算 -2 + 1 過程的時候,其結果是正確的:

十進位小數與二進位的轉換

好了,整數十進位轉二進位我們知道了,接下來看看小數是怎麼轉二進位的,小數部分的轉換不同於整數部分,它採用的是乘 2 取整法,將十進位中的小數部分乘以 2 作為二進位的一位,然後繼續取小數部分乘以 2 作為下一位,直到不存在小數為止。

話不多說,我們就以 8.625 轉二進位作為例子,直接上圖:

最後把「整數部分 + 小數部分」結合在一起後,其結果就是 1000.101。

但是,並不是所有小數都可以用二進位表示,前面提到的 0.625 小數是一個特例,剛好通過乘 2 取整法的方式完整的轉換成二進位,如果我們用相同的方式,來把 0.1 轉換成二進位,過程如下:

可以發現,0.1 的二進位表示是無限循環的,由於計算機的資源是有限的,所以是沒辦法用二進位精確的表示 0.1,只能用「近似值」來表示,就是在有限的精度情況下,最大化接近 0.1 的二進位數,於是就會造成精度缺失的情況

對於二進位小數轉十進位時,需要注意一點,小數點後面的指數冪是負數,比如二進位 0.1 轉成十進位就是 2^(-1),也就是十進位 0.5,二進位 0.01 轉成十進位就是 2^-2,也就是十進位 0.25,以此類推。

舉個例子,二進位 1010.101 轉十進位的過程,如下圖:

計算機是怎麼存小數的?

1000.101 這種二進位小數是「定點數」形式,代表著小數點是定死的,不能移動,如果你移動了它的小數點,這個數就變了, 就不再是它原來的值了。

然而,計算機並不是這樣存儲的小數的,計算機存儲小數的採用的是浮點數,名字裡的「浮點」表示小數點是可以浮動的,比如 1000.101 這個二進位數,可以表示成 1.000101 x 2^(-3),類似於數學上的科學記數法。

既然提到了科學計數法,我再幫大家複習一下,比如有個很大的十進位數 1230000,我們可以也可以表示成 1.23 x 10^6,這種方式就稱為科學記數法,該方法在小數點左邊只有一個數字,而且把這種整數部分沒有前導 0 的數字稱為規格化,比如 1.0 x 10^(-9) 是規格化的科學記數法,而 0.1 x 10^(-9) 和 10.0 x 10^(-9) 就不是了。

因此,如果二進位要用到科學記數法,同時要規範化,那麼不僅要保證基數為 2,還要保證小數點左側只有 1 位,而且必須為 1,所以通常將 1000.101 這種二進位數,表示成 1.000101 x 2^(-3),其中,最為關鍵的是 000101 和 -3 這兩個東西,它就可以包含了這個二進位小數的所有信息,000101 稱為尾數,即小數點後面的數字,-3 稱為指數,指定了小數點在數據中的位置。

現在絕大多數計算機使用的浮點數,一般採用的是 IEEE 制定的國際標準,這種標準形式如下圖:

這三個重要部分的意義如下:

符號位:表示數字是正數還是負數,為 0 表示正數,為 1 表示負數;

指數位:指定了小數點在數據中的位置,指數可以是負數,也可以是正數,指數位的長度越長則數值的表達範圍就越大

尾數位:小數點右側的數字,也就是小數部分,比如二進位 1.0011 x 2^(-2),尾數部分就是 0011,而且尾數的長度決定了這個數的精度,因此如果要表示精度更高的小數,則就要提高尾數位的長度;

用 32 位來表示的浮點數,則稱為單精度浮點數,也就是我們程式語言中的 float 變量,而用 64 位來表示的浮點數,稱為雙精度浮點數,也就是 double 變量,它們的結構如下:

可以看到:

double 的尾數部分是 52 位,float 的尾數部分是 23 位,由於同時都帶有一個固定隱含位(這個後面會說),所以 double 有 53 個二進位有效位,float 有 24 個二進位有效位,所以所以它們的精度在十進位中分別是 log10(2^53) 約等於 15.95 和 log10(2^24)約等於 7.22 位,因此 double 的有效數字是 15~16 位,float 的有效數字是 7~8位,這些是有效位是包含整數部分和小數部分;

double 的指數部分是 11 位,而 float 的指數位是 8 位,意味著 double 相比 float 能表示更大的數值範圍;

那二進位小數,是如何轉換成二進位浮點數的呢?我們就以 10.625 作為例子,看看這個數字在 float 裡是如何存儲的。

首先,我們計算出 10.625 的二進位小數為 1010.101,然後把小數點,移動到第一個有效數字後面,即將 1010.101 右移 3 位成 1.010101,右移 3 位就代表 +3,左移 3 位就是 -3,float 中的「指數位」就跟這裡移動的位數有關係,把移動的位數再加上「偏移量」,float 的話偏移量是 127,相加後就是指數位的值了,即指數位這 8 位存的是 10000010(十進位 130),因此你可以認為「指數位」相當於指明了小數點在數據中的位置。

1.010101 這小數點右側的數字就是 float 裡的「尾數位」,由於尾數位是 23 位,則後面要補充 0,所以最終尾數位存儲的數字是 01010100000000000000000。

在算指數的時候,你可能會有疑問為什麼要加上偏移量呢?

前面也提到,指數可能是正數,也可能是負數,即指數是有符號的整數,而有符號整數的計算是比無符號整數麻煩的,所以為了減少不必要的麻煩,在實際存儲指數的時候,需要把指數轉換成無符號整數,float 的指數部分是 8 位,IEEE 標準規定單精度浮點的指數取值範圍是 -127 ~ +128,於是為了把指數轉換成無符號整數,就要加個偏移量,比如 float 的指數偏移量是 127,這樣指數就不會出現負數了。

比如,指數如果是 8,則實際存儲的指數是 8 + 127 = 135,即把 135 轉換為二進位之後再存儲,而當我們需要計算實際的十進位數的時候,再把指數減去偏移量即可。

細心的朋友肯定發現,移動後的小數點左側的有效位(即 1)消失了,它並沒有存儲到 float 裡,這是因為 IEEE 標準規定,二進位浮點數的小數點左側只能有 1 位,並且還只能是 1,既然這一位永遠都是 1,那就可以不用存起來了,於是就讓 23 位尾數隻存儲小數部分,電路在計算時會自動把這個 1 加上,這樣就可以節約 1 位的空間,尾數就能多存一位小數,相應的精度就更高了一點。

那麼,對於我們在從 float 的二進位浮點數轉換成十進位時,要考慮到這個隱含的 1,轉換公式如下:

舉個例子,我們把下圖這個 float 的數據轉換成十進位,過程如下:

0.1 + 0.2 == 0.3 ?

前面提到過,並不是所有小數都可以用「完整」的二進位來表示的,比如十進位 0.1 在轉換成二進位小數的時候,是一串無限循環的二進位數,計算機是無法表達無限循環的二進位數的,畢竟計算機的資源是有限。

因此,計算機只能用「近似值」來表示該二進位,那麼意味著計算機存放的小數可能不是一個真實值,現在基本都是用 IEEE 754 規範的單精度浮點類型或雙精度浮點類型來存儲小數的,根據精度的不同,近似值也會不同。

那計算機是存儲 0.1 是一個怎麼樣的二進位浮點數呢?偷個懶,我就不自己手動算了,可以使用 binaryconvert 這個工具,將十進位 0.1 小數轉換成 float 浮點數:

可以看到,8 位指數部分是 01111011,23 位的尾數部分是 10011001100110011001101,可以看到尾數部分是 0011 是一直循環的,只不過尾數是有長度限制的,所以只會顯示一部分,所以是一個近似值,精度十分有限。

接下來,我們看看 0.2 的 float 浮點數:

可以看到,8 位指數部分是 01111100,稍微和 0.1 的指數不同,23 位的尾數部分是 10011001100110011001101 和 0.1 的尾數部分是相同的,也是一個近似值。

0.1 的二進位浮點數轉換成十進位的結果是 0.100000001490116119384765625:

0.2 的二進位浮點數轉換成十進位的結果是 0.20000000298023223876953125:

這兩個結果相加就是 0.300000004470348358154296875:

所以,你會看到在計算機中 0.1 + 0.2 並不等於完整的 0.3,這主要是因為有的小數無法可以用「完整」的二進位來表示,所以計算機裡只能採用近似數的方式來保存,那兩個近似數相加,得到的必然也是一個近似數。

我們在 JavaScript 裡執行 0.1 + 0.2,你會得到下面這個結果:

結果和我們前面推到的類似,因為 JavaScript 對於數字都是使用 IEEE 754 標準下的雙精度浮點類型來存儲的,而我們二進位只能精準表達 2 除盡的數字 1/2, 1/4, 1/8,但是例如 0.1(1/10) 和 0.2(1/5),在二進位中都無法精準表示時,需要根據精度捨入。

我們人類熟悉的十進位運算系統,可以精準表達 2 和 5 除盡的數字,例如1/2, 1/4, 1/5(0.2), 1/8, 1/10(0.1)。當然,十進位也有無法除盡的地方,例如 1/3, 1/7,也需要根據精度捨入。

總結

最後,再來回答開頭多問題。

為什麼負數要用補碼表示?

負數之所以用補碼的方式來表示,主要是為了統一和正數的加減法操作一樣,畢竟數字的加減法是很常用的一個操作,就不要搞特殊化,儘量以統一的方式來運算。

十進位小數怎麼轉成二進位?

十進位整數轉二進位使用的是「除 2 取餘法」,十進位小數使用的是「乘 2 取整法」。

計算機是怎麼存小數的?

計算機是以浮點數的形式存儲小數的,大多數計算機都是 IEEE 754 標準定義的浮點數格式,包含三個部分:

符號位:表示數字是正數還是負數,為 0 表示正數,為 1 表示負數;

指數位:指定了小數點在數據中的位置,指數可以是負數,也可以是正數,指數位的長度越長則數值的表達範圍就越大;

尾數位:小數點右側的數字,也就是小數部分,比如二進位 1.0011 x 2^(-2),尾數部分就是 0011,而且尾數的長度決定了這個數的精度,因此如果要表示精度更高的小數,則就要提高尾數位的長度;

用 32 位來表示的浮點數,則稱為單精度浮點數,也就是我們程式語言中的 float 變量,而用 64 位來表示的浮點數,稱為雙精度浮點數,也就是 double 變量。

0.1 + 0.2 == 0.3 嗎?

不是的,0.1 和 0.2 這兩個數字用二進位表達會是一個一直循環的二進位數,比如 0.1 的二進位表示為 0.0 0011 0011 0011… (0011 無限循環),對於計算機而言,0.1 無法精確表達,這是浮點數計算造成精度損失的根源。

因此,計算機只能用「近似值」來表示該二進位,那麼意味著計算機存放的小數可能不是一個真實值。

0.1 + 0.2 並不等於完整的 0.3,這主要是因為這兩個小數無法用「完整」的二進位來表示,所以計算機裡只能採用近似數的方式來保存,那兩個近似數相加,得到的必然也是一個近似數。

相關焦點

  • 小小眼壓,大大學問,您是否了解?
    小小眼壓,大大學問,您是否了解?(圖片來自網絡)小小眼壓,大大學問,雖然不能僅靠眼壓來診斷疾病,但卻可以通過眼壓檢查來及早發現青光眼的潛在危險,建議大家像重視血壓一樣重視起眼壓檢查,當發現存在明顯視力下降或視物缺損時,也儘快至正規醫療機構進行眼壓等檢查,早發現、早治療,將眼睛損害降到最低。
  • 小小創可貼大大的學問
    學習安全使用創可貼的知識,使小小創可貼物盡其用的同時,保護自身與他人生命安全。註:圖片來源於網絡,感謝圖片作者,有關涉及廠家的品種僅供學習理解使用,不代表推薦立場!
  • 「小小」的直升機停機坪,大大的學問!
    一個「小小」的直升機停機坪,設計建造起來可不簡單!
  • 小小鉛筆,大大學問
  • 天童美語:小小年紀,大大能量
    了解了包拯的一生,我們發現他在很小的時候,便已經出類拔萃,可謂小小年紀,藏著大大的能量啊!可能有人說:「年紀這麼小,不用太早學習。」難道年紀小是限制我們發展的門檻嗎?並不是這樣的,年紀只是我們的人生中的一個標誌,在不同的年齡階段我們有不同的責任,但是學習並沒有年齡界限,俗話說:學到老活到老。
  • 海普諾凱1897萃護奶粉,小小身體藏著餵養的大大法寶
    小紅罐"海普諾凱1897萃護奶粉,小小身體藏著大大能量,幫助為帶娃撓頭的寶媽們,解決多樣的餵養難題。法力一:護腸更護他寶寶腸道嬌弱,容易拉肚肚、硬便便,寶寶難受,媽媽們也跟著操碎了心~萃護小紅罐的法力一就是"便"護小妙招!
  • 小班數學教案:給「大大」與「小小」送禮物
    新東方網>學前>幼兒教育>幼兒園>幼兒園教案>正文小班數學教案:給「大大」與「小小」送禮物 2012-02-20 10:54 來源:[標籤:來源]
  • 小小紙飛機 ,大大的夢想
    小小紙飛機,大大的夢想——「幸福紅領巾」社會實踐隊開展「放飛夢想——紙飛機活動」 8月8日下午,「幸福紅領巾」社會實踐隊在雷州市楊家鎮陳家小學開展「放飛夢想——紙飛機活動」。活動分為觀看有關夢想的短視頻和師生齊放紙飛機兩個部分,旨在讓學生樹立夢想、堅持夢想、放飛夢想、實現夢想。 「獎牌又不會從地裡長出來,你得細心去培育它。」
  • Float
    外電有這樣的報導:Argentina's new government on Sunday unveiled its economic crisis strategy, announcing plans to fully float the newly devalued peso and partially lift an unpopular savings freeze.
  • 教育無小事▏王曉波:小小的桌子裡藏著一個大大的世界
    1.引子小小桌肚,既能折射出某個學生的行事風格、生活習慣和思維清晰度等,還能反映一個班主任教育學生和建設班級的功力
  • 大大和小小又會笑會鬧會跑了
    走下了病床,如今的大大和小小,在康復室裡玩得很開心。記者 蔣慎敏 攝  浙江在線01月28日訊(錢江晚報記者 蔣慎敏 金潔珺)昨天下午2點,省兒保的康復室裡。3歲出頭的雙胞胎小哥倆,大大和小小正在復健——兩個月前,他們遭遇車禍。
  • 一件小小的事情卻讓我大大的感動
    一件小小的事情卻讓我大大的感動。生活中總是會發生很多大大小小的事情,有的甚至是別人的一個微笑,別人的一句提醒。而前幾天發生了一件小小的事情,卻讓我大大的感動了。這麼一件小小的事情,卻令我大大的感動了。 有時候覺得自己真的特別的滿足。只需要家人的一句問候,一個動作一件小事情,覺得特別的幸福。
  • managed float
    外電報導中出現了這樣一句話:Since China revalued the yuan by 2.1 percent against the dollar in July and adopted a managed float, it has let the currency rise 0.54 percent against the U.S. currency
  • 小小「口袋書」大大危害性
    小小
  • float 浮動布局
    滴滴~晚班車,昨天簡述了前端布局的幾種常見方式,今天復盤一下float 浮動布局 。float 浮動布局float 譯成中文是浮動的意思,float設計之初主要用於實現文字環繞效果,後面被在頁面布局方面用的比較多,我用的最多的也是 float 。
  • 舞蹈萌娃:小小身體藏著巨大能量!
    看著她們認真學習的樣子,我忍不住發出一聲感嘆:小小的身體藏著巨大能量!為她們點讚!那麼舞蹈啟蒙班小朋友一開始接觸舞蹈要學習哪些呢?首先,幼兒園小朋友初學舞蹈時要學習最基本的站姿、坐姿:要求抬頭挺胸、夾臀收腹。其次,學習最基本的勾繃腳。勾腳要有力度,腿部肌肉要繃緊狀態;繃腳同樣要有力度,腳尖要有延伸的感覺。
  • 【情感達人】一件小小的事情卻讓我大大的感動
    作者:寶寶知道夕夕公主媽咪一件小小的事情卻讓我大大的感動。生活中總是會發生很多大大小小的事情,有的甚至是別人的一個微笑,別人的一句提醒。而前幾天發生了一件小小的事情,卻讓我大大的感動了。這麼一件小小的事情,卻令我大大的感動了。有時候覺得自己真的特別的滿足。只需要家人的一句問候,一個動作一件小事情,覺得特別的幸福。我一直都喜歡那麼一句話來著,懂得知足才會幸福,懂得知足才會快樂。圖片部分來源於網絡。更多孕產育兒精彩內容,請下載"寶寶知道"app。與百萬媽媽在一起,科學孕育,為愛成長!
  • 永遠不要用float
    最近有多個老師同學諮詢關於float的問題,我統一回復「永遠別用float」。這顯然是一種極端的答案,但是對於初學者和廣大ACMer來說,真的是有效的。我們可以百度一下這句話:double 和 float 兩者只差在精確度以及數值範圍,使用方法都一樣float :單精度型變量佔用4個字節,範圍是-3.4*10^38 ~~3.4*10^38,小數點有效位為7位double:雙精度型變量佔用8個字節,範圍是-1.7*10^308 ~~1.7*10^308,
  • 鞠萍姐姐講故事 第025集 大大和小小
    大大和小小有兩個小朋友,他倆都不喜歡讀書,一上課就頭疼。一個小朋友名叫小小。
  • STM32如何收發float類型數據?
    創建兩個共用體變量,用於發送與接收:union float_data rx_float_data, tx_float_data;收發相關代碼:("rx_float_data.byte[0] = %.2x (addr: %#x)\n", rx_float_data.byte[0], &rx_float_data.byte[0]);    printf("rx_float_data.byte[1] = %.2x (addr: %#x)\n", rx_float_data.byte[1], &rx_float_data.byte