深入剖析go中字符串的編碼問題——特殊字符的string怎麼轉byte?

2020-11-23 新世界雜貨鋪

前言

前段時間發表了Go中的HTTP請求之——HTTP1.1請求流程分析,所以這兩天本來打算研究HTTP2.0的請求源碼,結果發現太複雜就跑去逛知乎了,然後就發現了一個非常有意思的提問「golang 特殊字符的string怎麼轉成[]byte?」。為了轉換一下心情, 便有了此篇文章。

問題

原問題我就不碼字了,直接上圖:

看到問題,我的第一反應是ASCII碼值範圍應該是0~127呀,怎麼會超過127呢?直到實際運行的時候才發現上圖的特殊字符是『』(如果無法展示,記住該特殊字符的unicode是\u0081),並不是英文中的句號。

unicode和utf-8的恩怨糾葛

百度百科已經把unicode和utf-8介紹的很詳細了,所以這裡就不做過多的闡述,僅摘抄部分和本文相關的定義:

Unicode為每個字符設定了統一併且唯一的二進位編碼,通常用兩個字節表示一個字符UTF-8是針對Unicode的一種可變長度字符編碼。它可以用來表示Unicode標準中的任何字符。UTF-8的特點是對不同範圍的字符使用不同長度的編碼。對於0x00-0x7F之間的字符,UTF-8編碼與ASCII編碼完全相同go中的字符

眾所周知,go中能表示字符的有兩種類型,分別是byterune,byte和rune的定義分別是:type byte = uint8type rune = int32

uint8範圍是0-255,只能夠表示有限個unicode字符,超過255的範圍就會編譯報錯。根據上述關於unicode的定義,4位元組的rune完全兼容兩字節的unicode。

我們用下面的代碼來驗證:

上述的程序根本無法運行,因為第二行編譯會報錯,vscode給到了十分詳細的提示:

'新' (untyped rune constant 26032) overflows byte

接下來,我們通過下面的代碼來驗證字符unicode整型的等價關係:

根據上面的代碼輸出的3個true可以知道,字符和unicode和整形是等價,並且整型也能轉回字符的表現形式。

go中的字符串是utf8編碼的

根據golang官方博客https://blog.golang.org/strings的原文:

Go source code isalways UTF-8.A string holds arbitrary bytes.A string literal, absent byte-level escapes, always holds valid UTF-8sequences.

翻譯整理過來其實也就是兩點:

go中的代碼總是用utf8編碼,並且字符串能夠存儲任何字節。沒有經過字節級別的轉義,那麼字符串是一個標準的utf8序列。有了前面的基礎知識和字符串是一個標準的utf8序列這一結論後我們接下來對字符串「」(如果無法展示,記住該特殊字符的unicode是\u0081)手動編碼。

Unicode到UTF-8的編碼方對照表:

字符『』(如果無法展示,記住該特殊字符的unicode是\u0081)的二進位表示為

10000001,16進位表示為0x81

根據unicode轉utf8的對照表,0x7f < 0x81 < 0x7ff,所以此特殊字符需佔兩個字節,並且要套用的utf8模版是110xxxxx 10xxxxxx

我們按照下面的步驟對10000001轉為utf8的二進位序列:

第一步:根據x數量對特殊字符的高位補0。x的數量是11,所以需要對特殊字符的高位補3個0,此時特殊字符的二進位表示為:00010000001

第二步:x有兩個部分,且長度分別是5和6,所以對00010000001由底位向高位分別截取6位和5位,得到00000100010

第三步:將00000100010由低位向高位填充至模版110xxxxx 10xxxxxx,可得到utf8的二進位序列為:11000010 10000001

我們通過go對二進位轉為整型:

綜上:當用字符轉字節時輸出的是字符本身的整型值,當用字符串轉字節切片時,實際上是輸出的是utf8的字節切片序列(go中的字符串存儲的就是utf8位元組切片)。此時,我們回顧一下最開始的問題,就會發現輸出是完全符合預期的。

go中的rune

筆者在這裡猜測提問者期望的結果是「字符串轉字節切片和字符轉字節的結果保持一致」,這時rune就派上用場了,我們看看使用rune的效果:

由上可知用rune切片去轉字符串時,它是直接將每個字符轉為對應的unicode。

我們通過下面的代碼模擬字符串轉為[]rune切片和[]rune切片轉為字符串的過程:

字符串轉為rune切片:

上述代碼中utf8.DecodeRune的作用是通過傳入的utf8位元組序列轉為一個rune即unicode。

rune切片轉為字符串:

上述代碼中utf8.EncodeRune的作用是將一個rune轉為utf8位元組序列。

綜上:對於無法確定字符串中僅有單字節的字符的情況, 請使用rune,每一個rune類型代表一個unicode字符,並且它可以和字符串做無縫切換。

理解go中的字符串其實是字節切片

前面已經提到了字符串能夠存儲任意字節數據,而且是一個標準的utf8格式的字節切片。那麼本節將會通過代碼來加深印象。

由上述的代碼可知,我們通過遊標按字節訪問字符串得到的結果和字符串轉為字節切片是一樣的,因此可以再次確認字符串和字節切片是等價的。

通常情況下我們的字符串都是標準utf8格式的字節切片,但這並不是說明字符串只能存儲utf8格式的字節切片,go中的字符串可以存儲任意的字節數據

仔細閱讀上面的代碼和輸出,前5行的輸出應該是沒有疑問的。但是第6行輸出卻和預期有出入。

前面提到了字符串可以存儲任意的字節數據,那如果存儲的字節數據不是標準的utf8位元組切片就會出現上面的問題。

我們已經知道通過utf8.DecodeRune可以將字節切片轉為rune。那如果碰到不符合utf8編碼規範的字節切片時,utf8.DecodeRune會返回一個容錯的unicode\uFFFD,這個unicode對應上面輸出的16進位0xfffd

問題也就出現在這個容錯的unicode\uFFFD上,因為字節切片不符合utf8編碼規範無法得到正確的unicode,既\uFFFD佔據了本應該是正確的unicode所在的位置。這個時候再將已經含有容錯字符的rune切片轉為字符串時,字符串存儲的就是合法的utf8位元組切片了,因此第六行輸出的是含有\uFFFD的合法utf8位元組切片,也就產生了和最初始的字節切片不一致的情況了。

在平時的開發中要注意rune切片和byte切片的相互轉換一定要基於沒有亂碼的字符串(內部是符合utf8編碼規則的字節切片),否則容易出現上述類似的錯誤

字符串的多種表示方式

本節算是擴展了,在開發中還是儘量別用這種特殊的表示方式,雖然看起來很高級但是可讀性太差。

下面直接看代碼:

目前筆者僅發現unicode和單字節的16進位可以直接用在字符串中, 歡迎讀者提供更多的表示方式以供交流。

最後,祝大家讀完此篇文章後能夠有所收穫。

相關焦點

  • 從String中移除空白字符的多種方式!?差別竟然這麼大!
    此方法將正則表達式作為輸入,以標識需要替換的目標子字符串 replaceFirst() : 僅將目標子字符串的第一次出現的字符替換為新的字符串 需要注意的最重要的一點是,在Java中String對象是不可變的,這意味著我們不能修改字符串,因此以上所有的方法我們得到的都是一個新的字符串。
  • Python中字符串編碼在二進位之間相互轉換的方法
    第八十節:字符串編碼轉換在學習「計算字符串的長度」(詳見第72節內容Python中如何計算字符串的長度),對編碼的概念、分類和作用,做過一個簡單的介紹,今天的內容,還是從「編碼」開始談。在Python中,常用的字符串類型有str和bytes兩種。str表示Unicode字符,就是包括ASCII碼、utf-8碼、GBK碼、GB2312碼之類的編碼;bytes表示的則是二進位數據,其中包括了編碼的文本。
  • Go語言學習筆記之字符串一
    (str4,"jian")) //Index 函數是返回某字符在字符串的下標,在字符串裡面返回下標,否則-1(註:返回的是首次出現的下標) //LastIndex 函數是返回某個字符在字符串中最後出現的位置,否則返回-1 fmt.Println("\nIndex函數是返回某字符在字符串的下標,在字符串裡面返回下標,否則-1:") str5 := "You are cool."
  • Python中去除字符串首尾空格、特殊字符和指定子字符串的方法
    第七十七節:去除字符串中的空格和特殊字符字符串在實際應用中,有很多情況是默認去除字符串首尾的空格狀態,去除幾個比較特殊的字符的。這幾個特殊的字符是:換行符「\n」、回車符「\r」、制表符「\t」。;使用print()函數輸出字符串時,其中的特殊字符「\n、\r、\t」則被默認為命令執行了;使用strip()方法,只能去除字符串首尾的空格和特殊字符,存在於字符串中間的空格和特殊字符是無法去除的。
  • 用Python拼接字符串的常用方法及性能分析
    如何拼接字符串本篇開始之前我們先看一下Python之禪中對於編碼的一些建議:Python之禪(import this試試看)中有一句說得很好:「Simple is better than complex」這句話解釋為
  • php htmlspecialchars()函數將特殊字符轉換為HTML實體
    htmlspecialchars()函數定義及用法在php中,htmlspecialchars()函數是使用來把一些預定義的字符轉換為HTML實體,返迴轉換後的新字符串,原字符串不變。如果 string 包含無效的編碼,則返回一個空的字符串,除非設置了 ENT_IGNORE 或者 ENT_SUBSTITUTE 標誌;被轉換的預定義的字符有:&:轉換為&amp;":轉換為&quot;':轉換為成為 '<:轉換為&lt;>:轉換為&gt;htmlspecialchars()函數有四個參數,第一個參數規定了需要轉換的字符串
  • 在C語言中如何高效地複製和連接字符串?
    作者 | Martin Sebor譯者 | 蘇本如,責編 | 劉靜以下為譯文:在所有標準C語言<string.h>頭文件中聲明的字符串處理函數中,最常用的是那些用來複製和連接字符串的函數。該函數遍歷源字符串序列和目標字符串序列,並獲取指向這兩個序列末尾的指針。該指針指向函數(strncpy除外)附加到目標序列上的字符串結束符NUL('\0')處或它的後一位。但是,如果返回的指針指向第一個字符而不是最後一個字符(或它的下一個字符),NUL結束符的位置會丟失,必須在需要時重新計算。這種做法的低效率可以在將兩個字符串s1和s2連接到目標緩衝區d中的示例中得到說明。
  • 介紹「十六進位數字符串至數值轉換」函數
    有幾點需要注意:本文引用地址:http://www.eepw.com.cn/article/201701/337016.htm1:雖然該函數的輸入端子「string」的值可以是十六進位數、字符串(ASCII)或其他進位數,但是「string」的值流入該函數中時,先轉換成字符串(ASCII)。
  • 漫畫:什麼是字符串匹配算法?
    讓我們來舉一個例子:在上圖中,字符串B是A的子串,B第一次在A中出現的位置下標是2(字符串的首位下標是0),所以返回 2。我們再看另一個例子:在上圖中,字符串B在A中並不存在,所以返回 -1。為了統一概念,在後文中,我們把字符串A稱為主串,把字符串B稱為模式串。
  • 特殊字符怎麼打?
    特殊字符怎麼打?在編輯word文檔時,很多時候需要插入一些特殊的字符,編輯的時候可以插入字符的方法很多,今天我們來總結一下,下面分享四種方法,需要的朋友可以參考下在編輯word文檔時,很多時候需要插入一些特殊的字符。本文介紹4種方法。方法一:使用輸入法軟鍵盤插入特殊字符。
  • JavaScript字符串-概念
    字符串的概念 概念: 在JavaScript中將所有單引號或雙引號括起來的都叫做字符串 字符串的屬性 1.length; 返回的是當前字符串中字符的個數 例如我們要輸出hello的個數:
  • MySQL字符串截取 和 截取字符進行查詢
    通過mysql自帶的一些字符串截取函數,對數據進行處理,下面是我整理的字符串截取 和 截取字符進行查詢。一、MySQL中字符串的截取MySQL中有專門的字符串截取函數:其中常用的有兩種:substring_index(str,delim,count) 和concat 1.substring_index(str,delim,count) 函數的使用較為普遍。
  • JavaScript字符串 - 查找方法
    字符串查找的方法子字符串代表的就是要查找的字符串1.indexOf();格式:字符串.indexOf( 子字符串串,開始查找的位置 );返回值:如果在字符串中查找到了子字符串第一次出現的位置,返回子字符串出現的位置,否則沒有查找到返回 -
  • 10個很棒的 JavaScript 字符串技巧
    我們稱一個字符序列為字符串。這幾乎是所有程式語言中都有的基本類型之一。這裡跟大家展示關於 JS 字符串的10個很棒的技巧,你可能還不知道哦?1.如何多次複製一個字符串JS 字符串允許簡單的重複,與純手工複製字符串不同,我們可以使用字符串的repeat方法。2. 如何填充一個字符串到指定的長度有時,我們希望字符串具有特定長度。
  • C語言編程技巧:跟我學如何定義及使用一個字符串數組
    實現目的我們在用C語言編寫程序時,經常會遇到使用字符串數組的情況,這種數組的特點是, 數組中的每個元素都是一個字符串,但每個字符串的長度卻不相同。如果你使用C++語言進行編程的話,實現起來相對比較簡單,只需直接選擇標準模板庫的字符串string類,在代碼中定義該類的一個數組即可實現。現在的問題是,在純C語言中如何定義這樣的一個字符串數組呢?如對於下面的一個字符串數組:str = {「I love C.」,「I love C++.」,「I love JAVA.」
  • Python正則表達式:特殊符號和字符
    簡而言之,正則表達式(簡稱regex)是由一些字符和特殊符號組成的字符串,它描述了模式的重複或者表達多個字符。python通過標準庫中的re模塊來支持正則表達式。下圖是最常見的特殊符號和字符,也稱元字符,正是它給予正則表達式強大的功能和靈活性。1.擇一匹配符號表示擇一匹配的管道符號(|),鍵盤上的豎線,表示從多個模式中選擇其中一個的操作。
  • pandas向量化字符串操作方法!
    作者:小伍哥 來源:AI入門學習python內置一系列強大的字符串處理方法,但這些方法只能處理單個字符串,處理一個序列的字符串時,需要用到循環。那麼,有沒有辦法,不用循環就能同時處理多個字符串呢,pandas的向量化操作就提供了這樣的方法。
  • 從輸入法的全形、半角聊起:計算機的那些字符編碼
    這時候大家熟悉的ASCII碼就誕生了,ASCII碼將英文字母、數字、特殊符號用一個字節(8位bit)進行編碼,其中最高位是奇偶校驗位,剩下7位用於表示輸入字符,ASCII碼一共能表示128個字符。因為ASCII碼是為了解決計算機識別美國用戶輸入字符的問題,所以當計算機進入非英語國家時,計算機就不識別所在地的輸入信息了。
  • Python基礎教程(一) - 序列:字符串、列表和元組
    對於字符串來說就是判斷一個字符是否屬於一個字符串;對於列表和元組,就代表一個對象是否屬於該對象。返回值一般來講是True/False,語法為:對象 [not] in 序列連結操作符(+):這個操作符允許我們把一個序列和另一個相同類型的序列做連接。