假設有個人於 1964 年出生在中國南方,他(姑且假設是他)在小學一年級學到了漢語拼音,並藉此了解了普通話的讀音。在之後 30 年時間裡,他很有可能再也沒有機會使用拼音,直到 1990 年代。
這個人被委派到了新的工作崗位,相比新技術,文件裡的各種新名詞成了真正困擾他的東西。在編制文件的時候,他不知道這些字到底怎麼寫,比如同事告訴他「混凝土」這個名詞被縮寫成了一個讀音為 tóng 的字。
在單位的公用電腦上,他一個鍵、一個鍵地敲下了 tong 這四個字母。找了一番之後,他看到了「砼」這個字。
拼音當時是非日常的存在,可能要等到兒女送他第一臺電腦,這個「60 後」才會被迫逐漸回憶拼音的規則。再等到他有了第一臺可以手寫的智能設備,他終於不必費心回憶各種字的讀音——他回到了漢字的輸入方式,但依然困擾於前後鼻音以及平翹舌音的區分。
不過對於他的兒孫來說,拼音的應用就完全不同——尤其是最年輕的一代,拼音是如此日常,以至於有個叫「手癌」的詞專門形容輸入失誤。
2018 年 2 月 11 日,漢語拼音迎來 60 周年紀念。它在創立之初被設定為「漢字的注音工具和普通話的推廣工具」,但在個人計算機以及智能設備的普及之下,變成了人們在虛擬世界交流的主導性存在。
漢字最近一次危機發生在 1970 年代。在電腦剛剛誕生的那些年裡,如何讓中文能夠與電腦匹配是一個亟待解決的問題。五筆的發明者王永民認為:「當電腦進入中國的時候,中外人士曾有一大困惑——成千上萬的漢字,能夠進入只有 26 個字母鍵的計算機嗎?那個年代,國內外報刊上登出了『計算機是漢字的掘墓人,是拼音文字的助產士』的文章,宣揚漢字『走進了時代的死胡同』,該『壽終正寢』了。」
五筆輸入法解救了這個局面,但很快讓位於拼音,後者一直主導至今——事實上遠超「主導輸入法」的意義,如果你的生活中很少用到紙筆,你會發現輸入方式已經完全拉丁化了。而這個情況正在越來越普及。
換句話說,中國的表意表形文字對於書寫者來說,已經讓位於拼音拉丁化的環境——當初反對漢字改革的那些學者的擔憂似乎正在成為現實。
這一切,還是需要從「如何讓每個中國人用上計算機」開始說起。
1、為何五筆先於拼音得勢?
五筆由漢字校對照排機研究員王永民歷經 5 年、於 1983 年發明。這種技術通過拆分漢字的字形,並與鍵盤上的拉丁字母配對,三個拉丁字母就能夠輸入一個特定的漢字。在得到國家政策的扶持之後——國家科委、國防科工委都曾發文要求推廣五筆輸入法——五筆成了當時一代人最先學習的漢字輸入法。許多人報名電腦培訓班,其中一課就是練習五筆打字,人們需要熟悉鍵盤旁貼著的表格,上面標明了字形和按鍵的對應。
王永民曾經在《求是》雜誌上發表文章,回憶發明五筆輸入法的過程:「漢字的讀音只有 400 多種,要對應成千上萬個漢字,用拼音輸入是『輸入容易找字難』。」事實上,重碼問題也被公認為是早期拼音輸入法的最大劣勢。
王永民
從漢字的角度來看,能夠將不同漢字區分開來的特徵也就是字音、字形這兩種。拼音在當時無法提高輸入效率,而且,從字形入手來解決漢字輸入問題,還有另一個更加直觀的理解——輸入漢字就像是在寫字,這樣似乎更加貼近中國人的書寫習慣。
「我國東漢文字學家許慎,早在一千九百年之前,就指明了突破口。他在《說文解字》中,對漢字作了綜觀全局的分析,揭示了漢字構造的內在規律,他說『獨體為文,合體為字』。他認為,成千上萬的漢字,都是由 500 來個基本的獨體字,像搭積木那樣拼合構成的。這些獨體字叫做『文』,再由『文』拼合而成者,謂之『字』。『文』只有幾百個,而『字』可以有幾萬個。」王永民在一次演講中這樣回憶。
不過,最早通過拆分字形來實現漢字輸入的人並不是王永民。1976 年,臺灣人朱邦復就公布了他的形意檢字法,兩年後蔣緯國用中國神話傳說中的造字史官「倉頡」為其命名,即倉頡輸入法。
朱邦復 1937 年出生於湖北黃岡,戰亂中隨父親遷居臺灣,此後輾轉巴西、美國等地,並在 1973 年回到臺灣。朱邦復自稱自己一直希望能夠通過字形來實現漢字輸入:「因為在我多年的研究中,發現了文字的基本因子:對輸入而言,是為字碼;對排序則用字母;辨識則利用基本形及位置;字形可以靠筆形的比例組合。」
另一種在 1990 年代流行的通過拆字完成漢字輸入的則是鄭碼輸入法,由中國文字學家、《英華大詞典》主編鄭易裡發起,後經其女兒鄭瓏所完成。1989 年,鄭碼輸入法申請專利,之後也被微軟的 windows 作業系統接納為內置輸入法之一。
「早期的拼音輸入法不是很成功,這就給了其他輸入法的迅速崛起創造了條件。」在《數學之美》一書中,自然語言處理專家吳軍這樣寫道,「各種輸入法的專利到 1990 年代初已經有了上千種,以至於一些專家認為中國軟體業之所以上不去,是因為大家都去做輸入法了。」
大量專業性的輸入法佔領市場,其中最成功的自然還是五筆。當時的各家公司都有一個極具時代特色的職位,五筆打字員,用以將手寫的文件輸入成電子文件。
五筆輸入法字型字根表
吳軍認為,五筆的成功並非因為五筆本身有多麼出色。他從數學資訊理論的角度進行分析,得出結論,理論上只要敲擊三下鍵盤,就能夠輸出一個漢字。「王永民的五筆輸入法暫時勝出,並不是因為他的輸入法更合理,而是他比其他發明者更會做市場而已。」
吳軍甚至相信類似於五筆這樣的複雜輸入法有天生的缺陷。他引用實驗結果稱,使用這類複雜輸入法的人,在脫稿打字時的速度只有看稿打字的四分之一。「在使用這些輸入法時都要按照規則臨時拆字,這個時間不僅長,而且在脫稿打字時嚴重中斷思維……因此廣大中國計算機用戶對於這一類輸入法認可度極低。」
從初學五筆,到能夠每分鐘輸入 80 到 90 個字,需要大約兩個月的時間。而在使用五筆的過程中,如果不是對著現成的文稿打字,也很容易就切換到拼音輸入法。這似乎印證了吳軍的觀點,思維通常是以語音的方式進行的。要將思維對應到漢字字形,再使用五筆輸入法輸入電腦,這整個流程並不直觀。
2、到底是什麼阻礙拼音成了主流輸入法?
答案是內存。
1995 年誕生的智能 ABC 輸入法算是早期最容易使用的拼音輸入法,但它其實仍然十分笨拙。輸入對應的拼音,敲擊空格,會彈出一個龐大的字庫。由於詞頻預設不佳,因此使用者需要花很多時間才能尋找需要的字。而當碰上 shi 或者 zhi 這樣能夠對應大量漢字的音節,則更讓人崩潰。因此,在當時很多人使用拼音輸入法時,採用的都是輸入詞組的方式,例如當需要輸入「雅虎」一詞時,會輸入「典雅」和「老虎」,再將不適用的字刪去,但這仍然不是一種高效的輸入方式。
1999 年 12 月,由考拉拼音發展而來的紫光拼音正式發布。紫光拼音則直接將「雅虎」一詞加入內置的詞庫當中,用戶直接鍵入 yahu,就會跳出「雅虎」的選項。
要做到像紫光拼音這樣通過詞庫來增加拼音輸入效率,前提就必須是存儲空間的擴張。1999 年主流電腦配置變成了 64MB 內存以及 6.4 GB 硬碟。這才有了紫光拼音誕生的基礎。此後,拼音輸入法不斷更新,推出了包括模糊音(幫助有口音的人使用拼音)、自定義字庫(用戶自己的常用字、詞提前被輸入法記憶)等多種功能,進一步提高了拼音的輸入效率。
回顧最初,1981 年的 IBM 電腦內存空間僅為 4 KB,固定存儲空間則依靠 5.25 英寸軟盤,單張存儲空間最大為 1.2 MB。由於處理空間有限,要使用中文輸入法都需要外接所謂的「漢卡」,即安裝有中文輸入法程序的只讀存儲器。
1989 年,史玉柱開發出了 M-6401 桌面文字系統,並封裝在一個只讀存儲器當中。通過外接一個硬體,漢卡幫助當時的電腦實現漢字輸入和輸出的功能。僅僅依靠漢卡,史玉柱在 4 個月的時間內,營業收入就超過了 100 萬元。而中國最早的科技公司大多都從事過漢卡的生意,包括聯想、方正,也包括王永民的王碼集團。
巨人的 M-6403 漢卡
這些隱藏在代碼、晶片、和電子元件中的技術進步,對於現在大多數使用者來說都相當陌生。隨著電腦硬體的進步,所有這一切都被整合進了電腦的作業系統當中,漢卡也早已被淘汰。不過,漢卡可以被看作是輸入法的前身。在本質上,他們要解決的都是如何讓普通人使用電腦這一問題。只不過漢卡作為一種硬體被淘汰了,而其中的程序,尤其是輸入法的部分不斷演進、更新。
3、當代畢昇王選
漢字與電腦兼容的問題是一個「系統性工程」,包括輸入,輸出等多個方面,1970 年代末陸續登場的漢字輸入法解決的是輸入問題的話,王選和他發明的雷射照排技術解決的就是漢字輸出的問題。從這個意義上來說,王選被稱為當代畢昇並不為過。
傳統的中文印刷,採用的還是鉛字排版的手段,效率低下。一個未經證實的傳言是,朱邦復當時在巴西出版社工作時發現,一本英文書可以通過電腦排版、校對、印刷,整個過程僅需要 12 小時。而一本中文書選用鉛字排版、校對,再到正式印刷,整個過程長達半年。這意味著中文信息傳遞的速度極慢,在知識爆炸的時代,這是一個巨大的威脅。
當時,中文印刷和英文印刷最大的差異仍然是由漢字帶來的。英文印刷僅需 26 個字母和若干標點符號就能完成,而中文則依賴於成千上完的漢字。與輸入法面臨的問題一樣,當時最大的問題也就是 512KB 儲存裝置無法保存如此多的內容。
王選採用的方式與朱邦復的倉頡輸入法、王永民的五筆輸入法有異曲同工之處。通過分析漢字字形,王選將漢字拆分成為規則筆劃和不規則筆劃,前者可以用參數表示,後者則可以用輪廓描述,相當於用另一種更為簡單的方式對漢字進行編碼,而不用記憶整個漢字的字形。儲存這些新編碼的所需要的空間僅為原本的 1/500 。再加上改進以後的漢字輸出速度,王選通過雷射照排技術解決了電子時代下的漢字印刷問題。
4、拼音輸入的流行
手機的進化對拼音的大規模應用功不可沒。
根據 2006 年《上海青年報》的報導,「由於手機市場基本被諾基亞、摩託羅拉和三星等國際巨頭佔據,他們使用的輸入法又以美國的 T9 和加拿大的『字源』等標準為主,其中 T9 大約佔據了 50% 的市場,這直接影響了整個手機市場對漢字輸入方式的需求方向。」
T9 即是通常意義上的九宮格鍵盤。以往,在手機上輸入,需要按下對應的按鍵。例如要輸入字母 B 就需要連續按兩下 2 鍵。九宮格鍵盤的簡化之處在於,只需要輸入該字母所在的按鍵一次,程序按算法自動組成合法的拼音,從而提升漢字輸入的效率。再配合簡訊的流行——2005 年全國簡訊發送量達到 3000 億條—— T9 輸入法很快幫助了拼音的流行。
而很快,智慧型手機的誕生將一個完整的電腦鍵盤安在了手機屏幕之上。至此,手機和電腦的輸入法實現了合流。只要學會一種拼音輸入法就能夠暢通無阻地進行電子輸入。
2006 年,搜狗輸入法推出。據搜狗 CTO 楊洪濤回憶,1990 年代輸入法的詞庫來源,是通過當時的官方媒體,從報紙上刊載的大量報導中,進行詞頻統計。統計出來的詞庫既不符合用戶的日常語言,又無法隨著社會的變化而更新換代,因此當用戶在輸入拼音的時候,仍然需要花時間從詞庫中挑選詞彙,準確率提升有限。
搜狗的崛起正是建立在「快捷」的需求之上。其原理可以簡單理解為,搜狗輸入法藉助搜狗搜尋引擎技術將詞庫擴展到了極限,即整個中文網際網路的內容。通過將用戶輸入的拼音,與整個中文網際網路匹配,從而挑選出最有可能是這個用戶想要的內容。
楊洪濤喜歡舉的例子是,2006 年正是《超級女聲》最火爆的一年。搜狗通過網絡抓取,使得用戶直接輸入 liyuchun 就能夠自動聯想出「李宇春」,而不需要用戶先輸入「李」、再輸入「宇」、最後輸入「春」。通過將整個詞庫擴大到中文網際網路,搜狗輸入法逼近了吳軍理想中的輸入法方案,「假定有大小不受限制的語言模型,是可以達到資訊理論給出的極限輸入速度的。」
搜狗輸入法迅速成為了市面上最主流的輸入法,一年內市場份額一度超過 90%。直到後來,Google、騰訊、百度紛紛開發自己的基於網際網路技術的中文輸入法,搜狗輸入法的市場份額才慢慢滑落,但始終維持在 70% 以上。
搜狗輸入法
5、好了,現在我們可以回到漢字拉丁化的歷史上來
早在明代耶穌會傳教士來到中國傳教,就曾經嘗試用拉丁字母來為漢字注音,以便東西方之間的交流。而到了 19 世紀末,全國各地都出現了用拉丁字母為當地方言注音的《聖經》版本。西方傳教士是漢字拉丁化的最初踐行者。
最早明確提出漢字拉丁化主張的是晚清國學大師俞樾的弟子宋恕。在《六齋卑議》 中,他寫道:「江淮以南,須造切音文字多種,以便幼學。」換句話說,宋恕認為相比起拼音文字,漢字複雜難學,造成文盲率居高不下,阻礙了國家社會的進步與發展。
從 1915 年開始的新文化運動也大多繼承了這一想法,廢除漢字的主張和口號也越來越激烈。瞿秋白要求:「現代普通話的新中國文,必須羅馬化,就是改用羅馬字母,要根本廢除漢字。」蔡元培也認為:「漢字既然不能不改革,盡可直接的改用拉丁字母了。」魯迅甚至一度發出:「漢字不滅,中國必亡」的吶喊。
1918 年,當時的中華民國教育部正式推出注音符號系統。它可以被看作是一種早期的漢語拼音,最大的區別在於注音符號基於章太炎發明的「紐文」、「韻文」系統,而非 abcd 這樣常見的拉丁字母。注音符號系統歷經多次修訂,現在主要流行於臺灣。大陸儘管在 1958 年以後用漢語拼音代替了注音符號,但是在《新華字典》、《現代漢語詞典》等辭書中依舊保留了注音符號的寫法。
中國共產黨在很長一段時間內繼承了漢字拉丁化這一傳統。十月革命之後,蘇聯發起文字拉丁化運動,並組建委員會開始研究漢字拉丁化的問題,目的是為了幫助中國北方工人掃盲,以便讓他們成為國際共產主義運動的中堅力量。
1929 年 2 月,瞿秋白擬訂了第一個中文拉丁化方案,並在 10 月寫成一本小冊子《中國拉丁化字母》。在蘇聯協助修訂了這個方案之後,正式於 1934 年在中共佔領區和受蘇聯影響較大的區域進行推廣。語言學家陳平在《現代漢語》一書中提到,從 1933 年到 1944 年該方案被廢除之前,有 300 多種出版物(約 50 萬份)使用了這樣一種拉丁化的新文字。
用拼音印刷髮型的《大眾報》
建國以後,這一政策也延續下來,看到蒙古、越南、朝鮮等國將原本的文字都改成拉丁化文字之後,劉少奇要求中宣部研究這些國家的的文字改革經驗,作為中國文字改革方案的參考。毛澤東也要求「文字必須改革,要走世界文字共同的拼音方向」。
當然,也不乏反對的聲音。考古學家、甲骨文研究者陳夢家是最早、也最知名的反對者。1957 年,它發表《慎重一點「改革」漢字》和《關於漢字的前途》,不贊成廢除繁體字實行簡化字,以及實行漢字拉丁化。在當時的政治環境下,陳夢家很快被打成右派,最後在文革中自殺身亡。
不過,中國共產黨最後採取了一個折衷的方案。 在何偉的《甲骨文》一書中,他引述周有光的話,認為這是史達林影響了毛澤東。
「那時,毛澤東很敬重史達林,把他當作共產主義世界的領導人。他告訴史達林,中國將要進行文字改革,並徵求史達林的意見。史達林跟他說:』你們是個偉大的國家,你們應該有自己的、中國式的文字。你們不應該只是使用拉丁字母。』」
中國共產黨的確放棄了完全將漢字拉丁化的設想。1958 年,語言學家周有光與他的團隊發明了漢語拼音系統,這個時間甚至比第一臺真正意義上的個人計算機,即 1981 年的 IBM PC 要早了 20 多年。
同年,在《當前文字改革的任務》中,周恩來寫道:「首先,應該說清楚,漢語拼音方案是用來為漢字注音和推廣普通話的,它並不是用來代替漢字的拼音文字。」這一說法後來成為了拉丁字母和漢字之間界限的官方標準。
2018 年 1 月 14 日,Google 將封面換成了周有光,紀念他逝世一周年。
Google 紀念周有光
6、為什麼很多字你認識,但你並不會寫?
吳軍這樣形容漢字輸入從拼音、到字形、再到拼音的過程,「不是簡單的重複,而是一種升華」。
事情或許並不只是「升華」這麼簡單。
現在中國人用拼音識字、在電腦上輸入拼音以顯示漢字,但在閱讀和手寫的過程中,漢字仍然是唯一的媒介。沒有人能僅僅通過閱讀拼音來理解一篇文章,也沒有人會將拼音作為書面交流的工具。
這似乎形成了一種折中的局面。留戀傳統文化的人會因此感到慶幸,至少在書寫的時候,中國人使用的還是傳統漢字。而對於一門心思相信拉丁化會讓我們更接近於全球文化的人來說,如今拼音文字除了讓我們開始學習漢字的時候減少了很多麻煩,它還成了我們思維的重要組成部分。
「手癌「成為了網絡熱詞,特指那些用輸入法打字過快,以至於沒有發現當中出現錯字就發送出去的行為。
許多人依然可以辨認漢字的偏旁部首,有些人會猜測一個陌生字的讀音。對於大多數人來說,如果他不認識字,但會念,在輸入法裡找到這個字的可能性極高——在這種情況下,拼音的文字學習功能被放大了。與此同時,人們可能會越來越不在意某個字的具體寫法。
這導致的結果就是:很多字你認識,但你並不會寫。
舉例來說,打出秦始皇的名字「嬴政」很簡單,但不少人不會在意「贏」、「嬴」、「蠃」、可能還有「蠃」的差別。而「饕餮」這兩個字,可能你早就不會寫了,但在它們出現的時候,你知道它代表貪吃,你恰好知道怎麼念,你直接打出 taotie 這串字符,這兩個字也就出來了。
但這種拼音化顯然也不完全。當 「zhi he bi z nide shh zho yj jians dao jiej yu wu,nide yuy ken yj js zg yzi l 」這樣一串文字出現的時候,你會一頭霧水。不過,當你將這串文字輸入電腦中時,可能輸入法就會告訴你這樣一句話:「紙和筆在你的生活中已經減少到接近於無,你的語言可能已經就是這個樣子了。」
許多人也有這樣的體驗:在寫文章的時候,輸入法的聯想功能往往會出其不意改變用詞習慣,而紙筆書寫並不會這樣。輸入法提供了更多的選擇,這些選擇往往最初並不在寫作者的考慮範圍之內。
2002 年,牛津大學的一組科學家就在人的認知過程中,拼音與漢字是否存在差異進行了研究。在掃描了人的大腦之後,他們發現在閱讀拼音和閱讀漢字的時候,大腦不同區域的活動強度存在明顯的差異。他們因此假定,拼音和漢字在神經生物學上,會激起人類不同的認知反應。
王永民和朱邦復近來頻繁將漢字與中華文化勾連在一起。王永民在《求是》雜誌的文章寫道:「漢字是中華文化的血脈之根,是中華民族最偉大的文化遺產,怎能丟棄不用呢?漢字興亡,匹夫有責!」
對於大多數普通人來說,這樣的討論多少顯得有些無關緊要,除了報章上偶爾會出現的「提筆忘字」的討論,沒有多少人會去操心這個事情。當初對拉丁化鼓與呼的人,可能發現「夢想」已經實現了大部分。
一個進一步的問題是,當科技再次發生演變的時候,拼音還能保留有現在的地位嗎?
就全球的趨勢而言,雖然文字對信息密度而言依然有不可取代的地位,圖像取代文字已經是討論多年的議題。楊洪濤相信,如果未來設備形態發生變化,「變成智能手錶、變成智能眼鏡了」,拼音可能就又有一個革命性的變化。
在這個過程中,語言工具對於思維方式的塑造作用,會一直存在。