1857年,幾名隸屬於一個叫「語言學會」的英國教會人員能買到的辭典不僅詞條數量少得可憐,而且淨是收錄些生僻、奇怪的英文單詞。於是,他們決定發起一項英語辭典的編撰計劃。
1933年,前後花了71年編寫的牛津英語詞典(OxfordEnglishDictionary,以下簡稱OED)第一版正式出版。其中,前22年是準備工作(1857年至1879年),在實際編輯的49年間(1879年至1928年),共經歷了4個主編,編撰團隊在英美登報招募了約1300個義工提供引句。第四任OED主編JamesMurray不得不在牛津大學旁建造了一座小小的「藏書閣」來收錄這些雪片般的詞條。
JamesMurray博士。圖片來自:OxfordDictionaryblog
僅僅過了一個世紀不到,2010年,OED編輯部宣布代表當代英語語言權威的OED第三版很可能不會再出版紙質版本。
第一版OED。圖片來自:BaumanRareBooks
第二版OED。圖片來自:CenteredLibrarian
消息一出,除了一些唏噓的聲音,更多人認為這無關痛癢。對於習慣了生活在網際網路和智能行動裝置環境中的現代人來說,「查詞」這一行為早就從翻閱紙質詞典,變成了通過圖像、語音、文字形式輸入電腦或手機,僅需幾秒鐘,就能獲得相應的答案。
主持牛津英語詞典數位化工作的人叫JohnSimpson,他在1993年至2013年間擔任OED的主編。
準確的說法應該是:這個英國人在1980年代見證了OED語料庫電子化的過程,並且從1990年代開始,主導了在線牛津英語詞典項目和第二版牛津英語詞典的編撰增補工作。
1976年,從英國雷丁大學中世紀研究專業畢業的JohnSimpson以一名索引卡整理助手的身份自1976年進入牛津英語詞典編輯部工作。如果你看過一部由同名漫畫改變的電影《編舟記》,可能會對索引卡有個比較直觀的了解。在辭典編輯人員普遍使用電腦錄入數據以前,索引卡是詞典編輯最重要的語料收集工具。這是一張一張的小卡片,每一張上面寫著一個單詞和單詞的釋義。
美國韋氏詞典編輯部存放的索引卡。圖片來自:BostonGlobe
在OED的編撰過程中,每一個單詞都必須經過收集記錄、編寫、查證、反覆校對等過程,才能進入詞典。在OED編輯部,負責編撰詞條的編輯被分為普通詞條、科學詞條、新詞詞條,以及日耳曼語和法語類詞條四種,他們都需要根據收集到的詞語來源、使用的頻率、還有在國際之間的流動性等等來決定這個單詞有沒有被收錄的資格。在編寫過程中,編輯團隊還會產生更細的分工——比如專門會有編輯進行語音收錄,通過電視、電影、廣播等渠道來記錄考證每個單詞的讀音。
這是一種持續了一百多年的做法——編輯和研究員在巨大的圖書館裡上上下下,從一份份報紙或古書裡查找每一個單詞在歷史上變化的細微足跡。然後恭恭敬敬地將它們排列在一張張薄薄的辭典專用紙上。
但對於JohnSimpson來說,他恰巧站在了時代變化的十字路口。
「回到1989年,當第二版OED出版後,我們開始從印刷材料裡收集數據錄入電腦。(牛津大學出版社僱傭了120個打字員花費18個月時間將收錄了67,000,000個字符的第二版OED全部錄入電腦,並採用了一種基礎標籤語言結構)當時我們把探索的方向放在了建立一個巨大的電子資料庫上。1990年代,資料庫大體結構成型後,世界又變了。我們開始注意到全球資訊網和網際網路所帶來的可能性——它能夠改變我們一直以來使用的傳統詞典搜索和出版方式。」Simpson在他的一本名叫TheWordDetective:ALifeinWords:fromSerendipitytoSelfie的回憶錄中寫道。
由於編撰詞典的特殊性質,類似於「信息工匠」的編輯們是電子資料庫技術的早期實踐者。Simpson透露,在1980年代,詞典編輯就已經在開始接觸Lexis/Nexis美國報紙資料庫。他們漸漸習慣於用桌面上的電腦來搜索語料、錄入數據。
1995年,OED團隊又開始運用由美國密西根大學開發的MakingofAmerica線上資料庫——其中儲存在密西根大學資料庫裡關於美國早期書本、雜誌的資料。這也是OED編輯們再一次從CD格式的資料庫轉向利用在線資料庫。
2000年,Simpson和他的團隊正式將牛津英語詞典搬上線。自那以後,編輯對詞條的增補和修訂都可以通過網絡來進行,人們可以通過訂閱的方式來獲得OED最新的詞條收錄。
2000年上線的網頁版OED。圖片來自:ARIADNC
「當你去了解一個詞語時,你會對最後它會呈現出一個什麼樣的產品有個大致的感覺。每個單詞都是一首詩——小到像莎士比亞的十四行詩,大到像喬伊斯的《尤利西斯》。但當在電腦上編撰辭典時,我們越來越多地意識到,其實並不應該關注某個單獨的單詞,單獨的單詞就像『語言』這張拼貼畫上的某一塊磚。在現在我們得以建立的語言網絡裡,你能夠看見相比舊時期來說更清晰的、詞與詞之間的緊密關係。」2013年,JohnSimpson在接受《時代周刊》採訪時說道。
所以,圖書館裝載的紙質材料會隨著電子數據的建立而消亡嗎?JohnSimpson也問過自己這個問題。
他不久就發現這種擔心看上去有些多餘,因為即便電子資料庫能夠幫助編輯找到比以前多得多的資料,卻並沒有真正意義上提高詞條編撰的速度。一方面,其實人們並看不了這麼多信息;網絡材料的不準確性也會給查證過程帶來麻煩。「有時候,」Simpson說,「你還是得依靠純粹的人力、以及一名足智多謀的研究員在一座書架的深處發現問題的根源。這兩種考證方法是可以同時存在的。」
而牛津英漢詞典的App化,是在一個叫劉浩賢的中國人倡導下完成的。
劉浩賢加入牛津大學出版社香港分部16年了。剛入社時,他負責英漢字典編輯助理的工作。現在,他是牛津英漢詞典的主編,也是牛津大學出版社大中華區詞書出版的負責人。
就在JohnSimpson快將退休的時候,劉浩賢和他的團隊負責將牛津高階英漢雙解詞典(第七版)做成了一個App。
圖片來自:噹噹
「挑選牛津高階來做我們數位化出版的一次試水,是因為這本詞典一直以來的銷售都比較穩定。」劉浩賢告訴《好奇心日報(www.qdaily.com)》。
大約在2011年,劉浩賢代表牛津大學出版社與商務印書館提出製作App的想法。由於網際網路和搜尋引擎的介入,紙質詞典在全世界範圍內的銷售都進入了一個急速下降的狀態,改變已然刻不容緩。
當時牛津大學出版社已經具備了一些相關數字產品製作研發的基礎,這其中包括向一些電子產品生產商進行內容授權。一個典型的案例是從1990年代末開始與日本卡西歐合作推出的電子詞典。它大大簡化了手動翻閱查詞的過程,同時在較小的體積裡詳盡地錄入十多本不同版本和用途的詞典。
但他仍然要面對的現實是,整個辭典編輯團隊對開發一款App的過程一無所知。
不僅如此,劉浩賢的App提案一開始就受到了來自各方的阻礙。由於電子書籍的讀者群尚不明確,各個出版社都對剛剛興起的數字出版業務並沒有信心。另一方面,一百多年來,紙質詞典已經形成了一個完整的銷售、營銷渠道和參考標準,但App要賣給誰?怎麼宣傳?沒有人知道。
「正是這些不熟悉,導致在提案初期所有的合作方都對此懷有戒心。」劉浩賢說:「唯一能夠借鑑的標準就是那些打入排行榜前列的軟體,於是我們就一個一個下載下來研究,這些軟體有什麼缺點、有什麼我們可以做,有什麼我們做不到?有些編輯甚至是因為這個項目才擁有了第一部智慧型手機。」
另外一個讓劉浩賢感到壓力倍至的因素是:詞典軟體的盈利模式到現在還沒有一個清晰的定論。
在整個App開發策劃案敲定前夕,他被上司問了兩個問題:現在做數字版本,對紙本出版會有什麼樣的影響?這個數字版本,能賺多少錢?
「我當時沒有想太多。」劉浩賢回憶道:「當時我的回答是:第一,不要把出版數字版本看成是對紙本的打擊,因為數字版本的使用方法和紙本是有差別的。數字版本是一個全新的機會——找到新的讀者,以及,為老讀者帶去新的內容。第二個問題,我不能告訴你我們能賺多少錢,但我能告訴你我們最多能賠多少錢,就是賠掉我們編程開發的費用。」
劉浩賢認為這個答案在當時看來不怎麼完美,但好在他的策劃案並未因此被草草否決。更令他感到高興的是,牛津高階App在上線兩個月後的銷售額就讓出版社收回了開發成本,並在一次打折季營銷活動裡,登入了香港地區蘋果商店軟體銷售總榜的第7名。
牛津高階英漢雙解詞典App(第8版)。圖片來自:AppleStore
劉浩賢把這次成功歸結於一個「順應時代發展的做法」,另外,牛津辭典在此之前樹立的良好口碑,使其得到了許多教育機構和專業出版社的推薦。
牛津高階英漢雙解詞典App與現在人人愛用的在線詞典軟體其實並不相同,儘管二者都接入了專業辭典出版社的語料庫。就拿網易旗下的有道詞典來說,它的詞庫裡包括了柯林斯英漢雙解大辭典、21世紀大英漢辭典,甚至於維基百科上的內容。當你查詢一個詞時,可以得到來自於這些資料庫不同的解釋,以及搜尋引擎提供的英語例句。
相較於此,傳統詞典出版社所建立的語料庫所能提供的釋義範圍則要因此受到一定局限。
首先,App裡內容全部來自於牛津英語辭典的語料庫。而語料庫的標籤結構,決定了App的所能夠提供的查詞功能和釋義範圍。編輯人員和工程師在製作辭典內容時,則很大成程度上受到語料庫中每條信息標籤的限制。
相比於JohnSimpson在上世紀90年代剛剛電子化的資料庫,劉浩賢反覆提到的這個OED語料庫(corpus)已經是一個經過編輯和工程師不斷完善、收集了數十億字詞的巨型資料庫。它從不同媒體收集語料,包括報章、雜誌、文學、電臺錄音、戲劇對白等。每個語料的出處,包括時間、地點、來源都有紀錄。編輯通過分析語料庫的內容來編寫詞條──按使用頻率、出現時間、國際流動性等來決定是否收錄某個詞,並分析撰寫詞義。例證也是從語料庫選出,保證是真實的使用紀錄。編輯們一般會傾向於選擇組織嚴謹、在語法上富象徵意義的語料。
事實上,不論是辭典、電子辭典、內容授權,都是在這個語料庫支持下的前端的產品。它曾是Murray的一間小書閣,現在,語料庫讓我們快速地在外國旅行時,用幾秒鐘便看得懂眼前菜單上的菜名。
同樣在語料庫的支持下,除了傳統意義上的辭典開發,牛津大學出版社的內容授權對象範圍很廣——包括和蘋果、谷歌、騰訊這樣的科技公司進行內容上的合作。
「除此之外,我們還在建立一個針對收錄不同語言的學術項目。」劉浩賢最後提到:「我們現在在談的都是漢語和英語詞典,但牛津還在不同國家不同地區有其他的辭典項目。我們還在計劃做一個多語種的大型資料庫。在未來,它不光能夠產出辭典、電子辭典、翻譯軟體,它也將會是牛津大學出版社做一個語言保護計劃的一部分。我們的目標是收納一百種不同的語言。」
題圖來自:ExaminingtheOED