牛津英語詞典是工具書轉型的一個縮影,它經歷了什麼,又會變成什麼樣?

2020-12-11 好奇心日報

1857年,幾名隸屬於一個叫「語言學會」的英國教會人員能買到的辭典不僅詞條數量少得可憐,而且淨是收錄些生僻、奇怪的英文單詞。於是,他們決定發起一項英語辭典的編撰計劃。

1933年,前後花了71年編寫的牛津英語詞典(OxfordEnglishDictionary,以下簡稱OED)第一版正式出版。其中,前22年是準備工作(1857年至1879年),在實際編輯的49年間(1879年至1928年),共經歷了4個主編,編撰團隊在英美登報招募了約1300個義工提供引句。第四任OED主編JamesMurray不得不在牛津大學旁建造了一座小小的「藏書閣」來收錄這些雪片般的詞條。

JamesMurray博士。圖片來自:OxfordDictionaryblog

僅僅過了一個世紀不到,2010年,OED編輯部宣布代表當代英語語言權威的OED第三版很可能不會再出版紙質版本。

第一版OED。圖片來自:BaumanRareBooks

第二版OED。圖片來自:CenteredLibrarian

消息一出,除了一些唏噓的聲音,更多人認為這無關痛癢。對於習慣了生活在網際網路和智能行動裝置環境中的現代人來說,「查詞」這一行為早就從翻閱紙質詞典,變成了通過圖像、語音、文字形式輸入電腦或手機,僅需幾秒鐘,就能獲得相應的答案。

主持牛津英語詞典數位化工作的人叫JohnSimpson,他在1993年至2013年間擔任OED的主編。

準確的說法應該是:這個英國人在1980年代見證了OED語料庫電子化的過程,並且從1990年代開始,主導了在線牛津英語詞典項目和第二版牛津英語詞典的編撰增補工作。

1976年,從英國雷丁大學中世紀研究專業畢業的JohnSimpson以一名索引卡整理助手的身份自1976年進入牛津英語詞典編輯部工作。如果你看過一部由同名漫畫改變的電影《編舟記》,可能會對索引卡有個比較直觀的了解。在辭典編輯人員普遍使用電腦錄入數據以前,索引卡是詞典編輯最重要的語料收集工具。這是一張一張的小卡片,每一張上面寫著一個單詞和單詞的釋義。

美國韋氏詞典編輯部存放的索引卡。圖片來自:BostonGlobe

在OED的編撰過程中,每一個單詞都必須經過收集記錄、編寫、查證、反覆校對等過程,才能進入詞典。在OED編輯部,負責編撰詞條的編輯被分為普通詞條、科學詞條、新詞詞條,以及日耳曼語和法語類詞條四種,他們都需要根據收集到的詞語來源、使用的頻率、還有在國際之間的流動性等等來決定這個單詞有沒有被收錄的資格。在編寫過程中,編輯團隊還會產生更細的分工——比如專門會有編輯進行語音收錄,通過電視、電影、廣播等渠道來記錄考證每個單詞的讀音。

這是一種持續了一百多年的做法——編輯和研究員在巨大的圖書館裡上上下下,從一份份報紙或古書裡查找每一個單詞在歷史上變化的細微足跡。然後恭恭敬敬地將它們排列在一張張薄薄的辭典專用紙上。

但對於JohnSimpson來說,他恰巧站在了時代變化的十字路口。

「回到1989年,當第二版OED出版後,我們開始從印刷材料裡收集數據錄入電腦。(牛津大學出版社僱傭了120個打字員花費18個月時間將收錄了67,000,000個字符的第二版OED全部錄入電腦,並採用了一種基礎標籤語言結構)當時我們把探索的方向放在了建立一個巨大的電子資料庫上。1990年代,資料庫大體結構成型後,世界又變了。我們開始注意到全球資訊網和網際網路所帶來的可能性——它能夠改變我們一直以來使用的傳統詞典搜索和出版方式。」Simpson在他的一本名叫TheWordDetective:ALifeinWords:fromSerendipitytoSelfie的回憶錄中寫道。

由於編撰詞典的特殊性質,類似於「信息工匠」的編輯們是電子資料庫技術的早期實踐者。Simpson透露,在1980年代,詞典編輯就已經在開始接觸Lexis/Nexis美國報紙資料庫。他們漸漸習慣於用桌面上的電腦來搜索語料、錄入數據。

1995年,OED團隊又開始運用由美國密西根大學開發的MakingofAmerica線上資料庫——其中儲存在密西根大學資料庫裡關於美國早期書本、雜誌的資料。這也是OED編輯們再一次從CD格式的資料庫轉向利用在線資料庫。

2000年,Simpson和他的團隊正式將牛津英語詞典搬上線。自那以後,編輯對詞條的增補和修訂都可以通過網絡來進行,人們可以通過訂閱的方式來獲得OED最新的詞條收錄。

2000年上線的網頁版OED。圖片來自:ARIADNC

「當你去了解一個詞語時,你會對最後它會呈現出一個什麼樣的產品有個大致的感覺。每個單詞都是一首詩——小到像莎士比亞的十四行詩,大到像喬伊斯的《尤利西斯》。但當在電腦上編撰辭典時,我們越來越多地意識到,其實並不應該關注某個單獨的單詞,單獨的單詞就像『語言』這張拼貼畫上的某一塊磚。在現在我們得以建立的語言網絡裡,你能夠看見相比舊時期來說更清晰的、詞與詞之間的緊密關係。」2013年,JohnSimpson在接受《時代周刊》採訪時說道。

所以,圖書館裝載的紙質材料會隨著電子數據的建立而消亡嗎?JohnSimpson也問過自己這個問題。

他不久就發現這種擔心看上去有些多餘,因為即便電子資料庫能夠幫助編輯找到比以前多得多的資料,卻並沒有真正意義上提高詞條編撰的速度。一方面,其實人們並看不了這麼多信息;網絡材料的不準確性也會給查證過程帶來麻煩。「有時候,」Simpson說,「你還是得依靠純粹的人力、以及一名足智多謀的研究員在一座書架的深處發現問題的根源。這兩種考證方法是可以同時存在的。」

而牛津英漢詞典的App化,是在一個叫劉浩賢的中國人倡導下完成的。

劉浩賢加入牛津大學出版社香港分部16年了。剛入社時,他負責英漢字典編輯助理的工作。現在,他是牛津英漢詞典的主編,也是牛津大學出版社大中華區詞書出版的負責人。

就在JohnSimpson快將退休的時候,劉浩賢和他的團隊負責將牛津高階英漢雙解詞典(第七版)做成了一個App。

圖片來自:噹噹

「挑選牛津高階來做我們數位化出版的一次試水,是因為這本詞典一直以來的銷售都比較穩定。」劉浩賢告訴《好奇心日報(www.qdaily.com)》。

大約在2011年,劉浩賢代表牛津大學出版社與商務印書館提出製作App的想法。由於網際網路和搜尋引擎的介入,紙質詞典在全世界範圍內的銷售都進入了一個急速下降的狀態,改變已然刻不容緩。

當時牛津大學出版社已經具備了一些相關數字產品製作研發的基礎,這其中包括向一些電子產品生產商進行內容授權。一個典型的案例是從1990年代末開始與日本卡西歐合作推出的電子詞典。它大大簡化了手動翻閱查詞的過程,同時在較小的體積裡詳盡地錄入十多本不同版本和用途的詞典。

但他仍然要面對的現實是,整個辭典編輯團隊對開發一款App的過程一無所知。

不僅如此,劉浩賢的App提案一開始就受到了來自各方的阻礙。由於電子書籍的讀者群尚不明確,各個出版社都對剛剛興起的數字出版業務並沒有信心。另一方面,一百多年來,紙質詞典已經形成了一個完整的銷售、營銷渠道和參考標準,但App要賣給誰?怎麼宣傳?沒有人知道。

「正是這些不熟悉,導致在提案初期所有的合作方都對此懷有戒心。」劉浩賢說:「唯一能夠借鑑的標準就是那些打入排行榜前列的軟體,於是我們就一個一個下載下來研究,這些軟體有什麼缺點、有什麼我們可以做,有什麼我們做不到?有些編輯甚至是因為這個項目才擁有了第一部智慧型手機。」

另外一個讓劉浩賢感到壓力倍至的因素是:詞典軟體的盈利模式到現在還沒有一個清晰的定論。

在整個App開發策劃案敲定前夕,他被上司問了兩個問題:現在做數字版本,對紙本出版會有什麼樣的影響?這個數字版本,能賺多少錢?

「我當時沒有想太多。」劉浩賢回憶道:「當時我的回答是:第一,不要把出版數字版本看成是對紙本的打擊,因為數字版本的使用方法和紙本是有差別的。數字版本是一個全新的機會——找到新的讀者,以及,為老讀者帶去新的內容。第二個問題,我不能告訴你我們能賺多少錢,但我能告訴你我們最多能賠多少錢,就是賠掉我們編程開發的費用。」

劉浩賢認為這個答案在當時看來不怎麼完美,但好在他的策劃案並未因此被草草否決。更令他感到高興的是,牛津高階App在上線兩個月後的銷售額就讓出版社收回了開發成本,並在一次打折季營銷活動裡,登入了香港地區蘋果商店軟體銷售總榜的第7名。

牛津高階英漢雙解詞典App(第8版)。圖片來自:AppleStore

劉浩賢把這次成功歸結於一個「順應時代發展的做法」,另外,牛津辭典在此之前樹立的良好口碑,使其得到了許多教育機構和專業出版社的推薦。

牛津高階英漢雙解詞典App與現在人人愛用的在線詞典軟體其實並不相同,儘管二者都接入了專業辭典出版社的語料庫。就拿網易旗下的有道詞典來說,它的詞庫裡包括了柯林斯英漢雙解大辭典、21世紀大英漢辭典,甚至於維基百科上的內容。當你查詢一個詞時,可以得到來自於這些資料庫不同的解釋,以及搜尋引擎提供的英語例句。

相較於此,傳統詞典出版社所建立的語料庫所能提供的釋義範圍則要因此受到一定局限。

首先,App裡內容全部來自於牛津英語辭典的語料庫。而語料庫的標籤結構,決定了App的所能夠提供的查詞功能和釋義範圍。編輯人員和工程師在製作辭典內容時,則很大成程度上受到語料庫中每條信息標籤的限制。

相比於JohnSimpson在上世紀90年代剛剛電子化的資料庫,劉浩賢反覆提到的這個OED語料庫(corpus)已經是一個經過編輯和工程師不斷完善、收集了數十億字詞的巨型資料庫。它從不同媒體收集語料,包括報章、雜誌、文學、電臺錄音、戲劇對白等。每個語料的出處,包括時間、地點、來源都有紀錄。編輯通過分析語料庫的內容來編寫詞條──按使用頻率、出現時間、國際流動性等來決定是否收錄某個詞,並分析撰寫詞義。例證也是從語料庫選出,保證是真實的使用紀錄。編輯們一般會傾向於選擇組織嚴謹、在語法上富象徵意義的語料。

事實上,不論是辭典、電子辭典、內容授權,都是在這個語料庫支持下的前端的產品。它曾是Murray的一間小書閣,現在,語料庫讓我們快速地在外國旅行時,用幾秒鐘便看得懂眼前菜單上的菜名。

同樣在語料庫的支持下,除了傳統意義上的辭典開發,牛津大學出版社的內容授權對象範圍很廣——包括和蘋果、谷歌、騰訊這樣的科技公司進行內容上的合作。

「除此之外,我們還在建立一個針對收錄不同語言的學術項目。」劉浩賢最後提到:「我們現在在談的都是漢語和英語詞典,但牛津還在不同國家不同地區有其他的辭典項目。我們還在計劃做一個多語種的大型資料庫。在未來,它不光能夠產出辭典、電子辭典、翻譯軟體,它也將會是牛津大學出版社做一個語言保護計劃的一部分。我們的目標是收納一百種不同的語言。」

題圖來自:ExaminingtheOED

相關焦點

  • 《牛津英語詞典》轉型網際網路化 從傳統工具書到在線教育標配
    在1748年創立之後,牛津大學出版社出版了教材、學術文獻、小說等大量內容。《牛津英語詞典》是最有名的出版物,它不僅可以查詢單詞的意思,還會記錄、追溯60萬個英語詞彙的使用歷史、背後文化變遷。因此,這本詞典成為許多中國人接觸英國、美國等海外文化的一扇窗。
  • 外語學習工具書:《牛津高階英語詞典》
    以下是「十大外語學習工具書」推薦之 - 《牛津高階英語詞典》:《牛津高階英語詞典》  書名:牛津高階英語詞典(第六版·英語版)  ISBN:7-100-03919-3/H·980  作者:Sally Wehmeier  開本:32開  裝訂:精  字數:7000 千字  定價:¥75.00  推薦理由:  《牛津高階英語詞典》是世界上第一部為非英語國家的人們學習英語而編纂的高階英語學習詞典,半個多世紀以來一直引領著世界的潮流,迄今已發行三千萬冊。
  • 商務版工具書再添新丁 《牛津美式英語詞典》亮相
    商務版工具書再添新丁 《牛津美式英語詞典》亮相 2015-08-26 23:57:49《牛津美式英語詞典》。  商務印書館素有「工具書王國」之稱,與牛津大學出版社有著30餘年的合作基礎,雙方曾共同推出《牛津英漢高階雙解詞典》《牛津小學生英漢雙解詞典》《牛津英語同義詞學習詞典》等品牌圖書,二者的合作可謂歷史悠久、強強聯合。
  • 外語學習工具書:《牛津高階英漢雙解詞典》
    以下是「十大外語學習工具書」推薦之 - 《牛津高階英漢雙解詞典》:世所公認的權威學習型詞典牛津高階英漢雙解詞典全新第6版 隆重登場名社精誠合作,傾力打造辭書精品  世界上第一部英語學習詞典,權威性世所公認。
  • 從Twitter、Amazon學習,90歲的《牛津英語詞典》這樣擁抱數位化
    題圖來源:視覺中國現在很少有人會知道,英語最開始是只是屬於盎格魯-撒克遜(Anglo-Saxon)民族的語言,因為現代英語已經演變成了一種全球化「混合語言」。「預計在2020年,中國的英語學習人數將會超過5億。這意味著在中國英語學習者的群體將超越美國總人口數。
  • 英語四六級、考研必備工具——名人牛津高階彩屏詞典D3
    每年的這個時候,都是大學生最緊張忙碌的時候,一面要準備期終考試,一面還要準備英語四、六級考試,很多大四學生還要備戰2012年研究生考試。掐指算來,距12月17日的全國四、六級統一考試還剩不到2個月時間,距明年1月的研究生考試也只剩3個月時間。在這關鍵的衝刺階段,效率就是分數,學英語更是如此,一款好的英語學習工具必不可少。
  • 英語工具書
    推薦指南:作者MIGNON FOGARTY是一個外國知名博主,最火的時候她的語法博客每周閱讀量都超過30萬。這本書也是在美國亞馬遜上,最受歡迎的英語工具書之一。老外的評價是「特別有趣,看了之後能讓我清楚地知道如何使用這些單詞。」下面的3本都是詞根詞綴相關的,有興趣的同學根據自身情況,3本任選1本就可以了哈。
  • 《牛津英語詞典》探秘:世界上最大的詞典能否活過網際網路的衝擊?
    「這條推之前被刪了,不過我們捕捉到了它,」佩頓不無得意地告訴我說。在牛津大學出版社的辦公室裡,佩頓正在為《牛津英語詞典》撰寫一條全新的條目。從一個方面看,幾乎沒什麼東西比一部詞典更簡單:把人們平常用的或者曾經使用過的字詞列出來,就其意義或此前曾經有過的意義給出相應解釋。但從另一個更加要緊的方面看——它把詞典學家們搞得焦頭爛額、苦不堪言——詞典又是極為複雜的。誰用了這些詞?在何種具體的時間和地點中?你又如何知道這些?哪些詞需要收錄進去?根據什麼來做取捨?如何將某一含義與其它含義區分開來?歸根結底,究竟才什麼算是「英語」?
  • 介紹牛津、朗文、劍橋之外最新的英語學習詞典 麥克米倫高階英語詞典(英語版)
    介紹牛津、朗文、劍橋之外最新的英語學習詞典 麥克米倫高階英語詞典(英語版)
  • 牛津英語詞典如何收錄中式新詞
    編輯同志:作為英語權威工具書,牛津英語詞典日前又新增1400個潮流詞彙,比如來自中文「加油」的港式英文「add oil」。請問字典是如何收錄新詞的,有什麼標準或者依據?河南讀者劉芳【環球時報綜合報導】牛津英語詞典為了與時俱進,經常不斷修訂,其編輯部每3個月上網發布一次新修訂部分的內容,每年4次。這些修訂與更新,既包括一些全新的詞彙,也可以是現存詞彙的全新定義。牛津英語詞典正式收錄的詞是如何從茫茫「字海」中選出的?答案是「足夠量的使用證據」。
  • 英語工具分享:《麥克米倫詞典》是一本什麼樣的詞典?
    提到英語詞典很多人第一個想到的可能是《牛津詞典》或者《劍橋詞典》,相比之下,《麥克米倫詞典》(Macmillan English Dictionary for Advanced Learners)可能知名度不是很高,不過這也是一本非常優秀的詞典。
  • 學英語買詞典,就選諾亞舟牛津搜學王N8
    世界經濟一體化進程的加快,促使人們更加迫切的需要去掌握更多全球化的工具,而英語作為目前全球使用最廣泛的語言,就是其中最重要的工具之一。世界上所有的語言都自成語境、邏輯嚴密,對於中國人而言,要把非母語的英語學好,需要好的查學輔導工具。今天我們為大家推薦的工具便是諾亞舟牛津搜學王N8詞典機。
  • 牛津英語搭配詞典,你真的會用了嗎?
    詞典是語言學習者必不可少的工具,也是獲得英語信息的一個重要來源。相信每一個英語學者至少都會配有一本英語字典。那麼,面對琳琅滿目的英文詞典,你知道哪本最適合你嗎?今天小編就來介紹一下如何有效的利用牛津英語搭配詞典來學習英語,希望能對大家有所幫助。
  • 搜狐專訪:如何利用詞典提高自己的英語水平?
    每到開學的時候中國的家長和學生非常發愁他們該買什麼樣的外語工具書而煩惱,今天請蔡總給我們講一講目前市場上都有哪些類的外語工具書?學生和家長們應該如何選擇?    外語工具書市場魚龍混雜 外語詞典必須權威   外研社總編輯 蔡劍峰:非常高興有這個機會給網友們提供一些我認為比較有價值的經驗。
  • 90歲《牛津詞典》「變」中求生
    1857年,在倫敦語言學會的呼籲下,《牛津英語詞典》的前身《新英語詞典》的編纂工作開始了,但誰也不會料到它會成為「時間殺手」。1876年,蘇格蘭教師和文學家詹姆斯·莫裡接手主編工作。為了能加快進度,莫裡印發了一份倡議書,希望找到志願者能夠協助從報紙和圖書館的書籍中摘抄例句,提供給編纂者用來說明某個單詞隨著時間發生的變化。
  • 【薦書】牛津英語搭配詞典(第二版)
    出版社:外語教學與研究出版社出版時間:2015年4月主要內容:牛津出版的各種雙解學習詞典早已為廣大讀者熟悉和認可,但囿於篇幅所限,這類內容包羅萬象的詞典一般難以詳盡介紹英語單詞的各種搭配組合,如習語、短語動詞或詞語搭配等。
  • 補團 | 《牛津第一本詞典&同義詞詞典》2019最新版,插圖詞典就選它
    這套詞典是牛津專門為初學英語的孩子所編寫,精心挑選了這個階段孩子常用的1000個詞,用非常簡單直接的解釋,必要時輔以插圖,幫孩子很容易就能理解詞義。同時,用英語解釋英語,更有利於培養孩子的英語思維。對於初學英語的孩子來說,這套書是工具書也是詞彙學習書,形象的插圖和簡單的釋義,讓英語學習變得生動有趣。
  • 又有一個義大利語單詞被收進《牛津英語詞典》啦!它看起來就很好吃的樣子
    傳統的義大利美食,在這裡特指西西里美食,最近受到了牛津英語詞典的青睞哦~根據2019年10月進行的更新,我們在牛津英語詞典中可以直接找到"arancino"這個詞啦。不過詞典只收錄了陽性單數的說法,儘管很多西西里人喜歡使用陰性的形式(arancina),但是詞典裡卻沒有提到呢(小編預感到了部分西西里人民的不滿😅)。
  • 效率工具 | 歐陸詞典——自動置入詞典的英語APP
    研究生考試的英語主要是閱讀佔據大部頭,為了背那幾百頁的單詞,早晨六點半起床,每天在圖書館樓梯間拿著單詞書,冬天在寒風中瑟瑟發抖,今天背的單詞,明天還剩幾個單詞就不知道了。查找陌生單詞作為閱讀過程中必備的行為,找到一個精準、確切的單詞釋義比閱讀本省更為重要。
  • 金山詞霸與Systran:從翻譯工具轉型服務平臺
    本次合作,雙方會在中英文、中韓、中法、中日、中西和中德互譯等語種高質實時在線翻譯領域展開合作。這是金山詞霸繼與牛津出版社合作之後的又一次重大合作事項。2015年金山詞霸推出牛津詞典,實現用戶在手機上免費使用牛津詞典。  作為雷軍在金山操刀的首款軟體產品,金山詞霸自1997年正式推出以來,經歷了最初在線翻譯市場的殘酷血拼,多媒體詞典、網際網路詞典到手機詞典。