作者簡介:謝蓉,ORCID:0000-0002-2243-2125,通訊作者,上海對外經貿大學圖書館,xr@suibe.edu.cn。上海 201620;劉煒,上海圖書館。上海 200031
內容提要:圖書館數位技術應用向縱深發展,正呈現三個新的發展方向:一是從數位化到數據化;二是雲端化和大數據之後帶來的智慧化;三是全方位的網絡眾包和大眾參與。在上海剛閉幕的第十三屆數字圖書館前沿問題研討班(ADLS 2016)上,首次提出「數字學術和公眾科學」的主題,連同數據化和智慧化,這三方面的趨勢正帶來數字圖書館的新變化和新生態。
關 鍵 詞:數字圖書館 數字學術 公眾科學 數字人文
分類號 G250.76
圖書館數位技術應用向縱深發展,已呈現三個新的發展方向:①從數位化到數據化,館藏對象深入到數據層面正在成為圖書館新的業務趨勢;②雲端化和大數據之後必然帶來的智慧化;③普遍2.0之後造成全方位的網絡眾包和大眾參與。這是在上海剛結束的第十三屆數字圖書館前沿問題高級研討班(ADLS 2016)傳達出的訊息。
本屆論壇以「數字學術與公眾科學:數字圖書館新生態」為主題,重點探討了「數字學術與數字人文」「公民科學與大眾參與」「關聯數據與語義技術」和「開放數據和開放知識」四個分主題,這些主題為首倡於1994年的「數字圖書館」概念帶來了新的內容和新的熱點,給當今處於「複合型圖書館」階段的圖書館實踐帶來新的動力,並指明了發展方向。在短短兩天的研討時間裡,會議容納了26個發言,晚餐期間還舉辦了頭腦風暴和專家問答,密集的概念轟炸和觀點碰撞讓與會者大呼過癮,原計劃150人的研討班吸引了240餘位關注前沿的同行與會。
1 從數位化到數據化:數字圖書館向知識服務邁進
「僅僅數位化是不夠的,數字圖書館應該將工作的中心轉向『數據化』,數字圖書館的下一步是建設數據圖書館。」來自加州伯克利大學東亞圖書館的林海青先生如是說[1]。本屆論壇開篇的第一個主旨報告——張曉林研究員的「超越數字圖書館:基於數據與分析的知識服務」就對這一觀點直接做出了呼應。
所謂數據化,是指以數據為基本單元組織信息並提供服務的方式,區別於傳統的以文獻(包括網頁、電子書這類數字文獻)為基本單元的方式,這裡的「數據」,是指在全球資訊網上能夠獨立存在,或經過一定格式的數據編碼,使電腦程式能夠處理或「讀懂」其含義的數據,並非我們通常所說的只能通過人來理解和處理的數據。數據化的主要特點是資源對象的細粒度化和語義化,以及其格式是對於內容的描述而不只是形式或結構上的描述,順應了全球資訊網從Web of Document向Web of Data的發展趨勢。本次會議清華同方公司介紹了他們在碎片化和精準化知識協同服務方面的最新進展,也恰好印證了這一趨勢[2]。
圖書館的數字資源管理問題還沒有得到很好解決,仿佛一夜之間,大家都開始談論數據服務,業界有人詬病這又是一輪炒概念、趕時髦現象。然而我們認為這是一個必然趨勢,因為這一趨勢並非來自於圖書情報行業本身,而是來自我們所處的環境和我們所服務的對象。整個科學研究都在向「數據驅動的研究」發展,正呈現「所有的科學都在變成數據科學」這一無法迴避的現象。隨著近年來數字科研(eScience)和數字人文(Digital Humanities)的興起,大量的科學研究都在變身為數據密集型研究,產生形形色色的「數字×××學」或「計算×××學」,例如「數字文學」「計算語言學」「計算歷史學」「計算生物學」等等,提供基本研究方法和工具的「數據科學」應運而生而且得到快速發展。這一現象被美國計算機科學家、圖靈獎的獲得者吉姆·格雷(Jim Gray)總結為科學研究的「第四範式」[3]。
圖書館開展數據服務起因於歐美各國近年來對政府基金項目申報要求提交數據管理計劃的規定,許多大學和研究機構都要求圖書館員在科研人員申報項目時提供必要的幫助,以符合編制數據管理計劃的要求。部分研究型圖書館走得更遠,直接參與了其所屬機構數據管理系統的研發、管理和運營。復旦大學張計龍副館長專門討論了在構建科研大數據管理平臺方面的做法和思考,並特別介紹了美國科研數據行業對「數據科學家」的迫切需求和眾多iSchool紛紛開設專業培訓,對數據化趨勢起到了推波助瀾的作用。上海外國語大學任樹懷館長也介紹了以大學發展戰略為指導構建數字學術服務平臺的心得[4]。
數字人文是目前圖書館為數字學術開展服務的一個重點領域。早期的谷歌等公司轉換的數字圖書資源被併入Hathitrust:和美國國家公共數字圖書館(DPLA)等新的數字圖書館服務體系中,其他圖書館和博物館、美術館、檔案館等人類文化記憶機構也紛紛成立數字人文研究中心,由於它們擁有海量特色館藏,經「文本化」和「數據化」之後,目前已成為各相關領域數字人文研究不可或缺的基礎設施。數字人文研究和服務在我國剛剛興起,本次會議分別有武漢大學王曉光的「面向數字人文的文化遺產圖像深度語義組織研究」,北京大學朱本軍的「數字人文:圖書館實踐的新方向」、廣西民族大學歐陽劍的「面向數字人文的數據融合研究」、上海圖書館夏翠娟的「以數據服務為基礎的數字人文平臺建設方案研究」等報告。他們分別結合各自的項目,生動地介紹了一批成果,另有來自北京水晶石公司的VR技術總監魏記先生專門就數據模型化和可視化作了報告,都展示了目前國內數字人文研究和應用的較高水平。
然而從行業層面來看,圖書館開展數據服務並未成為其理所當然的業務。要確立在數據管理方面的地位,體現圖書館在傳統文獻、數字資源之外,對於數據管理也能做出獨一無二的貢獻,還需要更多的圖書館做出更大的努力。
2 從自動化到智慧化:實現隨時隨地無所不在的嵌入式服務
智慧圖書館的含義通常有兩個:一是指採用無線射頻(RFID)或其他自動感知等物聯網技術之後實現圖書館服務的自助化(無人化)和智能化,通常是指實體圖書館的智慧化;二是通過「大數據分析」,使大數據變成「聰明數據」(Smart Data),發揮大數據的價值,使圖書館提供更加個性化的服務。數據分析既可以應用於優化傳統服務,也可以用於優化數字服務,因此可以認為這是複合型圖書館的智慧化。而本次會議還涉及另一種「智慧」:通過對資源內容進行語義標註,使其「自帶智慧」,變成「聰明內容」(Smart Content),這才是真正意義上的數字圖書館智慧化。
來自上海交通大學的孫翌介紹了一個典型的實體圖書館智慧型發展之路(他稱為「智能圖書館」)[5],綜合採用了多種技術,包括自動感知和數據分析處理等,是第一類智慧圖書館的升級版。阿法迪公司的雷向欣博士也提供了一個結合用戶行為數據分析的智慧圖書館解決方案,打破了人們對該公司只作RFID硬體技術供應商的固有認識,具有很強的可操作性[6]。重慶大學楊新涯館長展示了一個新上線的圖書館門戶系統[7],不僅有許多2.0功能,而且融合了大量的數據分析,能夠提供多種聚類、推薦,這可算作第二類智慧圖書館系統。來自美國肯特州立大學的曾蕾教授分享了一個智慧數據應用於人文研究的案例,可以為圖書館行業所借鑑。
關聯數據作為語義全球資訊網的一種簡化實現,是目前最常見的和最簡單的「聰明內容」,已開始在科學數據管理、STM(科學、技術、醫學)出版、政府信息公開和企業數據管理等領域得到了普遍關注和初步應用,被認為是網際網路Web 3.0的發展方向。本次會議有多篇關聯數據技術和應用方面的報告,可以說是國內關聯數據領域最新成果的一次大檢閱。林海青提出關聯數據是對網絡上的信息進行規範控制的最好方法[8],鄭巧英利用元數據和本體技術對多種類型資源的資源深度整合提出了方案,胡小菁詳細介紹了圖書館第一個應用關聯數據作為書目數據格式的最新進展,夏翠娟則提供了一個研究型圖書館開發數字人文關聯數據應用的完整案例,陳濤博士專門針對政府開放數據提出了關聯數據的解決方案,張永娟對涉及「聰明內容」的語義出版現狀進行了概述。
會議最有意義的內容之一應該算是曾蕾和範煒所做的關於「關聯數據能力指標」(CI4LD)的介紹[9]。這是一個國際專家小組最新的工作成果,把學習關聯數據有關的知識分解為具有層次的各種指標,參照「成就標準網絡」(Achievement Standards Network,ASN)中的《圖書館能力指標》①,將所有相關知識點進行分類發布,這樣就可以指導人們進行對照學習,或評估自己在關聯數據方面已經具備的知識和能力。發布CI4LD的網站目前已移交由都柏林核心元數據組織(DCMI)進行維護[10],能力指標文檔的中文翻譯也已在官網上發布[11]。本屆會議的一個重要成果是將由上海圖書館建立和維護一個中文版CI4LD網站,與英文版網站一樣,支持能力指標的進一步修訂擴充,以及將更多的中文關聯數據資源關聯上去,供人們學習和參考。