海研全球資料庫使用分析報告
單位:南京大學信息管理學院
負責人:袁勤儉
報告撰寫人:袁勤儉 邵波 黃仕靖 吳川徽 張苑
報告完成日期:2018年11月4日
網際網路的發展促進了信息的共享,對於學者來說,一方面使得獲取精準,及時的信息成為可能。另一方面,項目數據來源的多元化和數據分布的碎片化遲滯了其研究效率。海研全球項目資料庫作為一種新產品,意圖打造學術交叉領域和細分領域的完整科研「生態鏈」,為科研工作者獲取意向領域的立項概況與競爭情報提供了數據來源。為了檢驗此產品的真實性能,我們首先考察了人機界面的基本功能,包括用戶的註冊流程是否簡單易行以及課題申報、科研項目、企業需求的細分領域檢索是否功能健全,能夠得到怎樣的結果,是否清晰直觀。其次,由於目前國內外主流的科研項目資料庫只收錄了立項數據而缺乏對於項目申報與實踐應用的「全流程」數據,導致科研工作者難以對其細分領域的立項概況與動態進行掌握。基於這個現實考量,我們通過對「海研」全球科研項目資料庫進行數據採集與分析,分別藉助「海研」資料庫的三大模塊(課題申報、科研項目與企業需求)對兩個方面的科研項目數據進行了計量分析,分別是基於主題的科研項目數據分析和基於科研項目資料庫的社會需求分析,以期達到兩個目的,第一是實現對於科研項目全流程數據的計量分析。第二是實現基於全流程數據的知識需求挖掘與發現。此外,我們基於用戶的角度,運用層次分析法,構建了科研項目資料庫的評價指標體系,並依據該評價體系比較了國內三個常用的科研項目資料庫,研究認為科研項目資料庫的建設需要高度重視內容建設,尤其是數據的全面性、權威性、完整性和更新速度,這些是影響整個資料庫質量的關鍵要素;其次對於技術系統來說,最重要的是優化檢索功能,提高檢索結果的全面性和準確性;此外,也不能忽視用戶的使用體驗,海研資料庫因為以用戶需求為中心,在提供科研項目相關的成果文件的同時,構建用戶社區,具有分享、點評和關注等定製化功能,極大地提升了用戶的使用體驗。
1.海研全球項目資料庫人機界面的介紹1.1用戶註冊流程海研全球項目資料庫分為三個部分:分別是課題申報,科研項目以及企業需求。
1.2.1課題申報(1)海研課題縱向搜索:按學科、行業分類
(2)海研課題橫向搜索:按資助類型、資助範圍、資助級別分類
①資助類型
圖1-1資助類型
②資助範圍
圖1-2資助範圍
③資助級別
圖1-3資助級別
(3)對課題的檢索可以分為:在標題中;在正文中;在標題正文中;高級檢索功能下可以設置具體的起止時間。
圖4-高級搜索
以「人工智慧」為目標領域,對課題領域進行檢索的流程如圖所示:
圖1-5 人工智慧搜索結果
圖1-6 詳細結果
1.2.2 科研項目(1)科研項目檢索頁面:
圖1-7 檢索頁面
(2)檢索詞的邏輯關係:
可採用的布爾邏輯檢索方式:與、或、非。
(3)項目主題詞分類:
布爾邏輯檢索內容包括:項目主題、項目名稱、項目摘要、項目負責人、負責人機構、基金名稱。
(4)設置模糊或者精確搜索:
檢索精度可分為模糊匹配、模糊包含、精確包含、精確匹配。儘可能滿足用戶的需求,確保檢索結果的準確性。其中匹配規則包括:
①模糊匹配:輸入的查詢文本中任意字詞的一個或所有出現。
②模糊包含:輸入的查詢文本中所有字詞必須包含,順序和位置不完全限制。
③精確包含:輸入的查詢文本中所有字詞必須包含,且順序位置和輸入文本嚴格一致。
④精確匹配:輸入的查詢文本與檢索內容相等,完全一致。
(5)設置搜索結果排序標準:
模糊度含義:滑動條僅在「模糊包含」和「模糊匹配模式下生效。數值越大模糊度越高;對於「模糊包含」模式,模糊度代表支持的位移大小變化;對於「模糊匹配模式」模糊度代表需包含字詞的多少。
(6)相關性規則:
不含成果:檢索過程中不涉及成果,成果不貢獻相關性
含成果:檢索過程中涉及成果,並且貢獻相關性
僅含成果:僅檢索包含成果的項目,檢索過程中涉及成果,並且貢獻相關性
(7)科研項目檢索結果顯示:
左側窗按國家地區、資助來源、資助年度、項目級別等前幾位排序。用戶還可通過輔助檢索功能進行進一步的優化檢索結果。輔助檢索功能包括成果連結指向檢索、排序條件檢索、左側窗條件檢索、機器輔助翻譯、成果快照和瀏覽定位。
以南京大學孫建軍教授為例,解析上述使用要點,檢索及檢索結果如下所示:
圖1-8 檢索條件設定
表1-1項目檢索結果
編號
項目名稱
資助來源
資助年度
1
基於ISC理論的信息用戶行為評測與服務改進研究
教育部人文社會科學研究項目
2012
2
面向學科領域的網絡信息資源深度聚合與服務研究
國家社會科學基金
2012
3
融合範式視角下的連結分析理論集成框架及其實證研究
國家自然科學基金
2012
4
兩化融合戰略下江蘇省信息資源開發利用的戰略、思路、模式、途徑與政策研究
江蘇省高校哲學社會科學研究項目
2010
5
基於TAM與TTF模型的網絡信息資源利用效率研究
國家社會科學基金
2006
此處以《融合範式視角下的連結分析理論集成框架及其實證研究》為例展示「海研」科研項目基本功能,圖—22為項目詳細信息,為用戶羅列出項目參與者,項目金額,項目開始時間、截止時間,項目論文的產出情況。用戶可根據實際需求,獲得項目成果的連結,進行閱讀或下載。
圖1-9項目詳細資料
以《融合範式視角下的連結分析理論集成框架及其實證研究》為例進行交叉領域和分支項目的識別。在「海研」科研項目中分別按照項目主題輸入「連結分析」、「實證研究」、「融合範式」,選擇模糊包含查找。共查找到65項科研項目,其中包含《融合範式視角下的連結分析理論集成框架機器實證研究》;選擇其中相關性高的20個項目,列出如下表1-2。
表1-2 相關項目列表
經過對20項科研項目的數據整合,得出以下幾點規律:
①通過對連結分析這一主題的集中搜索,發現這是一個獨立領域的專有名詞,使用範圍局限,主要針對傳統連結分析算法。
②研究視角包括:企業視角,用戶視角,區域視角;研究範式包括模型與方法研究、理論研究、實證研究、案例研究。
1.2.3 企業需求
(1)企業需求檢索框:
圖1-10需求檢索框
(2)按行業導航欄:
圖1-11 行業導航欄
(3)檢索結果顯示:
圖1-12檢索結果顯示
以企業尋求軟體方面的技術支持為案例,得到以下結果如圖所示:
圖1-13 檢索結果組成
2.海研資料庫的項目計量2.1利用「海研」進行項目計量的優勢利用「海研」項目資料庫進行項目計量的優勢主要來源於其所收錄的項目數據的全球性、鏈條性和閉環性。
(1)數據收錄的全球化。目前已收錄了世界上二十多個科技發達國家和地區的 800 多萬個受資助科研項目數據及2000多萬條科研成果(產出)連結指向(見表1 )。科研項目數據最早可追溯到 20 世紀 50 年代,涵蓋了全學科領域,具有多個主流語,其官網主頁顯示其已經成為收錄範圍最廣、數據規模最大的科研項目資料庫。且收錄數據實時動態更新,確保始終具有最新的科研項目數據。
表1海研收錄的部分境外項目資助來源
序號
收錄項目來源
序號
收錄項目來源
1
美國國家自然科學基金(NSF)
6
瑞士國家科學基金
2
法國國家科研基金
7
韓國科學基金
3
俄羅斯基礎研究基金
8
歐洲研究理事會基金
4
加拿大自然科學與工程基金
9
美國中小企業創新研究基金
5
美國衛生和人類服務部基金
10
臺灣省政府科研基金
(2)數據來源的鏈條化。傳統的項目資料庫,以國家社科基金資料庫為例,檢索條件只能夠精確查詢明確主題、負責人、項目批准號等信息,即信息檢索的結果較模糊。而「海研」全球項目資料庫不僅能夠調整檢索條件,也能夠查看負責人機構、項目金額、項目簡介、關鍵詞、成果連結等,還能夠獲取相關科研項目成果的全文,從而真正實現「情報閉環」、「海研」全球科研項目資料庫通過其內含的三大模塊實現了科研項目的全「生態鏈」,即涵蓋了從申報到立項再到產出的全過程項目信息。
(3)「海研」全球科研項目資料庫通過其內含的三大模塊實現了科研項目的全「生態鏈」,即涵蓋了從申報到立項再到產出的全過程項目信息。其三大模塊分別是項目申報、科研立項與企業需求,這其中項目申報與企業需求數據是更新後不保留原有數據,立項資料庫是更新後補充到原有數據中。項目申報目前不僅收錄了面向國內的科研項目申報通知,涵蓋了從國家級、省部級乃至地方各層級的科研項目申報數據,也涉及了國際合作(主要是中國與其他主權國家間)的科研項目申報數據,這其中覆蓋了包括社會科學、人文哲學、自然科學以及交叉科學在內的各個學科。企業需求模塊收集了國內各種類型企業對於純技術需求和研發合作上的需求數據,主要包括需求來源、資助金額、需求描述、聯繫方式等信息。
2.2數據抓取2.2.1 主題項目數據挖掘在進行科研項目數據收集之前,需要確定項目主題和檢索條件,由於「海研」資料庫的項目資料庫規模龐大,不可能對其進行全樣本分析,其次,基於科研工作者的視角,其關注的是某一細分領域下的科研進展,因此我們選取了「知識管理 」 作為本次數據採集的目標主題,並將檢條件設置為時間2017.1.1-2018.7.10,語種選擇中英文,檢索規制選擇模糊匹配並主題包含,共檢索到600多條數據信息,利用網頁數據爬取工具八爪魚軟體對目標數據集進行抓取,經過剔除不完整及不相關的數據之後得到 574 條記錄信息,其中細項包括四類:來源類別、項目名稱、負責人以及機構。如表2所示,我們將中外機構與基金合併進行統計分析,在機構方面,可以看到近兩年來「知識管理」基金項目立項的高校主要有吉林大學、新墨西哥大學西南科技大學等,而與「知識管理」相關的基金項目來源則包括了美國國家科學基金(NSF)、中國國家自科、社科基金等。針對該主題的統計分析可以使得科研工作者快速把握目標主題目前研究的前沿陣地以及基金覆蓋情況。
表2 海研收錄的「知識管理」項目分布局部
機構
頻次
來源類別
頻次
吉林大學
6
美國國家科學基金(NSF)
14
新墨西哥大學(美)
3
國家級大學生雙創訓練計劃
9
西南科技大學
3
國家自然科學基金
6
天津科技大學
3
美國農業部基金(NIFA)
5
北京大學
3
國家社會科學基金
3
伊利諾伊大學厄巴納-香檳分校(美)
2
瑞士國家科學基金
3
2.2.2 基於集成項目資料庫的社會需求挖掘基於集成項目資料庫的社會需求分析主要分為兩個部分,第一個部分是縱向層面的國家知識需求分析,這主要是依賴於對於申報數據信息的挖掘與分析,通過對近期國內科研項目申報數據的分析,可以有效洞悉目前國家主要的知識需求集中於哪些方面,同時也為科研人員申報提供了一種方向性思考。其次是橫向層面的企業知識需求分析,主要依賴於對於企業需求信息的挖掘與計量,通過對特定技術的檢索分析,可以有效把握當前基於該主題技術的商業需求前景,提高科研項目的成果轉化率以及實現產學研合作。
(1)縱向層面的國家知識需求主要是依賴於海研科研項目資料庫中的課題申報板塊,其收錄了3000多條抓取的國內有關項目基金課題的發布通知,細項涵蓋了狀態、申報名稱、發布機構、資助範圍以及發布與截止時間。我們基於八爪魚數據採集工具對時間範圍為2017年至2018年的項目申報數據進行了抓取,檢索日期為2018年7月10日,總共採集的數據總量為2050條。並利用excel、SPSS、Ucinet 等工具對數據進行了統計與計量分析,以期達到兩個目的,第一是洞悉近兩年來基於該資料庫所收錄的項目申報數據概況;第二是分析基於海研科研項目資料庫的申報熱點研究。
(2)對橫向的企業知識需求分析主要是「海研」資料庫的第三大模塊企業需求,意即將企業需求分為兩大類型,研發合作與技術需求,並將企業需求數據按照需求名稱、資助來源、資助金額與所屬行業進行收錄,科研人員既可以在這一模塊了解相關主題下的企業需求,也可以在此基礎上尋找新興課題的立足點;既可以在此基礎上向相關企業申請科研立項,也可以在此過程中思考科技研發與產業對接的意義。因此,我們以「電動汽車」為主題檢索詞,檢索日期為201 8年7 月1 0 日,共檢索到250 條記錄,在收集之後我們對數據進行了清洗,將不完整的數據即缺乏名稱、來源、金額或行業中的任何一項進行剔除,得到了約200 條相關數科技據,並以此對該數據集進行了描述性統計分析與共詞分析。
2.3可視化結果2.3.1 縱向國家知識需求數據可視化對於縱向的國家知識需求我們基於 Excel 自身的詞頻統計功能,對採集的總體數據樣本進行了描述性統計分析。在「海研」資料庫所收錄的課題申報數據中,截止到檢索時,狀態為「申報中」所佔比例較小,只有 3.4%,而「已截止」的課題申報為 96.6%,可能的原因在於第一,「海研」科研項目資料庫所收錄的課題申報數據基本上以通知通告為主,而通知通告一般時限較緊。第二,「海研」科研項目資料庫所收錄的課題申報數據總體規模較小,截止到筆者檢索時,課題申報數據總規模大約在3000多條。其餘細項如表4所示,近兩年來在海研資料庫所收錄的課題申報數據中,發布機構的頻次比較高的多是政府部門(如國防科工局、住建廳和發改委等)和事業單位(自科委、哲社辦等)。而涉及到課題所涵蓋的資助範圍層面,我們利用 Excel自帶的數據地圖功能將資助範圍數據疊加到全國省份地圖上,形成可視化數據地圖,顏色越深表示資助頻次越高,如圖 3 所示資助範圍較多的覆蓋在東部沿海經濟較為發達的省份,如江蘇、廣東和浙江等,而中西部與東北地區課題申報的覆蓋面較小。
表 4 發布機構與資助範圍統計概況
發布機構
頻次
資助範圍
頻次
國防科技工業局
71
全國
478
湖北省住房和城鄉建設廳
49
江蘇
215
上海市發展和改革委員會
35
廣東
136
中共江西省委宣傳部
26
浙江
115
裝備預研船舶重工聯合基金管理辦公室
21
河南
92
國家自然科學基金委員會
18
山東
87
雲南省哲學社會科學規劃辦公室
16
河北
81
圖 3 課題申報資助範圍可視化圖
在進行需求熱點分析之前,我們需要對申報課題名稱進行文本分詞,以進一步提取關鍵詞,進行共詞分析與熱點探析。同上,我們選擇了北京理工大學張華平博士研發的漢語分詞系統ICTCLAS2016對課題名稱文本進行了分詞,得出的關鍵詞以及詞頻統計如表5所示。根據孫清蘭得出的高低頻詞分界公式
,(D 為不同詞的總詞數),需要指出的是由於「海研」資料庫所收錄的申報數據詞條大多為「通知」,因此所覆蓋的詞條大多是「普適性」名詞,在剔除諸如「通知」、省份等名詞後,並將意義相近的詞條合併後,得出本數據集分詞之後的不同詞數為3560,因此計算出高頻詞數大致為60個,並以此構建了60*60 的共詞矩陣。表5可以看出,從抓取的課題申報數據來看,即涉及哲學社會科學,也涉及了自然科學和軟科學;既包含基礎理論研究,也包含企業創新實踐;即體現傳統領域如產業政策、產業機構等,也觸及前沿領域如網際網路、大數據以及人工智慧等。
表5 申報數據分詞結果及詞頻統計(部分)
標籤詞
詞頻
標籤詞
詞頻
標籤詞
詞頻
大數據
43
網際網路金融
14
產業結構
7
軟科學
29
創新
14
雲計算
6
哲學社會科學
27
影響因素
10
智能電網
6
能源網際網路
20
產業政策
9
創新績效
6
十三五
17
企業創新
8
數據分析
5
在表5 的基礎上,利用Excel 數據透視表的功能構建了共詞矩陣從而計算出關鍵詞共現矩陣,再將共現矩陣導入Ucinet 和Pajek 軟體,得到關鍵詞網絡關係圖。如圖5 所示,可以較為清晰地看出有數個次級中心子群,分別是以產業結構與經濟增長為中心的凝聚子群;以大數據為核心的數據處理與可視化分析網絡;以科技創新為核心的創新驅動集聚以及以中國特色為中心的哲學社會科學詞彙網絡。這些都代表了目前課題申報的熱點方向,既涵蓋了傳統的馬克思主義哲學、農業產業發展,也包含了目前科技發展的尖端方向,如大數據處理與分析、網際網路+、人工智慧與深度學習等。
圖 5 課題申報關鍵詞網絡圖
2.3.2 橫向企業知識需求數據可視化企業需求的概況由四個方面展開,首先是需求類型,在收集的數據中,純技術需求佔比為 63.4%,而研發合作需求佔比為 36.6%,一定程度上表明了企業較為仰賴於純技術需求。其次是資助金額, 「面議」類型佔比超過 70%,而涉及到具體金額上,低於1000萬的佔比為 22.9%,1000萬以上的佔比為 7%,由此可見企業需求涉及的研發金額相對較小,並且更傾向於「面議」。同時,如表6所示,在資助來源即需求來源機構中,大多是來自主力汽車製造企業,如奇瑞、華晨等,但也存在一些電動汽車相關技術細項的有關企業。此外,在所屬行業中,涉及了圍繞電動汽車生產與製造的相關核心產業,主要是裝備製造業、節能環保業以及新能源業等。
表6 企業需求資助來源與所屬行業概況
資助來源
頻次
所屬行業
頻次
國家技術轉移中部中心襄陽分中心
8
裝備製造業
29
奇瑞新能源汽車技術有限公司
6
節能環保業
24
江西昌河汽車有限責任公司
4
新能源業
24
華晨汽車集團控股有限公司
4
汽車業
22
江蘇精一電氣科技有限公司
2
電子信息業
13
在對所收集的數據進行共詞分析之前,首先要對數據集中需求名稱進行文本分詞從而提取高頻詞以構建共詞矩陣,進而實現社會化網絡分析。在此,由於數據集較小,我們採用了一種線上分詞系統集搜客(GooSeeker)對數據集進行了分詞,在剔除一些無意義的名詞之後提取了高頻詞,具體如表7所示。除電動汽車以外,圍繞充電技術以及充電基礎設施建設是當前企業技術需求和研發合作的重點。在進行高頻詞選取之後,我們借鑑儲節旺等利用Excel 構建共詞矩陣的方法,然後利用 ochiai 係數公式構建共現矩陣,然後將共現矩陣導入Ucinet 和 Pajek軟體中,得到如圖7所示的網絡圖,在選擇圖形布局(layout)時我們選擇了 Kamada-Kawa 平面自動布局,其帶有一定程度的聚類效果,如在,7所示的「魚形」圖中,以「純電動汽車」為節點區分了兩類,一類是圍繞電動汽車所形成的凝聚子群(魚身),另一類則是由幾個節點主要是機身控制相關詞彙所構成的子群(魚尾)。在「魚身」子群也可以較為清晰地看到圍繞著電動汽車產生了多個環形結構,由內到外依次為電池電源相關技術、電源分布相關技術與控制和充電基礎設施建設。而在「魚尾」部分,基本上是圍繞「純電動汽車」產生了一個類扇形結構,主要是有關於汽車控制與實驗的相關核心詞。
表7 文本分詞結果與高頻詞統計(部分)
標籤詞
詞頻
標籤詞
詞頻
標籤詞
詞頻
電動汽車
63
需求響應
5
主動配電網
4
分布式電源
7
有序充電
4
多目標優化
4
充電站
6
充電樁
4
V2G
4
多目標優化
5
無線充電
4
能源網際網路
4
圖 7 電動汽車相關關鍵詞網絡圖
3. 海研資料庫功能評價在科研工作過程中,科研工作者需要充分和及時獲取國內外科研項目的前沿信息和競爭情報,從而把握研究方向、確定研究選題。科研項目資料庫以科研項目為視角入口,為科研工作者在選題審題、項目申請、查重查新、尋求科研合作等方面發揮了重要作用。為了便於科研工作者申請項目、數據查詢等,很多機構建設了科研項目資料庫,如國家自然科學基金資料庫、國家社科基金項目資料庫等,但是這些資料庫在建設過程中沒有遵循統一的標準,在檢索途徑、內容結構、用戶服務等方面存在較多差異。在建設科研項目資料庫時,究竟哪些內容是用戶重點關注的、什麼樣的檢索途徑更能提高檢索效率、怎樣的頁面設計能夠符合大多數用戶偏好,這些問題應給予充分關注,因為它們會影響到科研項目資料庫的質量,進而影響科研項目信息資源能否被充分有效地利用。因此,本文試圖站在用戶的角度,通過構建科研項目資料庫的評價體系,給科研項目資料庫的建設和改進提供一定的建議。
3.1科研項目資料庫評價體系構建信息構建(InformationArchitecture,簡稱IA)是由原美國建築師協會主席RichardSaul Wurman於1975年首次提出,其概念可表述為「對數據進行組織,使信息可被理解、按表達預定意圖的方式傳遞信息,以便幫人們有效實現信息需要的藝術和科學」[24],其核心內容是組織系統、搜索系統、標識系統和導航系統四大系統。IA目前已經成功地應用於網站建設和評價領域,在對用戶的需求進行分析基礎上,藉助於視覺設計、可用性工程、人機互動、圖書館情報學和信息科學等理論方法,組織網站信息、優化頁面布局,以及設計導航系統、標籤系統、檢索和索引系統等[25]。信息構建理論倡導以用戶為中心,強調用戶體驗,主張信息應該以用戶理解的方式體提交,獲得良好的用戶體驗是信息構建的終極目標[26],因此,只有構建出一個以用戶為中心的平衡的信息生態系統,用戶才能形成穩定的信息獲取習慣[24],使用並不斷重複使用該網站。
根據Barker[27]提出的信息構建的內容結構(見圖1),本研究從技術系統、內容和用戶和三個方面,構建了三個一級指標、八個二級指標,34個三級指標,從組織系統、導航系統、標識系統、檢索系統、內容質量、內容效率、服務和用戶體驗八個維度對科研項目資料庫進行二級指標構建,同時對每一個二級指標細分為若干個三級指標,具體指標內涵見下文。
圖1 信息構建內容結構圖
(1)組織系統(C1)。組織系統的功能是要將資料庫網站上所有的信息按照一定的規則、規律進行組織排序,對內容進行分組歸類,是整個網站信息構建的頂層框架,它是決定網站成功與否的前提條件,是建立導航系統和標識系統的基礎[24]。對於科研項目資料庫系統來說,具體的考察指標包括:①層次清晰(D1),分類體系的層次是否清晰有序,能否有助於用戶方便快速查找信息;②信息展示的多維性(D2),資料庫網站的分類信息層次是否豐富,信息的展示方式是否多樣,是否有助於滿足用戶多樣化的使用需求;③分類科學合理(D3),資料庫網站的分類結構是否科學合理,是否存在信息的交叉重複現象,是否有助於用戶明晰不同類別之間的差異並順利使用;④數據格式標準化(D4),資料庫網站上展示的數據格式是否符合標準化。
(2)導航系統(C2)。導航系統的功能是幫助用戶明確資料庫網站的內容範疇,引導用戶尋找到想要的信息和地址,是用戶使用資料庫網站時的方向指引[27]。對於科研項目資料庫系統來說,具體的考察指標包括:①全面性(D5),導航系統應該覆蓋整個科研項目資料庫的內容;②分類合理(D6),導航系統的分類是否合理,既不能太少、也不能過於複雜,還要避免重複交叉;③結構清晰、易懂(D7),導航分類系統的結構是否清晰,是否便於用戶快速定位;④位置準確(D8),導航所指引的位置與用戶想到達的位置是否一致;⑤相關數據連結(D9),科研項目數據有其自身的特殊性,與文獻數據或科學數據不同,科研項目除了項目自身申請、立項情況相關信息外,還附屬有與項目成果相關的重要信息,而這些信息恰恰是許多科研工作者在檢索科研項目時想要一併獲取的信息,因此導航系統是否能夠連結到與科研項目相關的成果資料庫信息,對於科研資料庫來說非常重要。
(3)標識系統(C3)。標識系統的功能時確定信息內容的表述形式,通過使用用戶可理解的描述性詞彙,包括類似網站標識、控制詞表、詞庫等,構建導航系統、索引項、嵌入式連結、標題的標引和圖標標引體系[28,29]。對於科研項目資料庫系統來說,具體的考察指標包括:①提供多語言版本(D10),隨著國際學術交流的日益深入,科研項目資料庫的使用者也來自不同國家和地區,多語言版本可以更好地滿足不同用戶的需求;②幫助信息清晰(D11),對於科研資料庫網站來講,與一般的網站不同之處在於,其信息的獲取需要依賴一定的技能,因此幫助信息是否清晰會影響用戶的使用效果;③可理解(D12),即用戶是否容易理解標識的內容,標識內容的可解性會直接影響用戶的使用感受和使用效果,進而影響用戶的持續使用;④內容一致(D13),即整個資料庫網站對於相同內容應該統一標識,前後一致,避免用戶因為標識的不一致而產生使用困惑或障礙。
(4)檢索系統(C4)。檢索系統幫助用戶搜索信息,根據用戶的檢索條件,按照一定的算法進行檢索,提交給用戶搜索需求。對於科研項目資料庫而言,用戶獲取信息的主要途徑就是檢索,檢索性能的好壞直接影響信息的獲取和用戶的使用感受[30]。具體的考察指標為:①檢索方式的多樣性(D14),一般檢索方式如布爾邏輯,截詞檢索,加權檢索,位置算符等,除了常用的檢索方式外,對於科研項目資料庫的檢索來說,多語言檢索對於科研工作者來講也十分必要;②多種檢索結果輸出、顯示方式(D15),即資料庫檢索結果輸出的形式、展示的方式,結果是否豐富,是否多語言顯示;③多種檢索限定(D16),即把年代、項目負責人、機構、學科、基金名稱、語言等在基本檢索窗口可實現的常用限定條件整合到一個表單中,減少二次檢索操作,提高索效率[31];④交叉學科檢索(D17),即檢索範圍可以在學科間交叉,擴大檢索覆蓋面,幫助科研工作者從更高的視角上分析某研究主題在各個研究領域中的進展和資助情況,找到跨學科的研究創新領域;⑤界面友好性(D18),用戶進行檢索的頁面是否簡潔明了,容易操作;⑥檢索結果的準確性(D19),根據用戶的檢索條件呈現的檢索結果是否與用戶預期的結果一致,檢索範圍覆蓋的學科、地域是否全面,檢索結果是否全面準確。
(5)內容質量(C5)。科研資料庫的數據內容是資料庫的基礎,沒有數據內容,科研資料庫就是一個空殼[32]。數據質量的好壞,決定了整個科研資料庫的價值高低。本文從五個方面衡量科研項目資料庫的內容質量:①覆蓋內容全面性(D20),是指科研項目資料庫所涵蓋的學科是否全面[9],是否包含國家級、省級及各地區項目信息;②覆蓋地域國際性(D21),即科研項目的數據內容不僅限於國內基金項目,還能包括國外的科研項目信息,方便用戶能通過一次檢索便能獲得某主題國內外的科研項目情況;③來源權威性(D22),是指科研項目資料庫的數據來源是否是官方認可的信息[8];③項目信息完整性(D23),是指關於科研項目所涉及到的具體信息是否呈現完整[19],不漏不缺;④項目信息延申性(D24),是指能否提供和科研項目相關的文獻、成果信息,方便科研工作者做進一步的深入研究。
(6)內容效率(C6)。內容效率側重於從量的角度去評價科研項目資料庫,包括三個考察指標:①時間跨度(D25),即科研項目資料庫所收錄的項目信息覆蓋的時間範圍[33],追溯的時間越早,覆蓋的時間跨度越大;②更新速度(D26),時間跨度要求追溯的時間越早,而更新速度要求科研項目資料庫的數據越新,反映數據的新穎性和時效性[34];③收錄數量(D27),是指科研項目資料庫收錄的科研項目的具體數量,用以衡量資料庫資源是否充足、豐富,滿足不同用戶的需求[35]。
(7)服務(C7)。從用戶使用角度來看,在使用科研項目資料庫的過程中,可能會遇到一些特定問題或存在一些特定的需求,如果資料庫能夠及時提供相應的服務,就會大大提升用戶的使用體驗[36]。具體來說,可以從三個方面進行考察:①提供與數據相關文件(D28),鑑於科研項目數據的特殊性,用戶在檢索或查詢項目數據時,經常會伴隨獲取項目相關成果、文獻等信息的需求,如果科研項目資料庫能夠提供相應的數據或者連結服務,會極大地提高用戶的信息查詢效率和使用滿意度;②使用問題解決(D29),即用戶在使用科研項目資料庫過程中遇到特定問題或困難,是否能方便獲得幫助;③工具服務(D30),是否能在網站裡提供相應的工具服務,比如檢索結果為其他語種,是否能有語言轉換工具、在線下載、工具軟體、列印等。
(8)體驗(C8)。即用戶使用過科研項目資料庫之後的感受,本研究從四個方面考察用戶的體驗:①視覺印象深刻(D31),即用戶使用之後對整個資料庫網站的布局、設計產生了深刻的印象[27];②使用方便(D32),用戶使用過科研項目資料庫後認為操作簡單、方便;③尊重常識和習慣(D33),用戶認為該資料庫的導航、檢索等功能符合常識和習慣操作[37];④實現目標(D34),通過該科研項目資料庫,用戶能夠獲得和科研項目有關的全部信息情況。(評價指標體系多級遞階結構見圖2)
圖2科研項目資料庫評價體系多級遞階結構
根據上述指標體系設計專家調查表,請專家對不同層級以及同一層級不同集合的指標重要程度進行打分,打分的規則根據薩蒂設計的1-9標度作為比較標準,通過對同一集合裡的指標進行兩兩對比,將比較結果轉化為定量的判斷矩陣A,然後再計算單層次的指標權重W。先對判斷矩陣A進行向量歸一化處理,得到矩陣的特徵向量,從而得到各個指標的權重向量。根據特徵方程,計算判斷矩陣的最大特徵根。
,然後對單層次判斷矩陣進行一致性檢驗,計算一致性比例CR= ,其中CI=,RI為平均隨機一致性指標(查表可得),如果CR<0.1,則認為該判斷矩陣的一致性可以接受。構造的判斷矩陣及權重計算結果見下表1和表2:
表1 Bi-A和Ci-Bi判斷矩陣及單層次權重計算結果
表2 Di-Ci判斷矩陣及單層次權重計算結果
通過對層次單排序的分析計算,已經分別得出了Di對於Ci的權重順序、Ci對於Bi的權重順序以及Bi對於A的權重順序,進一步可以確定Di對於A順序,見下表3:
表3 層次總排序結果
通過指標權重體系的分析,可以看出,對於科研項目資料庫來說,內容是最關鍵的評價指標,所佔權重約為65%,其次是技術系統和用戶服務。說明對於用戶來講,資料庫的內容質量是最重要的,也是影響資料庫整體質量的評價的關鍵因素。因此對於機構來說,在建設和完善科研項目資料庫的過程中,應始終以內容建設為核心。
從二級指標的分析結果來看,內容質量、內容效率和檢索系統是最重要的三個評價指標,具體結合三級指標的權重分析可以得到:
(1)重視內容建設,提高內容質量和效率。①要確保有關科研項目信息的來源的官方性和權威性,保證信息的可靠程度,這是獲取有效信息開展科研工作的前提;②要尤其重視信息的完整性。有關課題的基本信息,包括課題名稱、時間、項目號、學科、申請人信息等必須齊全,關於項目所涉及的內容信息儘量完整,一旦有缺漏,就會帶來無效檢索,嚴重影響用戶體驗;③數據的覆蓋要儘量全面。大數據密集型時代,對有效整合的專業數據進行科研發現是一種趨勢。目前國內的主流科研項目資料庫分成了社會科學和自然科學兩大學科板塊,這對於交叉學科的項目查詢帶來了一定的困難和限制,通常需要跨庫檢索。資料庫覆蓋全面,不僅指將不同學科的科研項目融合到一個平臺上,做到跨學科檢索,還包括某一學科下所涉及到的國家級、省級等各個級別的科研項目信息。④重視國外科研項目數據的獲取。對於科研工作者來說,僅獲取國內項目數據信息還不夠,需要通過搜集國外前沿的科研項目立項情況等來獲取更多的科研信息,以進行國內外的科研對比、了解其科研項目差異等。⑤重視信息關聯,提供有關科研項目相關的成果數據,方面用戶全方位獲取科研項目的信息。⑥注重時效,及時更新。科研項目資料庫要做到及時更新,最快地匯集國際上各學科的研究動態,幫助科研工作者把握最前沿的科技動向。
(2)優化檢索功能,提高查全率和查準率。在技術系統中,檢索系統所佔權重最高,因為用戶主要通過使用資料庫的檢索功能來獲取想要的信息,對用戶的目標實現具有決定性的影響。通過三級指標的分析,機構應該在以下方面進行完善:①優化檢索算法,提高檢索精度。雖然我們要求資料庫的數據規模儘可能的大,但是在輸出檢索結果時,應該能夠導出最相關的數據信息,剔除相關性不高的冗餘信息,保證檢索結果的準確性,節約用戶的篩選成本;②檢索方式多樣化,放寬檢索限定。提供多樣化的檢索方式,滿足不同用戶的檢索習慣,設定充分多的檢索限定條件,減少二次檢索,提高檢索的效率;③檢索結果全面有序。不僅能在本學科內進行項目檢索,還可以進行交叉學科的檢索,結果輸出全面完整,並且經過系統的處理和排序。
(3)重視用戶體驗,改進用戶服務。通過用戶訪談,我們獲知技術系統中的導航系統、組織系統和標識系統在很大程度上影響了用戶對資料庫的使用體驗,包括用戶的視覺印象以及使用方便程度。在用戶服務方面,用戶最關注的是問題的解決以及是否能夠獲取項目的相關資料等服務。因此,對於機構來說,要重視優化資料庫整體頁面的設計,做到分類科學、結構分明、導航正確、標識清晰,提供有效的途徑幫助用戶及時解決檢索過程中遇到的問題,幫助用戶獲得項目成果或其他的文獻資源。
3.3 實證分析3.3.1科研項目資料庫的評價本文作者邀請多位科研工作者通過對海研科研項目資料庫、國家自然科學基金資料庫和國家社科基金項目資料庫的使用,結合科研項目資料庫的特點,對各資料庫進行評價,從D準則進行打分(滿分100)通過加權平均計算出最終得分。為方便比較,下文把海研科研項目資料庫簡稱為H資料庫,國家自然科學基金資料庫簡稱為Z資料庫,國家社會科學基金項目資料庫簡稱為S資料庫。最終的評價結果見下表4:
表4 三個資料庫的評價得分
3.3.2 評價分析從總體得分來看,海研科研項目資料庫佔有絕對的優勢,遙遙領先於國家自然科學基金資料庫和國家社科基金項目資料庫;從一級指標層來看,海研資料庫主要在內容和技術系統方面做的比較完善,在內容層面,海研在內容的質量以及內容效率上,因為其特有的資源優勢和技術優勢,與國家自然科學基金資料庫和國家社科基金項目資料庫拉開了很大的差距,國自資料庫和國社資料庫因為學科性質分類,限制了其內容的覆蓋面,但是仍然可以在項目信息完整性、項目相關資源的提供、項目信息的更新和收錄數量等方面進一步完善;其次,在技術系統層面,主要是檢索系統,海研資料庫的得分較高於其餘兩個資料庫,說明在檢索功能方面,後兩者還需要進一步優化算法,提高檢索的查全查準率,改善用戶體驗。下面就存在顯著差異的維度進行具體分析:
(1)技術系統。①從組織系統指標得分來看,H資料庫在信息展示多維性和分類科學上顯著高於Z和S資料庫,Z和S資料庫僅展示檢索功能頁面和科研項目基本信息,無法實現多層次瀏覽和多維度的信息展示;在分類上,Z資料庫首頁分類項目過細,不夠清晰,S資料庫的兩類信息裡面存在信息交叉重疊。②導航系統方面,Z的導航分類相對較亂,比如 「重要提示」裡面信息比較雜亂,包括操作說明、編制說明等具體信息,這些信息與「常見問題」又存在內容交叉;此外,H資料庫可以提供與科研項目相關的其他信息連結,而Z和S資料庫並沒有提供相關的導航。③標識系統上,只有Z資料庫設置了外文標識,並且Z資料庫設有清晰的幫助信息、而H和S資料庫在標識系統上都存在不足之處。④檢索系統方面,H資料庫整體做的比較好,但是仍然存在一些需要改進的地方,比如檢索限定不完整,缺少根據項目編號及其他項目信息的檢索項,而項目申請和企業需求信息查詢板塊沒有設置高級檢索,其次用戶檢索出的結果比較多時,信息的冗餘率較高,用戶難以在短時間內對信息進行有效的篩選;Z資料庫在檢索結果的準確度上較高,但是其他方面也存在重大問題,比如只能進行精確檢索,系統鎖定了項目資助類別、申請代碼、申請人和申請單位信息,即必須輸入上述限定信息才可以進行檢索,否則查詢無效,這大大限制了科研人員的檢索範圍。在結果顯示上,列表中的信息僅包括批准號、負責人、單位、項目名稱和項目數量,即使點擊項目詳情,也只呈現最基本的項目信息,並且無法對檢索結果進行任何排序、選擇等操作,此外,由於檢索結果受到嚴格限制,與其他學科無法進行交叉檢索,大大限制了檢索的查全率。S資料庫在檢索方式上存在著無法根據項目主題進行檢索,無高級檢索功能,成果查詢與立項查詢缺乏聯動,檢索結果同樣以列表形式展示,檢索結果默認按時間排序,無法根據相關性或者其他要求進行排序等問題。
(2)內容。①內容質量方面,H資料庫在項目信息覆蓋面、國際性、項目信息完整性和延伸上具有顯著優勢,項目信息覆蓋了國際上20多個發達國家的全學科下的受資助科研項目,並且項目信息比較完整,更加難得的是,能夠提供除項目基本信息以外的但是對於科研工作者來說十分重要的項目內容和項目成果信息;相比之下,Z和S資料庫的項目信息覆蓋面僅局限於國內特定學科,且所展示的項目信息有較多缺失;儘管S資料庫提供成果查詢,但二者均不提供和項目相關的成果數據。②內容效率方面,H 資料庫可追溯的信息年代要早於後兩者,在更新速度方面,只有H資料庫是可以做到實時更新,Z和S資料庫目前只能查詢到上一年的立項信息,更新速度上有待提升;在收錄數量上,由於後二者限於地域和學科的覆蓋面,因此遠差於H資料庫。
(3)用戶。①服務方面,S資料庫在服務方面做的比較欠缺,既沒有提供文件服務、幫助工具,也沒有建立解決問題的渠道;Z資料庫相對來說在工具服務和使用問題解決方面做的較好,對常見問題解釋得非常清楚和詳細,還做了重要問題的提示;H資料庫主要在提供文件服務方面做的比較好,用戶可以獲得項目成果或其他文獻的文獻服務、科技報告服務、競爭性情報報告服務,在解決問題方面,H資料庫的特色在於建設了用戶社區,以及分享、點評和關注等定製化功能。②體驗方面,在視覺印象、尊重常識和習慣維度,三者的差異並不顯著;使用方便方面,Z資料庫因為檢索要求限定較多,所以使用的方便程度較低,在目標實現上,H資料庫能夠較好滿足用戶的預期,而Z和S資料庫則只能獲得項目的基本信息,並且存在項目信息不完整的現象,不能完全實現檢索目標。
3.4靈敏度檢驗層次分析法很大程度上依賴於決策者主觀判斷,而這些主觀判斷本身是一個模糊值,不能準確地反映客觀情況,並且客觀情況也可能隨著環境或時間的改變而變化,所以在很多情況下決策者不但要求得到決策結果,還需要了解決策結果的穩定性,也就是層次模型中某些要素的權重變化將會對決策結果產生什麼樣的影響。備選方案排序結果隨某屬性權重變化而變化的程度就是靈敏度,如果某屬性權重發生較小的變化後,備選方案的排序結果就會發生變化,說明決策結果對該屬性的靈敏度較高,也就是說決策結果不穩定。通過靈敏度分析,決策者可以掌握屬性權重變化對決策結果的影響及影響的程度,幫助決策者做出正確的判斷。本文根據海研資料庫(H)、國家自然科學基金資料庫(Z)和國家社科基金項目資料庫(S)的評價方案進行對比分析,以檢驗評價指標的穩定性並分析權重變化的影響(採點100)。
首先分析技術系統B1、內容B2和用戶B3評價指標的權重變化對整體評價結果的影響程度見下圖3和表5:
圖3 Bi-A的靈敏度分析
表5 B1-B3權重變化和影響
權重變化情況
排序變化情況
B1
權重變化
最小值
當前值
最大值
變化點前的權重順序
變化點
變化點後的權重順序
H
隨B1增加而 減少
0.5452
0.6166
0.6431
Z
0.94
S
Z
隨B1增加而 增加
0.1915
0.201
0.2265
S
Z
S
隨B1增加而 增加
0.1653
0.1824
0.2283
B2
權重變化
最小值
當前值
最大值
無變化
H
隨B2增加而 增加
0.5566
0.6166
0.6498
Z
隨B2增加而 減少
0.1811
0.201
0.237
S
隨B2增加而 減少
0.1691
0.1824
0.2064
B3
權重變化
最小值
當前值
最大值
無變化
H
隨B3增加而 減少
0.5926
0.6166
0.6189
Z
隨B3增加而 增加
0.1945
0.201
0.2703
S
隨B3增加而 減少
0.1372
0.1824
0.1866
從數據結果來看,技術系統的評價指標的穩定性較高,其綜合靈敏度指標為 0.4313,基本靈敏度指標為0.0979,其變化點位於0.94,在變化點之後,國家社科基金項目資料庫的排序發生了變化,但是最優方案沒有發生變化,仍然是海研科研項目資料庫;內容評價指標的綜合靈敏度指標為0.0933,基本靈敏度指標為0.0933;用戶指標的綜合靈敏度指標為 0.0757,基本靈敏度指標為0.0757,最佳方案均未發生變化。
其次分析二級指標(C1-C8)的權重變化對整體評價結果的影響程度,結果見下圖4:
圖4Ci-B的靈敏度分析
根據圖4以及相應的計算結果表明,三級指標C1-C8的權重變化對最佳方案的結果均沒有任何影響,說明組織系統、導航系統、標識系統、檢索系統等8個二級指標的評價穩定性程度較高,其權重變化對最優方案的結果均無影響。
4.結論
本課題組通過對海研全球項目資料庫的檢驗分析,並通過使用分析、項目數據計量分析以及科研項目資料庫指標評價體系分析等對海研全球項目資料庫進行了深入研究,通過我們的檢驗證明,海研全球項目資料庫人機界面分野明確,且功能布局合理完整,查詢方便且易於操作;其次,利用海研全球項目資料庫進行數據挖掘與計量,體現出與利用傳統資料庫進行計量的優勢,即數據來源的全球性、鏈條性與閉環性,並由這種數據優勢轉化為知識需求挖掘與發現的優勢;再次,利用層次分析法(AHP)構建了科研項目資料庫評價指標體系,並由此對國內三大項目資料庫進行評價,研究發現海研項目資料庫在內容與用戶層面體現優勢,主要表現在數據的全面性、權威性、完整性和更新速度,以及以用戶需求為中心,在提供科研項目相關的成果文件的同時,構建用戶社區,具有分享、點評和關注等定製化功能,極大地提升了用戶的使用體驗。
基於上述三個方面的使用分析,我們認為海研全球項目資料庫是進行競爭情報獲取、項目數據計量、知識需求挖掘與發現等科研工作的重要工具,並在數據內容、人機互動界面以及用戶特徵服務等方面較國內其他項目資料庫具有較大優勢,因此推薦國內高校、圖書館以及科研單位購買使用。