昨天,谷歌發布了一款重磅產品 Google Dataset Search,谷歌表示其宗旨是「Making it easier to discover datasets」,讓用戶更容易找到想要的數據集。
當下,許多學科的科學家和越來越多的寫手需要與數據打交道,網上有成千上萬的數據存儲庫,可以訪問數百萬個數據集,同時世界各個國家與地區政府也在網上公布他們的數據。谷歌表示,Dataset Search 的初衷正是為了能夠讓人們更加輕鬆地訪問這些數據。
此次發布的 Dataset Search 其實也是 Google 將數據集更進一步納入產品中的一系列舉措之一,上個月我們報導過 Google 該系列舉措的另一項,也就是 Google 與 30 位頂級數據記者合作,希望找到以表格形式改進信息呈現的方法,最終在通力合作之下,他們確定了在搜索返回結果中直接直觀顯示數據表格的方法,使用戶更容易找到他們想要的信息。
Google 介紹,Dataset Search 的工作方式與 Google Scholar 類似,首先需要數據集提供者使用 schema.org 標準來描述其數據集,當用戶在 Dataset Search 上搜索時,它將在任何託管位置查找相應數據集,包括發布者的網站、數字圖書館與作者的個人網頁等。
關於如何將數據集錄入 Dataset Search,Google 解釋,「基於描述數據集信息的開放標準 schema.org,我們為數據集提供商制定了指南,以 Google(和其它搜尋引擎)可以更好地理解頁面內容的方式描述其數據。這些指南包括有關數據集的重要信息:數據集創建者、發布時間、數據收集方式、使用數據的條款等。然後我們收集並連結此信息,分析其中同一數據集的不同版本可能在哪裡,並找到可能描述或討論數據集的出版物。」
目前 Dataset Search 屬於 beta 版,而且剛剛起步,收錄的數據集還不夠多,但是按耐不住搜了一下「開源中國」,返回:
又搜了一下「碼雲」,返回結果同上。下次再來試試。
自然而然地又搜了一下 「Linus Torvalds」,發現還真有結果,而且返回的是讓人哭笑不得的內容:
搜索結果是一個來自 data.world 的數據集,「Linus Torvalds Rants」是「Linus Torvalds 發飆」的意思,嗯,這很 Linus。
興奮地點進去(嗯?為什麼我要興奮),果然發現了寶藏:
原來這個數據集收集了 Linus 從 2012 年到 2015 年間在郵件列表上發過的飆。這裡順便提一下今年 6 月份 Linus 也發了一次大飆:有時候標準就是一坨屎。
按照指示,把該「Linus 發飆合集」在工作區打開後是下邊這樣的,大概感受一下:
試了一下,數據集中的條目確實可以訪問到原始郵件,佩服 Linus 的高產,也為 Dataset Search 點讚,真的太方便了。如果哪天想以 Linus 的發怒為基線來寫一個 Linux 內核的發展歷程,那這樣的搜索神器就幫大忙了。
Google 在國內素有「谷人希」(谷歌,人類的希望)的美譽,此次發布的 Dataset Search 又造福了人類。
再 PK 一次,百度你還能贏嗎?