用谷歌新發布的 Dataset Search 搜 Linus,結果……

2021-01-09 開源中國

昨天,谷歌發布了一款重磅產品 Google Dataset Search,谷歌表示其宗旨是「Making it easier to discover datasets」,讓用戶更容易找到想要的數據集。

當下,許多學科的科學家和越來越多的寫手需要與數據打交道,網上有成千上萬的數據存儲庫,可以訪問數百萬個數據集,同時世界各個國家與地區政府也在網上公布他們的數據。谷歌表示,Dataset Search 的初衷正是為了能夠讓人們更加輕鬆地訪問這些數據。

此次發布的 Dataset Search 其實也是 Google 將數據集更進一步納入產品中的一系列舉措之一,上個月我們報導過 Google 該系列舉措的另一項,也就是 Google 與 30 位頂級數據記者合作,希望找到以表格形式改進信息呈現的方法,最終在通力合作之下,他們確定了在搜索返回結果中直接直觀顯示數據表格的方法,使用戶更容易找到他們想要的信息。

Google 介紹,Dataset Search 的工作方式與 Google Scholar 類似,首先需要數據集提供者使用 schema.org 標準來描述其數據集,當用戶在 Dataset Search 上搜索時,它將在任何託管位置查找相應數據集,包括發布者的網站、數字圖書館與作者的個人網頁等。

關於如何將數據集錄入 Dataset Search,Google 解釋,「基於描述數據集信息的開放標準 schema.org,我們為數據集提供商制定了指南,以 Google(和其它搜尋引擎)可以更好地理解頁面內容的方式描述其數據。這些指南包括有關數據集的重要信息:數據集創建者、發布時間、數據收集方式、使用數據的條款等。然後我們收集並連結此信息,分析其中同一數據集的不同版本可能在哪裡,並找到可能描述或討論數據集的出版物。」

目前 Dataset Search 屬於 beta 版,而且剛剛起步,收錄的數據集還不夠多,但是按耐不住搜了一下「開源中國」,返回:

又搜了一下「碼雲」,返回結果同上。下次再來試試。

自然而然地又搜了一下 「Linus Torvalds」,發現還真有結果,而且返回的是讓人哭笑不得的內容:

搜索結果是一個來自 data.world 的數據集,「Linus Torvalds Rants」是「Linus Torvalds 發飆」的意思,嗯,這很 Linus。

興奮地點進去(嗯?為什麼我要興奮),果然發現了寶藏:

原來這個數據集收集了 Linus 從 2012 年到 2015 年間在郵件列表上發過的飆。這裡順便提一下今年 6 月份 Linus 也發了一次大飆:有時候標準就是一坨屎。

按照指示,把該「Linus 發飆合集」在工作區打開後是下邊這樣的,大概感受一下:

試了一下,數據集中的條目確實可以訪問到原始郵件,佩服 Linus 的高產,也為 Dataset Search 點讚,真的太方便了。如果哪天想以 Linus 的發怒為基線來寫一個 Linux 內核的發展歷程,那這樣的搜索神器就幫大忙了。

Google 在國內素有「谷人希」(谷歌,人類的希望)的美譽,此次發布的 Dataset Search 又造福了人類。

再 PK 一次,百度你還能贏嗎?

相關焦點

  • "綠委"用谷歌地圖搜"朱日和",結果…
    "綠委"用谷歌地圖搜"朱日和",結果… 2020-11-29 21:30 來源:澎湃新聞·澎湃號·媒體
  • 用谷歌地圖搜「朱日和」,最後搜出的結果讓民進黨政客炸毛!
    用谷歌地圖搜「朱日和」,最後搜出的結果讓民進黨政客炸毛!
  • 谷歌推出數據集搜尋引擎,可支持中文搜索
    剛剛年滿 20 歲的谷歌又一次在搜索領域擴大了自己的狩獵範圍。今日,谷歌推出新的數據集搜索(Dataset Search)產品,希望幫助研究人員、記者和其他用戶更輕易地獲得這些數據。谷歌數據集搜索地址:https://toolbox.google.com/datasetsearch圖丨谷歌數據集搜索(圖源:DT 君)此前,谷歌在今年 7 月推出的數據集標記架構,能夠提取用戶搜索結果中的數據,讓用戶更直觀的看到經過可視化處理的結果
  • .app.search若被谷歌拿到 將向公眾開放註冊
    .app.search若被谷歌拿到 將向公眾開放註冊 【搜狐IT消息】北京時間3月8日消息,據科技博客techcrunch今天報導,谷歌若能獲得一級域名.search、.app、
  • 一文看完谷歌 「Search On」活動...
    雷鋒網消息,作為美國技術巨頭之一,Google每年都會組織一次Google I / O活動,並且通過這次活動,發布一些更新的服務和技術。但是,由於新冠疫情的爆發,谷歌公司今年無法開展活動。而在這場活動中,谷歌的更新主要集中在使用新的AI和機器學習技術來為用戶提供更好的搜索結果。其中最主要的是一個新的拼寫檢查工具,用來幫助識別拼寫最糟糕的查詢。谷歌的搜索主管Prabhakar Raghavan表示,每天谷歌的搜索查詢中有15%是我們從未見過的,這意味著公司必須不斷改進搜索結果。
  • 2020年熱搜榜:新冠病毒位居榜首
    據報導,谷歌發布了「2020 年全球熱搜榜」,從獨特的角度解讀今年的熱點事件和社會趨勢。事實上在十大熱門搜索關鍵詞中,與新的冠狀病毒流行有關的關鍵詞佔據了三個位置。2020年熱搜榜:新冠病毒位居榜首以下是2020年穀歌「全球熱搜榜」排名:1. 新冠病毒(Coronavirus)2.
  • 川普兒子因搜到《靈能百分百》圖片怒噴谷歌蠱惑人心,慘遭群嘲
    而他的配圖,分別是他自己在四個搜尋引擎中搜索「暴民」(mob)的結果:在Yahoo等三個搜尋引擎中,他搜索「暴民」,獲得了一些憤怒人群的圖片。而與眾不同的谷歌,則向他呈現出了一屏幕《靈能百分百》主角Mob的無害面龐。用谷歌搜索「暴民」,竟然會得到大量二次元無辜少年的圖片——這個結果顯然讓埃裡克難以接受,於是就有了這條怒氣衝衝的指責。
  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜索結果的相關性。BERT 模型中創新性的 架構是一大亮點。
  • 百度沸點年度榜單VS谷歌A Year of Search榜單
    每年年底,百度和谷歌這兩個搜尋引擎都會發布年度熱門詞彙搜索榜單,谷歌的叫A Year of Search,百度的叫「百度沸點榜單」。這些榜單都是以搜索數據為基礎,完全按照關鍵詞檢索統計而來的,沒有任何人為幹預的成分。通過榜單,我們可以窺見中美兩個國家吃瓜群眾在吃瓜之餘,最關心的社會熱點是什麼。不比較不知道,一比較才發現,雖說都是網際網路,但簡直宛如兩個世界,差異太大了。我們不妨來瞧一瞧。
  • 利用谷歌高級搜索撿VP殭屍Listing
    https://www.google.com/advanced_search谷歌高級搜索的網址查找關鍵詞 :we don't know when or if this item will be back
  • 谷歌地圖重大升級 用深度學習實時更新街景
    每天,谷歌地圖都為成千上百萬的人們提供方位指示,實時路況信息以及商業信息。為了提供最佳的用戶體驗,地圖信息需要不斷的根據現實世界的變化做出調整。街景車每天收集數百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。
  • "綠委"用谷歌地圖搜"朱日和",結果「非常離譜」
    日前,「綠委」陳亭妃在使用谷歌地圖搜索「朱日和」時,無意間發現同時有兩個結果呈現,一個是內蒙古錫林郭勒的朱日和鎮
  • 「量子霸權」新招數?谷歌量子機器學習開源庫TFQ來了!
    全文共2338字,預計學習時長13分鐘去年10月,《Nature》刊發了谷歌的一篇論文,其研發的Sycammore量子處理器能在200秒內完成傳統超級計算機上萬年的計算量,基於此,谷歌宣稱實現了「量子霸權」。
  • 秘魯馬丘比丘登上谷歌熱搜榜 「世界新七大奇蹟」中排第二
    據秘魯出口和旅遊促進委員會介紹,11月首周的谷歌熱搜榜中,馬丘比丘在「世界新七大奇蹟」中排名第二。  據報導,全球谷歌用戶對馬丘比丘的興趣有所攀升。從一周搜索量上來看,馬丘比丘趕超了同為「世界新七大奇蹟」的羅馬鬥獸場和裡約熱內盧的基督像,僅次於印度泰姬陵。
  • 英語中的「尋找」:look for,search for,find,find out的用法
    文 / 陳德永在初中英語中,我沒學會了區分 look for 和 find,而表示「搜、找、尋」的含義的英語詞彙,還有 search...for,find out 等。2. search…for…指「為了找到...…而搜查...…」;例如:They're searching the jungle for the spy. 他們在叢林中搜查那個間諜。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    2019年12月,谷歌將 BERT 的使用擴展到70多種語言。在最近的2020 Search On虛擬搜索大會上,谷歌表示,BERT幾乎成了每一個英語查詢的後端引擎。BERT不會影響網站的排名,BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。
  • 谷歌搜索在結果頁面內嵌「國外版知乎」
    IT之家4月10日消息 谷歌已經在搜素結果頁面上線了一項新功能,現在在查詢部分搜索詞時將看到Stack Overflow(IT技術問答網站)以及Quora(國外版知乎)的答案,以Quora為例,將在結果頁面以輪播的形式呈現。
  • 谷歌推出個人定位新軟體
    谷歌推出個人定位新軟體中國網 china.com.cn  時間: 2009-02-06一名「谷歌緯度」用戶在倫敦的搜 索結果美國搜尋引擎巨頭谷歌公司4號推出一款名為「谷歌緯度」的新軟體谷歌公司項目經理 史蒂夫·李:用戶在使用時將谷歌地圖下載到手機裡,可以是谷歌手機,黑莓手機或者其他品牌的手機,當用戶選擇使用「谷歌緯度」時,谷歌地圖網際網路頁面上就能正確地標出用戶所在地,這樣用戶就能向親朋好友即時通報自己所處的位置。
  • 谷歌2019劇集熱搜排行榜 第一名爭議極大
    時光網訊 谷歌剛剛公布了2019年電視劇搜索排行榜TOP10,美劇仍然全球熱搜,《權力的遊戲》雖然口碑爭議極大,但仍然是熱搜第一名,上億美元砸出來的最後一季,動靜確實不小。  《怪奇物語》《切爾諾貝爾》也是今年熱門大劇,Disney+平臺上線的《曼達洛人》也成為熱搜,憑藉《星球大戰》的品牌,《曼達洛人》甫一上線就迎來全球矚目。  熱搜榜單中還有兩部印度電視劇,說明印度電視劇的受眾群體龐大。2019谷歌熱搜劇集TOP101.
  • 科技大事件:搜「黑鬼屋」定位到白宮 谷歌地圖為種族歧視道歉
    黑鬼屋」定位到白宮 谷歌地圖為種族歧視道歉  當在華盛頓區域範圍搜索」黑鬼住所「,或者」黑鬼元首「時,谷歌地圖的返回結果竟然含有白宮,這正是美國總統歐巴馬的住所。」一些不恰當的結果出現在谷歌地圖裡,我們對此產生的影響深表歉意,我們的團隊也正在全力修復這個問題。「谷歌發言人在一份聲明中表示,但他沒有解釋出現這種結果的原因。這個問題在本周二由華盛頓郵報首次曝出,不過截止到目前帶有種族歧視的搜索結果尚未移除。