用谷歌新發布的 Dataset Search 搜 Linus,結果……

2021-01-09 開源中國

昨天，谷歌發布了一款重磅產品 Google Dataset Search，谷歌表示其宗旨是「Making it easier to discover datasets」，讓用戶更容易找到想要的數據集。

當下，許多學科的科學家和越來越多的寫手需要與數據打交道，網上有成千上萬的數據存儲庫，可以訪問數百萬個數據集，同時世界各個國家與地區政府也在網上公布他們的數據。谷歌表示，Dataset Search 的初衷正是為了能夠讓人們更加輕鬆地訪問這些數據。

此次發布的 Dataset Search 其實也是 Google 將數據集更進一步納入產品中的一系列舉措之一，上個月我們報導過 Google 該系列舉措的另一項，也就是 Google 與 30 位頂級數據記者合作，希望找到以表格形式改進信息呈現的方法，最終在通力合作之下，他們確定了在搜索返回結果中直接直觀顯示數據表格的方法，使用戶更容易找到他們想要的信息。

Google 介紹，Dataset Search 的工作方式與 Google Scholar 類似，首先需要數據集提供者使用 schema.org 標準來描述其數據集，當用戶在 Dataset Search 上搜索時，它將在任何託管位置查找相應數據集，包括發布者的網站、數字圖書館與作者的個人網頁等。

關於如何將數據集錄入 Dataset Search，Google 解釋，「基於描述數據集信息的開放標準 schema.org，我們為數據集提供商制定了指南，以 Google（和其它搜尋引擎）可以更好地理解頁面內容的方式描述其數據。這些指南包括有關數據集的重要信息：數據集創建者、發布時間、數據收集方式、使用數據的條款等。然後我們收集並連結此信息，分析其中同一數據集的不同版本可能在哪裡，並找到可能描述或討論數據集的出版物。」

目前 Dataset Search 屬於 beta 版，而且剛剛起步，收錄的數據集還不夠多，但是按耐不住搜了一下「開源中國」，返回：

又搜了一下「碼雲」，返回結果同上。下次再來試試。

自然而然地又搜了一下「Linus Torvalds」，發現還真有結果，而且返回的是讓人哭笑不得的內容：

搜索結果是一個來自 data.world 的數據集，「Linus Torvalds Rants」是「Linus Torvalds 發飆」的意思，嗯，這很 Linus。

興奮地點進去（嗯？為什麼我要興奮），果然發現了寶藏：

原來這個數據集收集了 Linus 從 2012 年到 2015 年間在郵件列表上發過的飆。這裡順便提一下今年 6 月份 Linus 也發了一次大飆：有時候標準就是一坨屎。

按照指示，把該「Linus 發飆合集」在工作區打開後是下邊這樣的，大概感受一下：

試了一下，數據集中的條目確實可以訪問到原始郵件，佩服 Linus 的高產，也為 Dataset Search 點讚，真的太方便了。如果哪天想以 Linus 的發怒為基線來寫一個 Linux 內核的發展歷程，那這樣的搜索神器就幫大忙了。

Google 在國內素有「谷人希」（谷歌，人類的希望）的美譽，此次發布的 Dataset Search 又造福了人類。

再 PK 一次，百度你還能贏嗎？

相關焦點

"綠委"用谷歌地圖搜"朱日和",結果…

"綠委"用谷歌地圖搜"朱日和"，結果… 2020-11-29 21:30 來源：澎湃新聞·澎湃號·媒體
用谷歌地圖搜「朱日和」,最後搜出的結果讓民進黨政客炸毛!

用谷歌地圖搜「朱日和」，最後搜出的結果讓民進黨政客炸毛！
谷歌推出數據集搜尋引擎,可支持中文搜索

剛剛年滿 20 歲的谷歌又一次在搜索領域擴大了自己的狩獵範圍。今日，谷歌推出新的數據集搜索（Dataset Search）產品，希望幫助研究人員、記者和其他用戶更輕易地獲得這些數據。谷歌數據集搜索地址：https://toolbox.google.com/datasetsearch圖丨谷歌數據集搜索（圖源：DT 君）此前，谷歌在今年 7 月推出的數據集標記架構，能夠提取用戶搜索結果中的數據，讓用戶更直觀的看到經過可視化處理的結果
.app.search若被谷歌拿到將向公眾開放註冊

.app.search若被谷歌拿到將向公眾開放註冊【搜狐IT消息】北京時間3月8日消息，據科技博客techcrunch今天報導，谷歌若能獲得一級域名.search、.app、
一文看完谷歌「Search On」活動...

雷鋒網消息，作為美國技術巨頭之一，Google每年都會組織一次Google I / O活動，並且通過這次活動，發布一些更新的服務和技術。但是，由於新冠疫情的爆發，谷歌公司今年無法開展活動。而在這場活動中，谷歌的更新主要集中在使用新的AI和機器學習技術來為用戶提供更好的搜索結果。其中最主要的是一個新的拼寫檢查工具，用來幫助識別拼寫最糟糕的查詢。谷歌的搜索主管Prabhakar Raghavan表示，每天谷歌的搜索查詢中有15%是我們從未見過的，這意味著公司必須不斷改進搜索結果。
2020年熱搜榜:新冠病毒位居榜首

據報導，谷歌發布了「2020 年全球熱搜榜」，從獨特的角度解讀今年的熱點事件和社會趨勢。事實上在十大熱門搜索關鍵詞中，與新的冠狀病毒流行有關的關鍵詞佔據了三個位置。2020年熱搜榜：新冠病毒位居榜首以下是2020年穀歌「全球熱搜榜」排名：1. 新冠病毒（Coronavirus）2.
川普兒子因搜到《靈能百分百》圖片怒噴谷歌蠱惑人心,慘遭群嘲

而他的配圖，分別是他自己在四個搜尋引擎中搜索「暴民」（mob）的結果：在Yahoo等三個搜尋引擎中，他搜索「暴民」，獲得了一些憤怒人群的圖片。而與眾不同的谷歌，則向他呈現出了一屏幕《靈能百分百》主角Mob的無害面龐。用谷歌搜索「暴民」，竟然會得到大量二次元無辜少年的圖片——這個結果顯然讓埃裡克難以接受，於是就有了這條怒氣衝衝的指責。
谷歌搜索:幾乎所有的英文搜索都用上BERT了

BERT 是谷歌開源的一款自然語言處理預訓練模型，一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄，登頂 GLUE 基準排行榜。具體到搜尋引擎來說，BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容，從而提高搜索結果的相關性。BERT 模型中創新性的架構是一大亮點。
百度沸點年度榜單VS谷歌A Year of Search榜單

每年年底，百度和谷歌這兩個搜尋引擎都會發布年度熱門詞彙搜索榜單，谷歌的叫A Year of Search，百度的叫「百度沸點榜單」。這些榜單都是以搜索數據為基礎，完全按照關鍵詞檢索統計而來的，沒有任何人為幹預的成分。通過榜單，我們可以窺見中美兩個國家吃瓜群眾在吃瓜之餘，最關心的社會熱點是什麼。不比較不知道，一比較才發現，雖說都是網際網路，但簡直宛如兩個世界，差異太大了。我們不妨來瞧一瞧。
利用谷歌高級搜索撿VP殭屍Listing

https://www.google.com/advanced_search谷歌高級搜索的網址查找關鍵詞：we don't know when or if this item will be back
谷歌地圖重大升級用深度學習實時更新街景

每天，谷歌地圖都為成千上百萬的人們提供方位指示，實時路況信息以及商業信息。為了提供最佳的用戶體驗，地圖信息需要不斷的根據現實世界的變化做出調整。街景車每天收集數百萬張圖片，如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息，顯然是不可能的。
＂綠委＂用谷歌地圖搜＂朱日和＂,結果「非常離譜」

日前，「綠委」陳亭妃在使用谷歌地圖搜索「朱日和」時，無意間發現同時有兩個結果呈現，一個是內蒙古錫林郭勒的朱日和鎮
「量子霸權」新招數?谷歌量子機器學習開源庫TFQ來了!

全文共2338字，預計學習時長13分鐘去年10月，《Nature》刊發了谷歌的一篇論文，其研發的Sycammore量子處理器能在200秒內完成傳統超級計算機上萬年的計算量，基於此，谷歌宣稱實現了「量子霸權」。
秘魯馬丘比丘登上谷歌熱搜榜「世界新七大奇蹟」中排第二

據秘魯出口和旅遊促進委員會介紹，11月首周的谷歌熱搜榜中，馬丘比丘在「世界新七大奇蹟」中排名第二。　　據報導，全球谷歌用戶對馬丘比丘的興趣有所攀升。從一周搜索量上來看，馬丘比丘趕超了同為「世界新七大奇蹟」的羅馬鬥獸場和裡約熱內盧的基督像，僅次於印度泰姬陵。
英語中的「尋找」:look for,search for,find,find out的用法

文 / 陳德永在初中英語中，我沒學會了區分 look for 和 find，而表示「搜、找、尋」的含義的英語詞彙，還有 search...for，find out 等。2. search…for…指「為了找到...…而搜查...…」；例如：They're searching the jungle for the spy. 他們在叢林中搜查那個間諜。
谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

2019年12月，谷歌將 BERT 的使用擴展到70多種語言。在最近的2020 Search On虛擬搜索大會上，谷歌表示，BERT幾乎成了每一個英語查詢的後端引擎。BERT不會影響網站的排名，BERT 的目的是更好地理解網頁上的內容來提高搜索結果的相關性。
谷歌搜索在結果頁面內嵌「國外版知乎」

IT之家4月10日消息谷歌已經在搜素結果頁面上線了一項新功能，現在在查詢部分搜索詞時將看到Stack Overflow（IT技術問答網站）以及Quora（國外版知乎）的答案，以Quora為例，將在結果頁面以輪播的形式呈現。
谷歌推出個人定位新軟體

谷歌推出個人定位新軟體中國網 china.com.cn　　時間： 2009-02-06一名「谷歌緯度」用戶在倫敦的搜索結果美國搜尋引擎巨頭谷歌公司4號推出一款名為「谷歌緯度」的新軟體谷歌公司項目經理史蒂夫·李：用戶在使用時將谷歌地圖下載到手機裡，可以是谷歌手機，黑莓手機或者其他品牌的手機，當用戶選擇使用「谷歌緯度」時，谷歌地圖網際網路頁面上就能正確地標出用戶所在地，這樣用戶就能向親朋好友即時通報自己所處的位置。
谷歌2019劇集熱搜排行榜第一名爭議極大

時光網訊谷歌剛剛公布了2019年電視劇搜索排行榜TOP10，美劇仍然全球熱搜，《權力的遊戲》雖然口碑爭議極大，但仍然是熱搜第一名，上億美元砸出來的最後一季，動靜確實不小。　　《怪奇物語》《切爾諾貝爾》也是今年熱門大劇，Disney+平臺上線的《曼達洛人》也成為熱搜，憑藉《星球大戰》的品牌，《曼達洛人》甫一上線就迎來全球矚目。　　熱搜榜單中還有兩部印度電視劇，說明印度電視劇的受眾群體龐大。2019谷歌熱搜劇集TOP101.
科技大事件:搜「黑鬼屋」定位到白宮谷歌地圖為種族歧視道歉

黑鬼屋」定位到白宮谷歌地圖為種族歧視道歉　　當在華盛頓區域範圍搜索」黑鬼住所「，或者」黑鬼元首「時，谷歌地圖的返回結果竟然含有白宮，這正是美國總統歐巴馬的住所。」一些不恰當的結果出現在谷歌地圖裡，我們對此產生的影響深表歉意，我們的團隊也正在全力修復這個問題。「谷歌發言人在一份聲明中表示，但他沒有解釋出現這種結果的原因。這個問題在本周二由華盛頓郵報首次曝出，不過截止到目前帶有種族歧視的搜索結果尚未移除。

用谷歌新發布的 Dataset Search 搜 Linus,結果……

相關焦點

"綠委"用谷歌地圖搜"朱日和",結果…

用谷歌地圖搜「朱日和」,最後搜出的結果讓民進黨政客炸毛!

谷歌推出數據集搜尋引擎,可支持中文搜索

.app.search若被谷歌拿到 將向公眾開放註冊

一文看完谷歌 「Search On」活動...

2020年熱搜榜:新冠病毒位居榜首

川普兒子因搜到《靈能百分百》圖片怒噴谷歌蠱惑人心,慘遭群嘲

谷歌搜索:幾乎所有的英文搜索都用上BERT了

百度沸點年度榜單VS谷歌A Year of Search榜單

利用谷歌高級搜索撿VP殭屍Listing

谷歌地圖重大升級 用深度學習實時更新街景

＂綠委＂用谷歌地圖搜＂朱日和＂,結果「非常離譜」

「量子霸權」新招數?谷歌量子機器學習開源庫TFQ來了!

秘魯馬丘比丘登上谷歌熱搜榜 「世界新七大奇蹟」中排第二

英語中的「尋找」:look for,search for,find,find out的用法

谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!

谷歌搜索在結果頁面內嵌「國外版知乎」

谷歌推出個人定位新軟體

谷歌2019劇集熱搜排行榜 第一名爭議極大

科技大事件:搜「黑鬼屋」定位到白宮 谷歌地圖為種族歧視道歉

.app.search若被谷歌拿到將向公眾開放註冊

一文看完谷歌「Search On」活動...

谷歌地圖重大升級用深度學習實時更新街景

秘魯馬丘比丘登上谷歌熱搜榜「世界新七大奇蹟」中排第二

谷歌2019劇集熱搜排行榜第一名爭議極大

科技大事件:搜「黑鬼屋」定位到白宮谷歌地圖為種族歧視道歉