【大數據文摘】高質量數據集哪裡來?

2021-02-25 上海馳馬奧資產管理

大數據文摘作品,轉載要求見文末

原作者 | Moritz Mueller-Freitag

編譯 | 笪潔瓊 萬如苑 一針

長期以來,在機器學習中不合理的數據利用效率一直是引起廣泛討論的話題。也有人認為,曾經阻礙人工智慧領域取得各種重大突破的,並不是什麼高深的算法,而是缺乏高質量的數據集。然而討論的共同中心是,在當下最前沿的機器學習方面,數據是一個相當關鍵的組成部分。

獲取高質量的初始數據對於那些運用機器學習作為他們業務核心技術的創業公司來說是十分重要的。雖然許多算法和軟體工具都是開源和共享的,但是好的數據通常是私人專有而且難以創建的。因此,擁有一個大型的、特定領域的數據集可以成為競爭優勢的重要來源,尤其是如果初創公司能夠啟動數據網絡效應(在這種情況下,更多的用戶→更多的數據→更智能的算法→更好的產品→繼續帶來更多的用戶)。

因此,對於機器學習創業公司必須做出的一個關鍵戰略決策是如何建立高質量的數據集來訓練他們學習算法。不幸的是,初創公司往往在一開始只有有限的或沒有標籤的數據,這一情況會阻礙創始人在構建數據驅動的產品方面取得重大進展。因此,在僱傭數據科學團隊或建立昂貴的核心基礎設施之前,從一開始就值得探索一套數據收集策略。

創業公司可以通過多種方式克服剛開始進行數據採集時遇到的棘手的問題。數據戰略/資源的選擇通常與商業模式的選擇、創業公司的關注重點(消費者或企業、橫向或縱向的)以及融資情況密切相關。以下簡單列出幾種並不互斥的策略,為廣泛的可用方法提供了一種大體框架。

從頭構建一個良好的專有數據集基本意味著要將大量的前期工作和人力資源投入到數據獲取上,還要完成大量無法批量完成的的手動工作。在初期藉助人力的創業公司的例子很多。例如,許多聊天機器人初創公司(通過改變對成功的定義和高職工流動率吸引求職者)僱傭真人來做「人工智慧培訓師」,讓他們手動創建或驗證機器人所說的話。就連科技巨頭也採取了這種策略:Facebook  M(一個最新內置在Facebook Messenger中人工智慧驅動的數字助理)的所有回應都是由一個承包商團隊審查和編輯的。

使用人力來手動標記數據點可以是一個成功的策略,只要數據網絡效應在某個時間點生效,這樣所需要的人力就不再以與用戶增長相同的速度增加。只要人工智慧系統進步的速度足夠快,未指明錯誤就會出現地不那麼頻繁,相應地,執行手工標記的人的數量也將會減少或保持不變。

適用對象:幾乎每一家機器學習創業公司

例子:

1.一些聊天機器人創業公司(包括Magic、GoButler、x.AI和Clara)

2.MetaMind(用於食品分類的手工收集和標記數據集)

3.Building Radar(員工/實習生手動標記建築物的圖片)

大多數創業公司都會嘗試直接從用戶那裡收集數據。

挑戰在於說服早期用戶在機器學習的好處完全發揮作用之前保持使用該產品(因為首先需要數據來訓練和微調算法)。

解決這個自相矛盾的問題的方法之一,是徹底縮小問題範圍(如果需要的話,可以在之後再擴大)。正如Chris Dixon所說:「你所需要的數據量與你試圖解決的問題的廣度有關。」

Source: x.ai(來源於X.AI)

這樣縮小問題範圍的好處再一次體現在聊天機器人上。這一領域的創業公司可以在兩種市場策略之間做出選擇:他們可以建立水平助手——可以幫助解決大量問題和回應即時請求的機器人(比如Viv、Magic、Awesome、Maluuba和Jam)。或者,他們也可以創建垂直助手——能出色完成一項具體、明確的任務的機器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。這兩種方法都是有效的,不管如何選擇,只要縮小了問題的範圍,數據收集對創業公司來說都要容易得多。

適用對象:經營垂直整合業務的公司

例子:

1.高度專業化的垂直聊天機器人(如 x.ai, Clara or GoButler)

2.Deep Genomics(利用深度學習來分類/解釋基因變異)

3.Quantified Skin(使用客戶自拍照來分析一個人的皮膚)

除了讓員工(或實習生)來手動收集或標註數據,創業公司也可以通過眾包來達到目的。像Amazon Mechanical Turk 或CrowdFlower 的平臺提供了一種方法,可以利用數百萬人的在線勞動力來清理混亂和不完整的數據。例如,VocalIQ(2015年被蘋果收購)使用亞馬遜土耳其機器人為其數字助手提供數千個用戶提出的問題。員工也可以通過僱傭其他獨立的承包商來外包(就像Clara 或Facebook M所做的那樣)。使用這種方法的必要條件是可以清楚地解釋這個任務,而且它不至於太長或者很無聊。

另一種策略是鼓勵公眾自願提供數據。一家總部位於巴黎的人工智慧創業公司Snips就是一個例子,該公司利用這種方法獲得特定類型的數據(餐廳、酒店和航空公司的電子確認信)。和其他創業公司一樣,Snips使用的是一種遊戲化的系統,用戶可以在排行榜上進行排名。

適用對象:可以很容易地執行質量控制的情況

例子:

1. DeepMind, Maluuba, AlchemyAPI,和其他很多人(見這裡see here)

2.VocalIQ(用土耳其機器人幫助系統學習人們如何說話)

3. Snips (要求人們無償為研究提供數據)

有一種能夠自成一類的眾包策略,是通過恰當的方式引導用戶自發地產生數據。這種方法中很重要的一步是設計能夠為用戶提供恰當激勵,使其主動將數據結果反饋給系統的產品。

那些在自家許多產品中都使用了這種方法的公司裡,有兩個十分典型的例子:谷歌(搜尋引擎、谷歌翻譯、垃圾郵件過濾器等等)和Facebook(用戶可在照片中給朋友加標籤)。用戶通常不知道他們的行為在為這些公司提供免費的標籤數據。

機器學習領域的許多初創公司都從谷歌和Facebook中汲取了靈感,他們創建了具有糾錯功能的產品,明確地鼓勵用戶糾正機器錯誤。這方面特別出名的是reCAPTCHA 驗證碼和Duolingo(都是由路易斯馮創立的)。其他的例子包括Unbabel,Wit.ai 和 Mapillary.

適用對象:以消費者為中心並且有穩定用戶交互的創業公司

例子:

1.Unbabel(用戶糾正機器翻譯的社區)

2. Wit.ai  (為用戶提供了用於糾正翻譯錯誤的面板/api)

3. Mapillary (用戶可以糾正機器生成的交通標誌檢測)

一個似乎特別受計算機視覺創業公司歡迎的策略是有針對性地向用戶提供一個免費的、特定領域的手機app。

Clarifai、HyperVerge和Madbits(2014年被Twitter收購)都採取了這一策略,它們向用戶提供能夠為自己的核心業務收集額外圖像數據的照片應用。

Source: Clarifai(來源於Clarifai)

這個策略並不是完全沒有風險(畢竟,成功開發和推廣一個app是要花費時間和金錢的)。 創業公司還必須確保他們創建了一個足夠強大的使用案例,能讓用戶乖乖交出他們的使用數據,即使在開始時缺少數據網絡效應的優勢。

適用對象:初創企業/橫向平臺

例子:

* Clarifai(Forevery,可用來發現新照片的應用程式)

* HyperVerge(Silver,可用來組織照片的應用程式)

* Madbits(Momentsia,可用來拼貼照片的應用程式)

另一種收集有效數據排放的方法是構建Matt Turck所謂的「數據陷阱」(Leo Polovets已經給了這個策略一個不太可愛的名字:「特洛伊木馬收集數據法」)。 目標是創造一些即使在沒有機器學習的情況下也有價值的東西,然後以收集數據的成本出售(即使其中的邊際效益很小)。 與之前的策略形成對比的是,構建數據陷阱是創業公司商業模型的核心部分(而不僅僅是一個副業務)。

一個相關的例子是Recombine,一家臨床基因檢測公司,通過提供生殖力測試服務來收集DNA數據,然後可以將DNA數據用機器學習進行分析。 另一個例子是BillGuard(被Prosper於2015年收購),一家提供了一個幫助信用卡用戶爭取「灰色費用」的移動端app的創業公司。該應用程式幫助BillGuard獲得大量之後還可以用於其他目的欺詐數據。 另一邊Telsla也正在使用這個策略。作為擁有超過10萬輛(配有傳感器的)車輛正被用於行駛的公司,Tesla目前正在建造最大的自動駕駛訓練數據集(每天可以收集比Google更多的自動駕駛裡程)。

適用對象:經營垂直整合業務的企業

例子:

*Recombine(提供生育力測試來收集DNA數據)

* BillGuard(提供行動應用程式來收集欺詐數據)

*Tesla(當駕駛員使用自動駕駛功能時收集數據)

一個許多創業公司都屢試不爽的策略是在公開來源中挖掘數據。像「普通抓取」這樣的網絡存檔包含多年網絡爬蟲收集的免費原始數據。另外,像Yahoo或Criteo這樣的公司已經向研究界發布過了大量數據集(雅虎發布了13.5 TB的未壓縮數據!)。隨著最近政府公開資料庫的蓬勃發展(由歐巴馬政府引領),越來越多的數據來源正在免費公開。

幾家機器學習初創公司已經在利用公共數據了。當Oren Etzioni開始Farecast(由Microsoft於2008年收購)時,他使用了在旅遊網站抓取信息而獲得的12,000個價格觀察樣本。同樣,SwiftKey(由Microsoft於2016年收購)在早期收集並分析了數十億網頁爬蟲數據,來創建它的語言模型。

適用對象:可以識別相關公共數據集的初創公司

例子:

* Farecast(第一版從旅遊網站爬取的信息)

* SwiftKey(抓取網頁文字來創建語言模型)

*The Echo Nest(每天爬取數百萬個音樂相關網站)

* Jetpac(將公共Instagram數據用於其行動應用程式)

訪問第三方數據的另一種方法是通過外部數據提供者提供的API或通過在第三方行動應用程式中實施SDK來抓取數據(理想情況下是終端用戶同意)來得到許可。 在這兩種情況下,創業公司都要支付另外一方來處理為某個目的而生成的數據,然後應用機器學習從該數據中提取新價值。

Farecast和Decide.com(均由Oren Etzioni創立)已經成功地實施了這一戰略。 開放的數據平臺,如Clearbit或Factual是外部數據提供者的典範。 在使用第三方數據來挖掘預測信息的公司中,也有幾家對衝基金和算法交易公司(正在使用非傳統數據集,如Orbital Insight或Rezatec等創業公司的衛星數據)。

適用對象:依靠第三方數據的創業公司(如行業數據)

例子:

* Farecast(通過航空公司的數據使用許可來預測機票價格)

* Decide.com(通過電子商務的數據使用許可來預測價格)

*Building Radar(使用ESA衛星圖像來監測建設項目)

對於初創企業,數據提供者可能是提供相關數據處理權的大客戶。在這個策略中,創業公司向客戶出售問題的解決方案(如減少欺詐),並使用客戶的數據訓練其學習算法。 在理想情況下,從一個客戶或實例中做的數據學習可以轉移給所有其他客戶。 例如在測謊領域的Sift Science和SentinelOne。

採用這種方法的難點在於如何在前期做好談判,確認通過數據學習到的信息都歸創業公司所擁有,而數據本身仍是顧客的資產。 鑑於大型公司通常具有嚴格的規則,並且對共享專有數據非常敏感,這是很容易產生分歧的地方。

適用對象:企業創業公司

例子:

*Sift Science(使用公司特有數據查找獨特的欺詐信號)

* SentinelOne(銷售終端保護軟體的網絡安全初創公司)

* Skytree(開發用於企業使用的機器學習軟體)

Matt Turck列出了許多公司的收購方式,以獲得特別相關的數據集(類似於收購有價值的專利組合)。 例如,IBM Watson在2015年進行了四次與數據有關的收購,將其衛生部門轉變為世界上最大和最多樣化的健康相關資料庫之一。

由於這種方法需要資金支持,所以可能只對於擁有充裕資金的創業公司來說是可行的。

適用對象:(後期)有足夠資金的創業公司

示例:難以確定(數據是收購的唯一原因)

很可能還有其他數據採集策略在這裡沒有提到(如果是,請給我留言)。除此之外還有幾個初創公司可以用來解決數據問題的算法技巧(例如傳輸學習,MetaMind使用的一個技術)。

無論您採取何種策略,關鍵信息是:獲取和擁有大型特定領域的數據集以構建高精度模型可能是創業者一開始就需要解決的最難的問題。在某些情況下,它涉及到找一個能快速解決問題但不是長久之計的方案,比如僱傭人類來假裝是人工智慧(像許多聊天機器人創業公司那樣)。 在其他情況下,它要求企業大大地延長免費周期,限制測試版的公開發布,直到機器學習的好處開始發揮作用而且客戶願意為此付費。

相關焦點

  • MIND:高質量的新聞推薦數據集
    目前,許多有關新聞推薦的研究是在私有數據集上開展的,而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。因此,微軟亞洲研究院聯合微軟新聞產品團隊在 ACL 2020上發布了一個大規模的英文新聞推薦數據集 MIcrosoft News Dataset (MIND[1]),並於2020年7月-9月在condalab平臺舉辦了MIND新聞推薦比賽。
  • 大數據面前,統計學的價值在哪裡
    長期從事複雜數據分析的研究工作,在統計學重要學術期刊上發表學術論文70餘篇。  統計學對大數據的意義  很高興有這樣一個機會,我能與大家在這裡做一些關於統計學與大數據的交流,與大家分享一些觀點。  在講大數據之前,我們首先來看看什麼是數據。
  • 如何獲取「高質量數據」——大數據於臨床醫學價值的全景剖析
    但目前仍然存在著數據標準不一致、各醫院或研究單位數據不能集成共享等問題。高質量、大數量、良好結構化的醫療數據,才會對科研效率的提升和科研成果的產出有重要價值。」怎樣幫助醫生獲得一份高質量的數據,在楊海英看來,這涉及三個方面:第一,醫院EMR(Electronic Medical Record,電子病歷)的數據質量。
  • 14個數據分析和機器學習項目!附數據集
    大數據文摘出品 來源:medium編譯:張大筆茹、夏雅薇對於那些對數據,數據分析或數據科學感興趣的人,提供一份可以利用業餘時間完成的數據科學項目清單,一共14個!創建一些數據可視化效果,顯示地球表面溫度如何隨時間變化,並可以通過創建折線圖或其他動畫的Choropleth貼圖來實現!也可以創建一個預測模型來預測未來五十年內地球的溫度。
  • 從哪裡獲取數據?
    今天要解決的問題是從哪裡獲取數據?首先說明一點,公開數據可以免費引用,但是最好有標明來處,一個好的習慣是非常有必要的。但是非法獲取他人數據屬於犯罪行為,見相關法律。CIFAR-100的100個類被分為20個大類,每個大類又有一定數量的小類,大類和大類之間區分度較高,但小類之間有些圖像具有較高的相似度,這對於分類模型來說會更具挑戰性。
  • 大數據與抽樣誤差
    在這一講,我們將著重介紹大數據(big data)與抽樣誤差的關係。作為一種新興數據形態,大數據給人的第一印象就是「數據大」。而且大數據的「大」不僅是就其數據量本身而言,更重要的是其所宣揚的「要總體而非樣本」的數據採集理念。正如舍恩伯格在《大數據時代》一書中所指出的,大數據相對於傳統數據的一個本質特徵就是大數據「不是隨機樣本,而是全體數據」。
  • 每天一個數據科學項目,數據集都準備好了!
    大數據文摘出品來源:medium
  • 14個超有趣的數據分析項目,數據集都給你整理好啦
    轉載自大數據文摘對於那些對數據,數據分析或數據科學感興趣的人,提供一份可以利用業餘時間完成的數據科學項目清單
  • GIS數據從哪裡來?!(二)
    接著上次的文章GIS數據從哪裡來?!(一),這次再來豐富完善一下數據的來源,方便大家科研或者做項目、學習、教學。EarthEnv-DEM90:通過合併GDEM和SRTM產品以及後處理來填充空隙和平滑數據而創建的90m解析度的近全局DEM。ETOPO1:1弧解析度浮雕模型,包括海洋測深。全球多解析度地形:網格高度約為100米解析度,涵蓋陸地和海底地形。
  • 一文教你如何處理不平衡數據集(附代碼)
    大數據文摘授權轉載自數據派THU分類是機器學習最常見的問題之一,處理它的最佳方法是從分析和探索數據集開始,即從探索式數據分析(Exploratory Data Analysis, EDA)開始。除了生成儘可能多的數據見解和信息,它還用於查找數據集中可能存在的任何問題。在分析用於分類的數據集時,類別不平衡是常見問題之一。
  • 大數據分析與數據分析的根本區別在哪裡?
    作者:CDA數據分析師大數據分析與數據分析這幾年一直都是個高頻詞,很多人都開始紛紛轉行到這個領域,也有不少人開始躍躍欲試,想找準時機進到大數據或數據分析領域。如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!
  • 《大數據》的書筆記:數據是什麼?數據從哪來?數據如何用?
    雖然描繪的範圍是美國,但清晰的映射出近5年來中國網際網路大數據技術快速發展的影子。指引我們認清數據的價值,挖掘數據的方法,數據變革社會的實踐。   一、數據的概念   數據是記錄信息的載體。大數據是超出傳統意義上的尺度,一般軟體難以捕捉、儲存、管理和分析的數據。
  • 貴陽:搭建大數據服務平臺 助力高質量招生
    在前不久結束的貴陽市2020年義務教育招生電腦隨機派位中,來自貴陽高新區的大數據企業——貴州京師城投智慧教育產業股份有限公司,以合理滿足入學需求、科學優化學位派位為突破口,自主研發搭建了「貴陽市義務教育入學服務平臺」。
  • 深度學習經典數據集匯總
    第一個遇到的問題通常就是數據。作為個人學習和實驗來說,很難獲得像工業界那樣較高質量的貼近實際應用的大量數據集,這時候一些公開數據集往往就成了大家通往AI路上的反覆摩擦的對象。計算機視覺(CV)方向的經典數據集包括MNIST手寫數字數據集、Fashion MNIST數據集、CIFAR-10和CIFAR-100數據集、ILSVRC競賽的ImageNet數據集、用於檢測和分割的PASCAL VOC和COCO數據集等。
  • 麥肯錫 | 數據分析時代:大數據環境下的商業競爭
    大數據文摘作品,轉載請聯繫 作者|Nicolaus Henke, Jacques Bughin,  Michael Chui, James Manyika,  Tamim Saleh, Bill Wiseman,  and Guru Sethupathy 編譯團隊|Aileen
  • Kaggle首次定義數據科學家:30歲,年薪5萬刀,愛Python,最恨髒數據
    大數據文摘作品作者:龍牧雪 魏子敏今日凌晨,全球最大的數據科學社群Kaggle發布了第一份數據科學/機器學習業界現狀調查報告。本次報告的發布也別具一格地採用了交互數據集的方式,並提供了樣本數據集供讀者自行分析,大數據文摘也得以利用這一數據集分析出了一些與中國數據科學從業者相關的結論,比如:1、中國從業者更年輕:中國數據玩家年齡中位數25歲,比這一統計值的全球數據(30歲)小五歲;2、從業者男女比例更加不均:中國僅有72名女性數據玩家填寫了問卷,而男性有387人。
  • 【全球播報-第2期】Facebook開放主題數據,日本召開醫療大數據峰會
    點擊標題下「大數據文摘」可快捷關注大數據文摘「全球播報」欄目在羊年正式與大家見面了,全球播報致力於尋找來自世界各地的科技趣聞
  • 用Python進行數據可視化的10種方法
    2015-11-19 大數據文摘 關於轉載授權 大數據文摘作品,歡迎個人轉發朋友圈,自媒體、媒體、機構轉載務必申請授權,後臺留言「機構名稱+轉載」,申請過授權的不必再次申請,只要按約定轉載即可,但文末需放置大數據文摘二維碼。
  • 谷歌發布自然問答數據集 Natural Questions
    該數據集包含了 30 萬個自然產生的問題和對應的回答注釋,每個回答都是人工從維基百科頁面找到的答案。另外,Google 還舉辦了挑戰活動,以 NQ 數據集訓練的模型性能來生成挑戰者的排行榜。原因是匯集用於問答的高質量數據集,需要大量的實際問題來源以及尋找問題答案的大量人力。而現在谷歌發布的自然問答數據集 Natural Questions 可以說是填補了這部分資料的空白。簡單來說,就是 Google 收集自家搜尋引擎真實的問題查詢,搭配維基百科的資料,為問答系統提供訓練資料集。
  • NLP、KG相關數據集匯總
    300萬訓練集,25萬測試集。JD binary是二分類數據,1-2星屬於負面評論,4-5星屬於正面評論,忽略3星,類別的樣本數相同。400萬訓練集,36萬測試集。id=3):給定客服裡用戶描述的兩句話,用算法來判斷是否表示了相同的語義(數據集在我repo也可以下載)。