沒有「好的」數據,AI就沒有未來?聽聽雲測數據怎麼說

2021-01-09 新浪財經

來源:鈦媒體

摘要: AI的崛起離不開「好的」數據作為地基,這也是雲測數據成立的初衷所在。

算力、模型和數據構成了人工智慧的三要素,過去,我們過多的把目光聚焦於算力和模型上,殊不知,隨著人工智慧的深入,好的算法和模型已不再是稀有物種,反而那些被標註好的優質數據成為時下最為稀缺的「黑金」。

「公司的壁壘不再是算法,而是數據。讓算法利用足夠的數據,使得產品運行起來。」人工智慧和機器學習領域國際的權威學者吳恩達在發表以「AI is the new electricity」為主題的演講時,就重點強調了數據的重要性。無獨有偶,李開復在清華大學「清華學堂計算機科學實驗班」題為《人工智慧的黃金時代》的演講中也講到了此類觀點,「如果你有壟斷性的大數據,你就會有很大的優勢。」

以上種種,都表明著一件事,即AI的崛起離不開「好的」數據作為地基,這也是雲測數據成立的初衷所在。

溯源雲測數據的AI數據服務之路

「自2011年切入企服市場以來,Testin雲測不斷致力於助力產業智能化,除了測試業務我們已經成為專業領域的壟斷品牌,專注於AI數據服務的雲測數據也成為數據領域的標杆品牌。目前我們整個數據服務團隊規模已超過1000人,通過標審分離的流程化作業模式和數據安全機制,更好的保證數據的高質量產出和數據隱私性,從而更好地為人工智慧落地提供定製化『數據養料』。」在接受鈦媒體專訪時,雲測數據總經理賈宇航如是說。

AI數據服務作為一個非標領域,往往需要根據不同行業領域、不同的需求進行特定化的場景定製,而數據標註的過程,規範化、標準化以及可機讀性又不可或缺,這就意味著雲測數據所從事的領域,並沒有捷徑可以走。

早期的數據標註服務門檻並不高,幾個人、幾臺電腦便可展開操作,導致了行業魚龍混雜、同質化競爭等現象,而這時的人工智慧也處在初期發展階段。但當人工智慧駛入深水區,「應用人智能」聲勢逐漸火熱,相對應的算法對數據的精準程度和質量要求也水漲船高,就要求著作為AI數據服務的提供者,要為人工智慧提供定製化的、還原應用場景的優質數據。

針對於此,賈宇航告訴鈦媒體,「以人臉關鍵點識別為例,早先的相關數據標註往往用一句話便可描述完它的任務需求,到了現在,已經發展到幾百個關鍵點。通常數量級的人臉數據標註任務,有時候4張A4紙都未必能寫完這些需求,而人臉的數據標註只是眾多領域的任務需求之一。」

龐大數據標註任務量級之下,是當下業內需求端對精準和高質數據的普遍共識。

這就要求著數據服務要在數據標註和採集上下足功夫,而小團隊的能力範圍則顯得捉襟見肘。回歸到數據標註面向多領域這件事的本質時,你又會發現,光靠人多或者說採用「眾包」模式往往只能解決量的需求,數據標註人員是否能統一化協同管理以及是否具備相關領域知識,才是決定某項數據任務完成質量的好壞。

同時,這也是雲測數據當下正專注的事情。正如醫生可以標註得好ct診療片,而雲測數據團隊在進行自動駕駛車外環境數據標註時發現,那些能夠快速、精準進行數據標註的人員往往擁有駕駛經驗。

雲測數據快速成長的秘訣是什麼?

至此,我們還需要思考一個問題,為什麼雲測數據能做到且做好AI數據服務?

通過觀察Testin雲測的發展歷史,我們便能找到答案。

自2011年Testin雲測成立到現在,已經為全球超過百萬的企業及開發者提供服務,積累了豐富且完善的技術能力和流程化管理能力。而雲測數據AI數據服務正式開展於2017年,換句換說,Testin雲測的數據業務線從一出生便擁有7年企業服務所積攢的經驗,並繼承了行業獨立第三方的角色,天然的「以客戶為中心」的企服基因是雲測數據區別於同行的最大護城河,而客戶最為關鍵的訴求則是「降本增效」。

「與企業服務在美國環境更側重標準不同的是,中國更重服務,通過這麼多年的觀察我們發現,是否能切實滿足用戶的真實需求,其實是一個非常重要的點,並不是說企業一定要做出一個平臺或者一個工具,更多是從企業或行業需求出發,構建對應的服務模式。」賈宇航對鈦媒體補充到。

以新零售門店巡檢為例,通常來說,每個門店每月都要巡檢一次,門店巡檢模式是讓一個人拿著調研表去盤點,隨著人工成本的增加,而門店數越來越多現實情況,已經讓這成為一筆不小的開銷。通過引入AI數據服務,現在工作人員可以拿一個手機APP直接巡檢,物品的數量、sku的數量以及對應的sq數量,都能一目了然。

「從不同客戶反饋得知,通過我們雲測數據的數據標註服務而落地AI產品的企業,可為企業減少大概1/3的人工成本。」賈宇航如是說。

門店巡檢只是案例之一,就目前來說,雲測數據主要關注智能駕駛、智慧城市、智慧金融和智能家居幾大方向,這也是當下市場需求最大的幾個領域。面對不同的數據領域,雲測數據通過流水化作業,將各個環節打造成不同模塊,並配合自己的流程管理工具,優化人員管理、數據採集、數據清洗和數據標註的各個環節流程,確保內部的持續高效能運轉,最終保證AI數據高質產出。

根據IDC調查顯示,目前中國大數據發展處於應用落地階段,整個市場預計未來五年將保持持續增長的趨勢,年複合增長率將達到17.3%。而得益於人工智慧、5G、區塊鏈、邊緣計算的發展,未來多方技術融合,數據增長必然呈現井噴態勢,數據採集和標準業務作為其伴生體,必然有較大的增長空間。

得益於對AI趨勢的判斷,Testin雲測認為,「人工智慧正在逐漸往應用人工智慧」方向發展,因而雲測數據在成立之初,就確定了定製化「精準高質、獨立安全」業務方針。本著這張「王牌」,雲測數據部門迅速擴充,在以往企業服務經驗的完美嫁接之下,最終讓雲測數據成為AI數據服務領域的頭部企業。」

「雲測數據業務規模量每年都在以倍數的規模增長,這也與我們所處賽道的市場深度息息相關,在我看來,整個市場仍然呈現非線性的幾何增長態勢,還有很多機會蘊含其中,有待挖掘。」談及雲測數據業務線發展狀態時,賈宇航如是說。

「安全」是AI數據服務提供商繞不開的命題

機會之下,企業端在提供優質數據的同時,也要注意數據服務過程中的規範和安全。

在這方面,雲測數據通過自建數據採集實驗室和自建數據標註基地的方式,規範管理專職數據服務團隊。這種措施除了保證標註數據的質量和效率,也最大限度地保證了數據產出的安全隱私性。

賈宇航對鈦媒體強調到,雲測數據自伊始便將數據安全放在首位,集中表現在以下幾個方面:

第一,不濫用數據,數據交付後清毀數據不留底,絕不二次使用;

第二,不侵犯隱私,與所有數據採集的用戶都籤訂數據授權協議,確保AI企業用於訓練的數據合法合規;

第三,建立相關的數據保障機制,如從防火牆的設置、內部信息系統的管護、乃至標準化的流程作業體系等。

正如Testin雲測CMO張鵬飛多次強調:「即便說雲測數據從安全到隱私防護這套體系會加重運營成本,但從我們行業大局發展來看,只有以這種負責的態度來執行工作,我們的行業才能『良幣驅除劣幣』。」

(本文首發鈦媒體,作者/桑明強)

相關焦點

  • 從頭部企業看人工智慧:雲測數據將AI數據做到了極致
    2020年的最後一天,人工智慧數據採集標註頭部企業雲測數據發布了《2021年人工智慧數據採集標註行業四大趨勢預測》。據了解,這是雲測數據結合多年人工智慧數據採集標註實踐,在積極參與協會機構與高校之間前沿探討的同時,關注了眾多合作夥伴的數據需求變化之後做出的預測。雲測數據分析認為人工智慧在經歷了算法研究、技術擴張和商業落地的發展,對人工智慧數據提出了更高要求。
  • 雲測數據:打造AI數據大腦,讓自動駕駛技術「耳聰目明」
    前幾日在2020亞太新經濟大會(秋季線上峰會)上,雲測數據展示了智能駕駛領域首個AI訓練數據解決方案,並獲得「2020年度最佳人工智慧產品/平臺」榮譽獎項業界關注的一大亮點。那麼,無人化智能駕駛快速發展的背後擁有那些前沿技術方面的突破?雲測數據能夠帶來哪些優質解決方案?帶著這些問題,記者採訪了雲測數據總經理賈宇航。
  • 這項AI數據99.99%的高標準,為人工智慧按下「加速鍵」
    9月6日,雲測數據在服貿會上發布的「無數據不AI,雲測數據服務標準發布」備受行業關注。作為數據標註行業的頭部企業,雲測數據代表行業首次對外展示了其一項重要成果,「雲測數據項目高交付精準度達到了99.99%」,這是目前數據標註領域可達到的高服務標準,成為AI數據服務邁入更高質時代的一大裡程碑。據了解,數據準確率=驗收合格數量/全部數量。在數據標註行業發展初期,數據標註準確率只有70%-80%上下,隨著行業的不斷沉澱,當下整個行業數據標註準確率一般是在95%左右。
  • 硬碟將會在數據中心上沒有用?
    硬碟將會在數據中心上沒有用? 網際網路 發表於 2020-05-02 22:08:00 傳統機械硬碟在數據中心領域是否還有未來?
  • 很多企業,對「數據驅動」還沒有一個正確的認知
    然而,大多數企業對數據驅動還沒有一個正確的認知,維基百科中對於數據驅動是這樣定義的:數據驅動,指的是流程中的行為是被數據驅動,而不是被人的直覺和經驗驅動的。可見,數據驅動涉及到企業業務流程的變革,企業大多以流程驅動,流程驅動分工明確,使更複雜的業務得以實現,也奠定了現在企業數字信息化、數位化的基礎。
  • 新冠疫苗三期臨床數據解讀來了!聽聽專家怎麼說~
    新冠疫苗三期臨床數據解讀來了!聽聽專家怎麼說~ 2021-01-13 09:40 來源:澎湃新聞·澎湃號·政務
  • 雲從科技&貴陽大數據集團結合」AI+大數據」為各行業賦能
    2020年12月18日 18:56 閱讀:4,796 日前,雲從科技就與貴陽市大數據產業集團有限公司
  • 未來:大數據和AI越來越「懂」你
    因素一:無處不在的數據世界上90%的數據是近兩年產生的,谷歌的每臺伺服器每天就處理24PG的數據,1PG相當於2400萬GB。 儘管大量的數據是渦輪、胎壓、溫度等機械領域的監視數據,但也有數量驚人的數據實際上與我們個人有關。
  • 《2020中國好聲音》大數據不會說謊,第一沒有異議,第二呢
    《2020中國好聲音》看大數據怎麼說:第一仍是第一在《2020年中國好聲音》已經落幕一段時間,甚至《2021年中國好聲音》的海選已經開始之後,但仍有許多網友還沉浸在2020年中國好聲音之中。單依純獲得冠軍之後火速籤約,籤約東家也沒有辜負單依純,百沐娛樂的操作可謂有些行雲流水,單依純的今後的發展之路應該無憂。QQ音樂大數據最近公開了《2020中國好聲音》的大數據結果,讓我們來看一看大數據是怎麼說的。
  • 承載快速增長的數據需求,百度數據眾包謀定AI新基建時代
    舉例來說,如果你是一家做與人體有關的圖像識別的專業公司,或者需要這樣的技術來配合主業,你可能需要尋找不同膚色、不同外形特徵的人物做AI數據採集,以提升AI的「認知」能力,而對很多企業而言,除了依賴那些有限的開源數據,沒有太多辦法。 這方面,專門做數據業務的平臺就有明顯的資源聚集優勢。
  • 華為mini智能秤,測體脂、測心率…23項數據,1秒get正確減肥路徑!
    小編已經為大家尋覓到一個超好用、超實用的體脂秤——雲康寶智能體脂秤。再次併攏腳後跟,但雙腳仍踩在電極片上測量,測出來的結果為20.5%。體脂含量實打實發生了變化,說明雲康寶體脂秤的數據可不是隨隨便便根據輸入的身高體重計算出來的。更方便的是,它就跟普通的電子秤用起來一樣簡單。
  • AI+醫療應該是怎樣的?聽聽醫學專家怎麼說!
    如今的人工智慧已經開始滲透到了我們生活的方方面面,這不再僅僅是一項前沿的研究方向,而是各類傳統產業邁向未來的一個機會。在2020世界人工智慧大會期間,商湯科技舉辦了《大愛無疆·致遠》人工智慧企業論壇,圍繞AI與不同行業的融合碰撞,邀請了多名專家參與討論和分享。
  • 一行腳本,幾TB的數據沒有了……
    通常會發生的情況:它們僅供內部使用,但是有人犯了配置錯誤,使它聯機時沒有密碼保護。一句話概括可能的洩露原因:在公網上公開了 Elasticsearch 的埠,沒有加任何安全防護措施。一行腳本,上 TB 數據沒有了無獨有偶,近期 QQ 群裡有球友提供信息說,Elasticsearch 5.1.1 公開暴露到網際網路被礦機腳本注入,TB 級數據丟失。
  • 農行謝凱:商業銀行高度依賴數據 數據+算法是未來核心競爭力
    謝凱表示,商業銀行本質上是高度依賴於數據的企業,未來銀行核心競爭力就是數據+算法,這是下一步銀行最後的皇冠上的明珠。數據化是最艱難的也是最有價值的變化。數據化,應該是我們講智能化4.0的基礎,農業銀行從大數據平臺的建設到數據中臺的建設,從數據倉庫到數據提示,到數據標籤,到給各個業務部門從給數據到給服務,商業智能賦能方面產生巨大變化,同時從外部引入更多的供應商,更多外部數據,提高客戶畫像,最後是說數據業務化,個性化產品的定製,智能的風控起到根本性的變化,商業銀行本質上是高度依賴於數據的企業,我們講未來銀行核心競爭力就是數據+算法,這是我們下一步銀行最後皇冠上的明珠
  • 網易雲音樂的尷尬困境:亮眼數據背後的難言之隱
    但或許有人看出了一個關鍵性的問題:網易沒有公布網易雲音樂的日活躍數據(DAU,Daily Active User)。DAU通常統計一日(統計日)之內,登錄或使用了某個產品的用戶數(去除重複登錄的用戶),這與流量統計工具裡的訪客(UV)概念相似。DAU日活躍用戶數量常用於反映網站、網際網路應用或網路遊戲的運營情況。
  • 未來企業數據中心整體解決方案分析
    隨著雲計算和大數據逐漸成熟,IT廠商要想在未來競爭立足,必須要在這兩大領域有著充分的競爭力。目前企業面臨的問題主要有如何把業務管理好以及技術架構如何優化?這些問題CSDN在近日舉辦的走近惠普活動中得到了答案。
  • 華為生態鏈推出「智能心率體脂秤」,能測23項數據!售價僅99元
    華為生態又出手了,做了一個可以測心率的體脂秤——雲康寶智能體脂秤,從心率和體脂等23個數據,為你預警身體亞健康。還能添加家庭成員,人數不限,上秤自動識別,結合輕牛健康app,記錄飲食和運動,在「社區」內和大家一起打卡記錄每日數據。
  • AI技術在算法、算力、數據上還有多大突破潛力?
    Mitchell教授反思最近人工智慧技術的進步趨勢,展望未來,一種方法本來就需要結合與集成。 在中國,也有一支創新力量正在「抵禦」嚴寒入侵。 「實際上在學術界大家一直沒有想清楚一件事情,就是我們為什麼要用這麼深的模型?今天深度學習為什麼會成功,裡面的關鍵是什麼?」南京大學周志華教授說。
  • 專訪每日互動CTO 葉新江丨數據智能的未來,是不提大數據但其無所不...
    數據服務領域暫時還沒有一套國際或者國家權威機構提出的行業標準。究其原因,是因為數據服務在不同的行業間有著很大的差別,與一般的技術體系相比,具備更強的服務屬性。三、大數據的未來,是不提大數據但是數據又無處不在的時代,「你意識不到我的存在就是我最大的存在」隨著數據產業的規模越來越大,生態分工在未來將會越來越細,數據服務也將越來越細。而隨著人工智慧、雲計算、物聯網等技術的發展,大數據會不會和網際網路一樣,不再成為人們單獨討論的概念,而是成為像水電一樣的基礎設施,服務於各行各業中?
  • T-DMC數據營銷雲,用數據,讓智能銷售更簡單!
    3 客戶資產未沉澱 企業缺乏一站式的銷售流程解決方案,往往是銷售找線索談單子,整個流程數據無法記錄,不便於銷售管理和客戶資產留存。 4 潛客畫像未洞察 企業沒有對過往的成交客戶進行數據維度的分析,沒有通過畫像去尋找相似企業,導致銷售盲目的尋找客戶線索。 企業ToB線索營銷流程