數據標註員被取代?EasyData為開發者提供服務

2020-12-13 中關村在線

你是不是也曾在人聲鼎沸的超市裡,剛精挑細選好幾樣新鮮蔬菜水果,扭頭卻看到待稱重的隊伍已排到「天際」。生活真是時不時就要來點無奈,打散你我心裡的「小確幸」。那是否存在一種「聰明」的機器,它可自行辨認物品並結合重量「一步到位,自食其力」地計算出總價,免去排長隊等稱重的步驟呢?事實上,它存在——飛槳企業版EasyDL零門檻AI開發平臺的全新升級帶著更快速易用的解決方案來了!

5月20日「WAVESUMMIT2020」深度學習開發者峰會上,百度AI開發平臺部總監忻舟宣布EasyDL全新升級,重磅發布了業內首個專注於AI開發領域的智能數據服務平臺EasyData,進一步加強數據管理與加工能力,並在完整地支持Master模式的訓練與開發、端雲一體服務部署方面帶來了4項重要升級。

(圖:EasyDL平臺的全新發布與重要升級)

據介紹,EasyDL已成為目前市場上重點面向中小企業功能最全的一站式AI開發平臺。以「簡單、專業」為最核心理念的EasyDL希望通過平臺建立一條連接需求和複雜技術之間鴻溝的橋梁,幫助開發者實現零門檻AI開發,從繁雜的數據準備、環境配置、代碼開發和服務部署中脫身,專注於業務與創新。

由於大量開發者在結合業務進行模型訓練前,常常深受「數據」一環的困擾,因此EasyDL此次全新推出EasyData,面向AI開發領域,提供了一站式數據採集、清洗、標註、擴充、數據閉環等能力,與EasyDL模型訓練和部署環節配合,幫助開發者更高效更低成本的解決AI開發及應用過程中遇到的數據問題。

首先,在採集環節EasyData提供了業內首發的軟硬一體、端雲協同的自動數據採集方案,極大降低了開發者在「設備選型、調測和集成開發工作上的成本」,將數據採集效率從「周級」提升到「小時級」。緊接著,針對採回的數據,平臺還提供自動數據清洗方案,將人工處理成本降低80%。而針對AI開發中另一耗費時間的「數據標註」環節,EasyData可提供豐富的智能標註方案,支持物體檢測、圖像分割和文本分類三種任務場景,只需標註少量數據,即可通過啟動「智能標註」自動挖掘難例,並通過標註難例加速提升系統效果。與以往相同任務相比,基於EasyData智能標註解決方案,達到同等模型效果的數據標註量平均減少70%。在之後的模型訓練與發布環節,自動數據閉環使得整體模型迭代周期從月到周甚至到天,極大提升了AI開發全流程效率。

舉例來看,果蔬智能識別系統開發企業中科立業基於EasyDL快速開發的「智能雲秤」已落地20家店鋪,通過秤上的攝像頭來智能判斷商品,實現稱重結算一步到位。而在此前的實際開發中,中科立業遇到遮擋、光線影響、樣本多樣性等數據問題,在接入EasyDL後,基於EasyData的自動去模糊、過濾無效圖像、智能標註和數據增強,每天可以自動收集7000張有效樣本,整體減少了80%的數據處理量和70%的人工成本,通過EasyDLMaster模式,快速實現模型開發,對50種水果實現智能識別,準確率超過95%。

此次峰會中,EasyDL平臺除了針對數據管理方面全新發布了EasyData,還針對AI開發中的其他環節進行了4項全新升級。首先,EasyDL平臺對預訓練模型、預置算法進行了升級,使Master模式應用更簡單高效。如在NLP領域預置了效果領先的ERNIE2.0模型,將持續針對醫療、法律等專業領域擴展「領域模型」;在CV領域則預置了「超大規模視覺」預訓練模型,大幅提升通用分類和檢測的模型效果,並在零售、安防等領域發展場景化預置模型。EasyDL平臺目前共預置了36套經典NLP網絡與模型組合、26套經典CV網絡與模型組合,支持開發者更加高效快捷地進行模型開發。

其次,自動數據增強和超參搜索能力也針對實際的工業應用做了優化。其中,自動數據增強方面,平臺開放超過40種數據增強算子,可靈活配置,基於工業級搜索算法實現更高的搜索效率。同時,對於自動超參搜索,創新基於隨機微分方程的無梯度優化的調參算法,收斂速度快,不依賴平滑性假設,可支持大規模並行搜索調參。這使得EasyDL線上多場景模型精度平均提升10%以上。另外,分布式訓練加速也是EasyDL平臺的一大特點,基於PaddlePaddleDGC的優化,在常見的沒有專門經過通信優化的公有雲環境中,能夠使訓練時長平均減少70%。

總體來看,由於AI核心算法發展迅速,效果和複雜度不斷提升,並且涉及到數據處理、環境配置、結果分析、模型部署、運行監控等等,龐雜繁複的各環節,讓專注於各自領域的企業,對於所需的「定製AI開發」往往存在門檻過高的現象。而EasyDL為了讓各領域企業在進行「智能化」升級時可解放更多人力與資源聚焦在業務與創新上,在降低技術門檻、加快開發的同時,也確保了核心AI開發體驗的順暢和效果。例如,瀚才獵頭作為一家只有5個人力資源專家組成的創業公司,藉助EasyDL智能標註和預訓練模型ERNIE,公司的人力資源專家輕鬆快速,且具有行業創新性地將房地產行業「簡歷數據」建立了分類模型,針對100多個細分職業和11個通用職級進行分類,讓員工在面對「背景經驗差距巨大」卻是同一職位名稱的候選人時可進行更高效的篩選匹配。而該模型只使用了1萬條標註數據,就達到了95%以上的準確率,讓人才檢索效率迅速提升200倍。

(圖:EasyDL「盤活」瀚才獵頭海量沉沒數據價值)

最後,EasyDL還提供了市場上最全面的服務部署形態,不僅同時支持公有雲與私有化部署,更在端上適配廣泛,支持15+硬體和晶片類型和4大作業系統。會上,「EasyEdge軟硬一體方案」全新升級,包括6款方案,針對市面上流行的硬體進行專門適配,高中低全矩陣覆蓋,模型識別速度最高提升10倍,幫助開發者輕鬆打造嵌入式AI應用。其中,本次全新發布的「EasyDL-EdgeBoard(VMX)加速卡軟硬一體方案」基於IntelMovidius Myriad X晶片打造,具有小體積,低成本、高性能的特點,在百度AI市場售價679元起。另外,全新發布的「EasyDL+ NVIDIA Jetson軟硬一體方案」,覆蓋Nano、TX2、Xavier三款硬體產品,EasyDLSDK全系列加速適配。目前,Nano+ EasyDL SDK在百度AI市場限量直降,售價僅需800元。

自EasyDL平臺發布以來,已有越來越多的企業用戶和開發者將EasyDL作為他們實現業務創新和智能化升級的首選AI開發平臺。事實上,目前EasyDL已經成為了應用和落地最廣泛的AI開發平臺,已為工業、農業、交通運輸、政務等各行各業的開發者帶來了重要價值。未來,EasyDL也將繼續提供更好的開發壞境,讓開發者更加聚焦於業務與創新,加速AI開發落地的整個技術部署進程。

(7444658)

相關焦點

  • 數據標註員:人工智慧行業的「築夢師」丨曼孚科技
    事實上,現階段提升AI認知世界能力的最有效途徑仍然是監督學習,而監督學習下的深度學習算法訓練十分依賴於數據標註員進行標註數據。可以說,如果數據標註是人工智慧行業的基石,那麼數據標註員就是數據標註行業的基石。2020年2月,數據標註員被正式定義為「人工智慧訓練師」並納入國家職業分類目錄。
  • 數據標註行業未來:面臨取代?
    :面臨取代?  在人工智慧不斷發展的如今,數據標註行業隨之發展興起,然而隨著行業的不斷轉型升級,不少數據標註師開始擔憂,在一個以人工為主的行業中,伴隨著AI技術的發展,數據標註會被取代麼?  目前,的確有一些企業開始使用自動化的技術進行數據標註,但是你要想做自動標註,首先你得有模型,而你的模型又必然是從標註數據中訓練出來的。你想,如果客戶已經有了模型,他還要標註數據幹嘛?大部分企業他們是沒有 模型 的,他們需要標註數據來訓練他們的模型。所以用程序標註數據是一個悖論。當然這並不是說程序標註完全沒有意義,用程序對數據做預處理是非常有用的。
  • Slashdata:2017-2020最受開發者歡迎的程式語言是JS
    一項新的開發者調查顯示,微軟.NET平臺的主要語言C#的受歡迎程度在三年內從第三位下滑到第六位,不過從絕對值來看,C#的使用量仍在增長,而且它在遊戲開發中尤其受歡迎。研究公司Slashdata在第19份 「開發者國家狀況 「報告中對全球17000多名開發者進行了調查。
  • 標貝科技繆冠瓊:AI數據標註機器比重提升,但不可能完全取代人工
    由於需要標註的數據規模龐大且成本較高,一些網際網路巨頭及一些AI公司很少自己設有標註團隊,大多交給第三方數據服務公司或者數據標註團隊來做。  數據服務是標貝科技的起家業務,自2016年成立以來,標貝科技為BAT、AI獨角獸等多家公司提供過語音、圖像、NLP數據的採集、標註等服務。
  • 自研數據標註服務平臺,數據服務商科技化轉型關鍵一步丨曼孚科技
    在這個過程中,數據標註工具是核心,為原始數據賦予了新的意義。目前,數據標註工具平臺化是行業發展的重要趨勢之一。所謂工欲善其事,必先利其器,一款優質的數據標註服務平臺應當具備如下特徵:1.全流程工作流體系狹義的數據標註是指對原始數據進行拉框、描點、轉寫等操作,但在一個完整的標註項目裡,標註過程只是項目中的一部分。
  • 華為機器學習服務ML Kit 為開發者提供高效多樣服務體驗
    2020年1月15日,華為官方宣布全面上線HMS Core 4.0,包括華為機器學習服務(ML Kit)在內的部分新能力引起開發者高度關注。華為機器學習服務(ML Kit) 提供機器學習套件,為開發者應用機器學習能力開發各類應用提供優質體驗。
  • 2020數據標註公司排行
    大浪淘沙,不妨大膽預測,數據標註行業有兩類機構最終會發展較好:一是注重質量及服務的中小型數據標註公司,二是自有整套數據技術,能依靠人工智慧增加準確率的平臺。 人工智慧背後的「人工」 形形色色的數據標註公司、眾包平臺之下,不能忽視的是數據標註員。
  • AI民工:字節跳動5萬多員工 天津等地數據標註員佔4萬
    現階段,讓AI提升認知世界能力的最有效途徑仍然是監督學習,劉吉團隊正在做的數據標註是其中最基礎的一環。就像教小孩子一樣,數據標註員通過打標籤的方式,將數據處理成AI能夠理解的特徵。像劉吉這樣的團隊,數據眾包平臺——莫比嗨客上還有30萬個。他們都是註冊在案的公司,平均有20~25個數據標註員,是一個個分布在貴州、河南、山西等地的小型數據工廠。根據中科院自動化所研究員王金橋的估算,全國從事這項工作的人已達到千萬級。這些數據標註員有一個被圈內人默認的外號:AI民工。
  • 2017-2020 JS最受歡迎,SlashData發布最新開發者報告
    此外,報告結果基於以下兩個數據來源,其一是 SlashData 自 2017 年以來對全球軟體開發者數量的獨立估計;其二是 SlashData 每 6 個月對數以萬計開發者進行的大規模、低偏差調查結果。以下是對這份報告的具體解讀。
  • ...將標註效率提升50%,「星塵數據」還要為無人車場景提供全方位服務
    「星塵數據」是一家提供數據標註服務和AI數據中臺系統的SaaS公司,為人工智慧企業提供數據服務,提供AI數據全流程標註和質量管理。人工智慧的發展過程中,數據、算力、算法缺一不可。系統首先利用自動化培訓考核工具選擇上崗人員,並根據考試結果分配相應難度的標註內容。此外,在標註過程中,系統會對已標註數據進行交叉審核,被標註數據可在用戶自定義的標註池、檢查池、抽查池中來回流轉,保證最終進入完成池的精確度。除了人工質檢,系統還設置算法質檢,保障數據服務質量的下限,儘量避免漏題和顯而易見的錯誤。
  • 人工智慧背後的「人工」:數據標註時薪縮水一半,欠薪高發
    生活在貴州百鳥河小鎮上的杜珉旭,是數據服務商夢動科技公司的項目組組長,除了每天協同組員完成數據標註項目,他還會抽出時間自學python語言。西梅和杜珉旭都是AI數據標註員,這是一個需求龐大卻又曾備受爭議的職業。標註行業給算法提供大量的訓練數據。
  • 華為大數據認證HCNA-Big data和HCNP-Big data V1.0中文版預發布通知
    華為職業認證針對ICT從業者,基於ICT融合技術領域,提供了工程師級別、資深工程師級別和專家級別三類技術認證等級,為ICT從業人員提供層次化的培訓認證,同時依託華為對行業的深刻理解,推出針對金融、政府及公共事業、廣電媒資、電力、交通、大企業、運營商等體現行業特點的能力提升解決方案。
  • 大眾視點之身邊的就業故事|村裡人幹起「數據標註員」
    大眾視點之身邊的就業故事|村裡人幹起「數據標註員」大眾日報記者 盧昱 張春曉2020-07-10 06:45:43 發布來源:大眾日報 03版鄄城縣鳳凰鎮花李莊村村委會二樓的「AI數據標註工場」裡,常有
  • AI式剝削:數據標註人員日薪低至51塊錢
    不止中國,向勞動力更充足、成本更低的地方遷移也是全球數據標註行業的發展趨勢。印度湧現了不少數據標註村,他們為美國、歐洲、澳洲和亞洲的 AI 公司服務,Facebook 就曾將部分社交內容標註的工作外包給了一家印度公司。
  • 用一個API搞定一切 Segment.io為移動開發者提供便利的分析數據...
    Segment.io是一家由Y Combinator支持的初創企業,致力於幫助開發者在他們的應用中集成多個分析服務提供商的API。現在他們將自己的業務範圍拓展到了移動開發的領域。這家公司推出了iOS版本和安卓版的移動軟體開發包,讓應用開發者能夠在應用中集成25家分析服務提供商的服務。
  • CocoaChina創始人:為開發者提供價值最重要
    CocoaChina創立於2008年,是國內最大的蘋果開發者中文社區。6年多的時間裡,CocoaChina秉承「獲取、解答、分享」的理念,致力於為開發者提供最新、最全、最具價值的開發資訊,加強開發者之間的交流與分享。給行業提供貢獻,為開發者帶來有價值的信息,是CocoaChina的核心目標。
  • 從小作坊到大生產,AI數據標註轉捩點
    第三層主要處理對安全性較高的數據標註業務,設了門禁,需要通過指紋識別才能進入。標註員李楠(化名)告訴「甲子光年」,兩個月前,她剛從數據標註員升級為質檢員。她在大董村跟同學合租了一個20平的開間,起初是四人合租,漲薪之後變成兩人。她每天上午步行十分鐘到基地上班,偶爾也需要加班。
  • 谷歌開放全新自然語言數據集:多元化場景更詳細標註,讓 AI 助手更...
    雷鋒網 AI 開發者:近日,谷歌宣布開放兩個新的自然語言對話數據集,分別是 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1。這兩個數據集旨在對更接近人類對話的數據進行更詳細的標註,並提供到自然語言處理相關研究者更符合生活實際的數據內容。
  • 下個10 年,Go 能取代 Python 成為開發者的首選語言嗎?
    直到 2019 年,Python 才成為最受開發者喜愛的第二大語言。Python 在過去,尤其是在過去 5 年中的增長是非常巨大的。如今它已成為機器學習和數據科學開發者的首選語言。在接下來的幾年中,Python 無疑還將繼續在這些領域佔據主導地位。但是,與一些新興語言相比,它存在一些明顯的缺點。對於未來十年的開發者來說,這可能是一個嚴重的障礙。
  • 從小作坊到大生產,數據標註轉捩點|甲子光年
    雲測數據的其中一個標註基地是坐落於房山區北京金融安全創意產業園的一幢四層半高的小樓,一半是開放式辦公區域,另一半是按項目組設置的封閉房間,除了房間四角安裝的監視器之外,跟普通的創業孵化園區並沒有太大區別。第三層主要處理對安全性較高的數據標註業務,設了門禁,需要通過指紋識別才能進入。標註員李楠(化名)告訴「甲子光年」,兩個月前,她剛從數據標註員升級為質檢員。