人工智慧的深度學習算法建立在大數據的基礎上

2020-12-20 電子發燒友

人工智慧的深度學習算法建立在大數據的基礎上

工程師青青 發表於 2018-10-31 09:10:35

做人工智慧的都是靠腦力勞動的高級程式設計師嗎?

真相併不是這樣的。

目前人工智慧的深度學習算法是建立在大數據的基礎上的,人工智慧在工作過程中首先要對大數據進行挖掘,然後再利用大數據訓練人工智慧模型。

對於圖片數據來說,這一工作說起來好像很簡單,但實際上整個工作過程並不智能,這背後隱藏著一個賺錢十分辛苦而且工作內容非常枯燥的勞動密集型的產業。

人工智慧女神李飛飛開創「數據標註」產業

2005年,當時還沒有出名的李飛飛進入了史丹福大學人工智慧實驗室,選擇了當時還很冷門的研究方向——計算機視覺圖像識別。

計算機視覺圖象識別,主要目的讓計算機讀懂圖像——對計算機來說,每一張圖片都是3個矩陣按照不同權重疊加的結果,這3個數學上的矩陣被稱為RGB顏色矩陣。

對於自動駕駛來說,計算機要從這三個矩陣中找出紅綠燈與斑馬線的位置,難度其實是很高的。對於人工智慧安防監控來說,也是一樣的道理,基礎的人臉識別需要用到很複雜的算法。

這些事情看起來十分困難。因為要讓計算機識別「斑馬線」、「紅綠燈」、「人臉」其實就好像我們要訓練一隻小狗,讓它過馬路的時候要走斑馬線,要看得懂紅綠燈標誌,要記得住路上行人的相貌一樣。但實際上小狗的智商遠比計算機要高得多,因此訓練計算機做機器視覺遠比訓練小狗來得困難。

在2005年,計算機可識別的物體非常稀少。李飛飛與她的研究團隊從網際網路上下載了近10億張圖片,然後試圖對這些圖片進行分類、打上標籤,為計算機提供學習用的「題庫」。這個「題庫」後來發展為著名的ImageNet。

那麼,怎麼樣才可以把10億張圖片分類打上標籤呢?以一個人每天可以分類1000張圖片來計算工作量,10億張圖片需要一個人幹上100萬天,也就是2740年。這是一個巨大的工作量。李飛飛曾想過僱用大學生來完成這個工作,預計支付給每人10美元一小時的工資來做人工歸類,但用她能找到的大學生來人工完成這個項目需要90年的時間,而且開支是一個天文數字。所以,最後李飛飛只能去找更便宜更快速的方法。

後來,李飛飛找到了一種更快速的方式,這就是亞馬遜的眾包平臺。通過眾包平臺,李飛飛在網上僱傭到了5萬人,請他們為這10億張圖片分類、打標籤。

到2009年,李飛飛主導的ImageNet資料庫就包含了1500萬張已經標註好的照片,這是一筆非常可貴的數據財富。李飛飛把這個圖片資料庫免費開放使用,極大地造福了全球所有致力於計算機視覺識別的研究團隊。

李飛飛所開創的這個行業,後來在人工智慧領域被稱為「數據標註」。目前,這一行業已經在中國形成了一個勞動密集型產業。

數據標註產業是人工智慧的「富士康」

在人工智慧的光環背後,數據標註產業其實由一個個類似於「富士康」的勞動密集型工廠組成的。

在這些工廠裡往往布滿了一排排的電腦,這些電腦屏幕上是各個被放大的物體圖像的細節,還有一個一個標註框。數據標註員的工作內容包括拉框標點,打標籤,分割,批註等等。

其中對圖片最常見的分類就是打標籤,比如有一種打標籤的方法是描點標註,一般用於細緻的人臉標註:這需要在人臉的眉毛、眼睛、鼻子、嘴巴等關鍵部位做二十多個標記點——這個過程很像微軟的KINECT的骨架圖,也類似於數學上的「三角剖分」。

矽谷動力君在網上查閱了做數據標註的公司——「北京博雅海圖數據服務有限公司」。該公司是這樣介紹自己的:博雅數據相繼成立以「博雅上海」、「博雅北京」、「博雅溫哥華」三家子公司,同時又在衡水、濟南、武漢、西安等城市建立了自己的數據加工中心,目前是國內生產規模較大的數據錄入服務企業,現全職錄入員超過200人,博雅的管理人員,均從事錄入行業五年以上,具有良好的敬業精神和團隊精神。

從「博雅海圖數據服務」的相關介紹來看,該公司在河北、山東、山西與湖北建立了自己的數據加工中心,這些數據加工中心有一部分業務就是為人工智慧企業提供「數據標註」服務。

另據報導,翊澳數據也是一家類似的數據標註公司,其在河南的十幾個縣市裡建立了類似的數據標註工廠。為什麼要在河南的縣城建立這樣的工廠呢?原來「下面這些地方場地租金更便宜,員工工資也低,更省成本。」所以,這也讓這些工廠看起來像「富士康」,服務於「高科技」,但實際上卻是「勞動密集型產業」。

因為數據標註其實沒有什麼技術難度,只要有會用電腦的初中生就可以勝任這樣的工作。整個工作流程也相對單一,只需要把圖片中的事物識別出來,然後在圖片上標記出來就可以了。但這個工作需要一個工人每天處理上千張圖片,工作內容相對單一,眼睛也十分疲憊。所以,很多人因為忍受不了如此高強度的視力勞動,選擇了跳槽。但也有很多工人堅持了下來,雖然他們不一定懂得他們處理的這些圖片是怎麼用到人工智慧行業的,但毫無疑問的是,這些工人是人工智慧產業鏈上「沉默的大多數」,他們給人工智慧行業提供了源源不斷的原材料。

數據標註眾包模式正在造就一個新產業

數據標註眾包模式最早出現在美國,前面說過的人工智慧女神李飛飛就是在2005年亞馬遜剛推出勞務眾包平臺(Amazon Mechanical Turk)找到那批數據標註員的。

截至2017年底,亞馬遜的數據勞務眾包平臺註冊用戶量已經累計超過50萬,這其實類似於美團把很多送外賣的快遞小哥連接在了一起,亞馬遜的數據勞務眾包平臺也把眾多的數據標註員連接在了一起。

目前在中國,還沒有出現面向個人的眾包數據標註平臺,但已經出現了一批做數據標註的企業,這些企業相對於個人來說更加專業,工作效率更高,服務質量更有保障,所以得到了很多人工智慧企業的好評。因為很多人工智慧企業本身位於一二線大城市,很難承擔這種勞動密集型工作的人員工資,於是把數據標註這部分工作外包給數據標註企業,可以節省很多用工成本。

因此,有人高幄建瓴地總結這個產業:沒有「人工」就沒有「智能」,這一幕很可能是人工智慧產業發展史上的最為隱秘而壯觀的一幕。

數據標註的工作內容非常枯燥而且需要極大的耐心,這處於人工智慧高科技產業鏈的低端,這一工作內容看起來基本沒有技術含量。

那麼,中國有哪些從事數據標註的企業呢?除了前文提到的博雅海圖與翊澳數據這兩家公司,其他的相關公司還有BasicFinder、龍貓數據、星塵數據、愛數智慧、周同科技等。

除了圖片標註,目前還誕生了語音標註與視頻標註等相關的業務方向,其原則上與圖片標註沒有太大的區別,都是依靠大量的人力進行工作。

另外,像京東、百度、騰訊、阿里這樣的大公司都有自己的標註平臺和工具。

數據標註行業的轉包現象與未來

數據標註行業屬於勞動密集型行業,所以很容易出現層層轉包地現象,上遊的人工智慧企業會把任務交給中遊的數據標註公司,這些中遊的公司會分包給下遊的小公司與小作坊,有的小作坊還會進一步分包給個人,比如在校學生或家庭主婦。轉包的中間過程產生了大量賺差價的「中間商」,這使得整個行業的利潤空間越來越小,已經不利於整個行業的發展。所以,矽谷動力君認為,應該採取一定的措施禁止這種層層轉包的事情發生。

另外一方面,我們需要展望未來,目前看來,數據標註員的工作是最不智能、最沒有技術含量的。對於未來的人工智慧來說,科學家們還必須研究如何讓人工智慧自主學習,自主標記,而不依賴人類對人工智慧的標註與訓練。這種更高級的人工智慧,是未來的發展方向之一。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 中醫藥大數據競賽,快商通人工智慧算法實力領跑
    「萬創杯」中醫藥天池大賽由江西省發改委、贛江新區管委會主辦,阿里雲計算有限公司等聯合主辦,旨在選出優秀的中醫藥人工智慧大數據領域的應用創新解決方案,並以科技扶持、產業發展資金或產業扶持、對接創投資本等方式吸引項目落地應用,打造中醫藥人工智慧高地。另外,代表企業參賽並進入複賽的隊伍,將有機會成為阿里雲醫療行業合作夥伴。
  • 教育大數據深度學習的價值取向、挑戰及展望——在技術促進學習的...
    在關聯理解、知識挖掘、腦科學、認知科學、人工智慧等新理論新技術驅動下,並受摩爾定律、梅特卡夫定律和吉爾德定律的影響,大數據分析和深度學習成為數據科學研究的中心主題,利用深度學習進行大數據分析,提取數據蘊含的潛在價值,引領教育結構的變革與創新。大數據分析的核心是挖掘和提取大量輸入數據中有意義的規律和模式。
  • 人工智慧炒股靠譜嗎?人工智慧炒股軟體建立在大數據基礎之上,只是...
    根據對方客服提供的信息,該人工智慧選股工具是運用人工智慧技術,結合21年股市大數據和價值因子建立量化模型,運用華爾街最新頂級投資算法,生成具備深度學習和自我優化的量化智能投資系統。該客服介紹說,股民買賣股票時,通常會犯一些人性的弱點,而人工智慧就能克服這些人性的弱點,依靠程序模型,到點執行。
  • 人工智慧 | 為什麼叫深度學習
    那麼什麼是深度學習呢?為什麼叫深度學習?我個人理解:統計或多變量分析是靠抽樣數據,機器學習是靠大數據,而深度學習是靠餵養數據;咋理解呢?我比喻描述一下:假如有三個角色:機器人、人類、判別者,人類開始訓練機器人進行對話,人類問機器人,「你吃了嗎?」
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    對我而言,在過去的十年裡,我專注於機器到機器和設備到設備的通信、開發能自動處理大型數據集的系統、執行自動化交易(比如購買網絡流量或自動生成內容)。這意味著需要開發能夠處理非結構化數據的算法,這也是人工智慧、物聯網和數據科學的交叉領域,也可被稱為深度數據科學(deep data science)。
  • 人工智慧及機器學習與深度學習揭秘
    21CTO社區導讀:本文向各位開發者全面揭示人工智慧,關於機器學習、監督學習、無監督學習、分類、決策樹、聚類、深度學習等相關算法。
  • iEnglish徐克功:人工智慧加大數據算法 打造學習數據檔案
    (原標題:iEnglish徐克功:人工智慧加大數據算法 打造學習數據檔案)
  • 人工智慧之機器學習算法體系匯總
    Github開源機器學習系列文章及算法源碼1. 人工智慧之機器學習體系匯總【直接上乾貨】此處梳理出面向人工智慧的機器學習方法體系,主要體現機器學習方法和邏輯關係,理清機器學習脈絡,後續文章會針對機器學習系列講解算法原理和實戰。
  • Python大數據綜合應用 :零基礎入門機器學習、深度學習算法原理與案例
    機器學習、深度學習算法原理與案例實現暨Python大數據綜合應用高級研修班一、課程簡介
  • 人工智慧背後有什麼?數據標註師必不可少
    目前人工智慧時代的到來,社會正在歷經從技術架構、應用模式、產業格局等多方面的改變,人工智慧正在改變著我們的生活。再這樣的人工智慧背後,數據標註人數也在不斷增多,這樣的AI數據標註工人,就是給計算機輸入圖像。並且在數據標註行業還流行著這樣一句話:有多少智能,背後就有多少人工。
  • 人工智慧、機器學習、深度學習的區別在哪?
    在此後的幾十年裡,人工智慧被標榜為成就人類文明美好未來的關鍵。在過去的幾年裡,特別是2015以來,人工智慧開始大爆發。這在很大程度上提高了GPU的廣泛可用性,使得並行處理速度越來越快,使用更便宜,而且功能更強大。整個大數據運動擁有無限的存儲和大量的數據:圖像,文本,交易,映射數據等等。
  • 2016深度學習統治人工智慧?深度學習十大框架
    的確,過去一年的時間裡,深度學習正在改變越來越多的人工智慧領域。Google DeepMind 工程師 Jack Rae 預測說,過去被視為對於中型到大型數據集來說最佳的預測算法的那些模型(比如說提升決策樹(Boosted Decision Trees)和隨機森林)將會變得無人問津。
  • 人工智慧、機器學習和深度學習的區別?
    當然,無限拓展的存儲能力和驟然爆發的數據洪流(大數據)的組合拳,也使得圖像數據、文本數據、交易數據、映射數據全面海量爆發。  讓我們慢慢梳理一下計算機科學家們是如何將人工智慧從最早的一點點苗頭,發展到能夠支撐那些每天被數億用戶使用的應用的。1956年,幾個計算機科學家相聚在達特茅斯會議(Dartmouth Conferences),提出了「人工智慧」的概念。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 深度學習:人工智慧的「神奇魔杖」
    解密深度學習1.1. 人工智慧的發展一直隨同人工神經網絡研究的進展而起伏整個人工智慧發展歷史,幾乎一直隨同人工神經網絡研究的進展而起起伏伏。近期引發人工智慧新一輪熱潮的深度學習,其名稱中的「深度」某種意義上就是指人工神經網絡的層數,深度學習本質上是基於多層人工神經網絡的機器學習算法。
  • 人工智慧、機器學習、深度學習之間究竟是什麼關係
    機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程序不同,機器學習是用大量的數據來「訓練」,通過各種算法從數據中學習如何完成任務。
  • 一篇文章分辨人工智慧、機器學習與深度學習
    人工智慧?機器學習?深度學習?安全界用辭令人困惑,了解主要用語真正的意義,方可在信息安全的世界中遊走自如。在熱情的市場營銷人員口中,「人工智慧」、「機器學習」 和 「深度學習」 的定義變得模糊,明確性讓位於增加銷量的需要。
  • 人工智慧,機器學習和深度學習之間的差異是什麼?
    人工智慧,機器學習和深度學習都是屬於一個領域的一個子集。但是人工智慧是機器學習的首要範疇。機器學習是深度學習的首要範疇。深度學習是機器學習的一個子集,機器學習是人工智慧的一個子集這個領域的興起應該歸功於深度學習。人工智慧和機器學習這個領域近年來一直在解決一系列有趣的問題,比如從自動化的雜貨店購買到自動駕駛汽車。
  • Python深度學習:邏輯、算法與編程實戰
    今天為您推薦一本精品圖書--Python深度學習:邏輯、算法與編程實戰(ISBN:978-7-111-65861-0)。本書可作為深度學習相關從業人員的參考指南,也可作為大中專院校人工智慧相關專業的教材,還可作為廣大人工智慧愛好者的拓展學習手冊。國家「萬人計劃」領軍人才、西安電子科技大學計算智能研究所所長公茂果,浙江宇視科技有限公司研發副總裁/研究院副院長、人工智慧專家周迪聯合推薦。
  • 機器喵大作戰 | 解剖人工智慧、機器學習和深度學習
    如果從0到1回放整個過程,我們會發現,要完成一次機器學習/深度學習實戰,非常複雜。六步跑下來,一頓操作猛如虎。企業需要有數據、有算力、懂算法、懂場景,要有數據科學家、行業業務專家、系統工程師、開發工程師、運維工程師……難怪AI落地這麼難,因為這個過程確實很艱辛。