人工智慧---計算機的視覺與語音技術

2020-12-05 暖暖白色被單

1984年,Breiman和Friedman提出決策樹算法,作為一個預測模型,代表的是對象屬性與對象值之間的一種映射關係。1995年,Vapnik和Cortes提出支持向量機(SVM),用一個分類超平面將樣本分開從而達到分類效果。這種監督式學習的方法,可廣泛地應用於統計分類以及回歸分析。鑑於SVM強大的理論地位和實證結果,機器學習研究也自此分為神經網絡和SVM兩派。1997年,Freund和Schapire提出了另一個堅實的ML模型AdaBoost,該算法最大的特點在於組合弱分類器形成強分類器,在臉部識別和檢測方面應用很廣。2001年,Breiman提出可以將多個決策樹組合成為隨機森林,它可以處理大量輸入變量,學習過程快,準確度高。隨著該方法的提出,SVM在許多之前由神經網絡佔據的任務中獲得了更好的效果,神經網絡已無力和SVM競爭。之後雖然深度學習的興起給神經網絡帶來了第二春,使其在圖像、語音、NLP等領域都取得了領先成果,但這並不意味著其他機器學習流派的終結。深度神經網絡所需的訓練成本、調參複雜度等問題仍備受詬病,SVM則因其簡單性佔據了一席之地,在文本處理、圖像處理、網頁搜索、金融徵信等領域仍有著廣泛應用。

另一個重要領域是強化學習,這個因AlphaGo而為人所熟知的概念,從60年代誕生以來,一直不溫不火地發展著,直到在AlphaGo中與深度學習的創造性結合讓它重獲新生。

1967年,Samuel發明的下棋程序是強化學習的最早應用雛形。但在六七十年代,人們對強化學習的研究與監督學習、模式識別等問題混淆在一起,導致進展緩慢。進入80年代後,隨著對神經網絡的研究取得進展以及基礎設施的完善,強化學習的研究再現高潮。1983年,Barto通過強化學習使倒立擺維持了較長時間。另一位強化學習大牛Sutton也提出了強化學習的幾個主要算法,包括1984年提出的AHC算法,之後又在1988年提出TD方法。1989年,Watkins提出著名的Q-learning算法。隨著幾個重要算法被提出,到了90年代,強化學習已逐漸發展成為機器學習領域的一個重要組成部分。

最新也是最大的一個裡程碑事件出現在2016年,谷歌旗下DeepMind公司的David Silver創新性地將深度學習和強化學習結合在了一起,打造出圍棋軟體AlphaGo,接連戰勝李世石、柯潔等一眾世界圍棋冠軍,展現了強化學習的巨大威力。

技術方向的發展

人工智慧---計算機的視覺與語音技術

計算機視覺

「看」是人類與生俱來的能力。剛出生的嬰兒只需要幾天的時間就能學會模仿父母的表情,人們能從複雜結構的圖片中找到關注重點、在昏暗的環境下認出熟人。隨著人工智慧的發展,機器也試圖在這項能力上匹敵甚至超越人類。

計算機視覺的歷史可以追溯到1966年,人工智慧學家Minsky在給學生布置的作業中,要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什麼,這也被認為是計算機視覺最早的任務描述。到了七八十年代,隨著現代電子計算機的出現,計算機視覺技術也初步萌芽。人們開始嘗試讓計算機回答出它看到了什麼東西,於是首先想到的是從人類看東西的方法中獲得借鑑。借鑑之一是當時人們普遍認為,人類能看到並理解事物,是因為人類通過兩隻眼睛可以立體地觀察事物。因此要想讓計算機理解它所看到的圖像,必須先將事物的三維結構從二維的圖像中恢復出來,這就是所謂的「三維重構」的方法。借鑑之二是人們認為人之所以能識別出一個蘋果,是因為人們已經知道了蘋果的先驗知識,比如蘋果是紅色的、圓的、表面光滑的,如果給機器也建立一個這樣的知識庫,讓機器將看到的圖像與庫裡的儲備知識進行匹配,是否可以讓機器識別乃至理解它所看到的東西呢,這是所謂的「先驗知識庫」的方法。這一階段的應用主要是一些光學字符識別、工件識別、顯微/航空圖片的識別等等。

到了90年代,計算機視覺技術取得了更大的發展,也開始廣泛應用於工業領域。一方面是由於GPU、DSP等圖像處理硬體技術有了飛速進步;另一方面是人們也開始嘗試不同的算法,包括統計方法和局部特徵描述符的引入。在「先驗知識庫」的方法中,事物的形狀、顏色、表面紋理等特徵受到視角和觀察環境的影響,在不同角度、不同光線、不同遮擋的情況下會產生變化。因此,人們找到了一種方法,通過局部特徵的識別來判斷事物,通過對事物建立一個局部特徵索引,即使視角或觀察環境發生變化,也能比較準確地匹配上。

人工智慧---計算機的視覺與語音技術

進入21世紀,得益於網際網路興起和數位相機出現帶來的海量數據,加之機器學習方法的廣泛應用,計算機視覺發展迅速。以往許多基於規則的處理方式,都被機器學習所替代,自動從海量數據中總結歸納物體的特徵,然後進行識別和判斷。這一階段湧現出了非常多的應用,包括典型的相機人臉檢測、安防人臉識別、車牌識別等等。數據的積累還誕生了許多評測數據集,比如權威的人臉識別和人臉比對識別的平臺——FDDB和LFW等,其中最有影響力的是ImageNet,包含1400萬張已標註的圖片,劃分在上萬個類別裡。

到了2010年以後,藉助於深度學習的力量,計算機視覺技術得到了爆發增長,實現了產業化。通過深度神經網絡,各類視覺相關任務的識別精度都得到了大幅提升。在全球最權威的計算機視覺競賽ILSVR(ImageNet Large Scale Visual Recognition Competition)上,千類物體識別Top-5錯誤率在2010年和2011年時分別為28.2%和25.8%,從2012年引入深度學習之後,後續4年分別為16.4%、11.7%、6.7%、3.7%,出現了顯著突破。由於效果的提升,計算機視覺技術的應用場景也快速擴展,除了在比較成熟的安防領域應用外,也應用於金融領域的人臉識別身份驗證、電商領域的商品拍照搜索、醫療領域的智能影像診斷、機器人/無人車上作為視覺輸入系統等,包括許多有意思的場景:照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等等。

語音技術

人工智慧---計算機的視覺與語音技術

語言交流是人類最直接最簡潔的交流方式。長久以來,讓機器學會「聽」和「說」,實現與人類的無障礙交流一直是人工智慧、人機互動領域的一大夢想。

早在電子計算機出現之前,人們就有了讓機器識別語音的夢想。1920年生產的「Radio Rex」玩具狗可能是世界上最早的語音識別器,當有人喊「Rex」的時候,這隻狗能夠從底座上彈出來。但實際上它所用到的技術並不是真正的語音識別,而是通過一個彈簧,這個彈簧在接收到500赫茲的聲音時會自動釋放,而500赫茲恰好是人們喊出「Rex」中元音的第一個共振峰。第一個真正基於電子計算機的語音識別系統出現在1952年,AT&T貝爾實驗室開發了一款名為Audrey的語音識別系統,能夠識別10個英文數字,正確率高達98%。70年代開始出現了大規模的語音識別研究,但當時的技術還處於萌芽階段,停留在對孤立詞、小詞彙量句子的識別上。

相關焦點

  • 人工智慧與計算機視覺
    前不久,vivo宣布成立AI全球研究院,將會加大對人工智慧多個領域包括知識圖譜、自然語言以及機器視覺等加大投入,深入研究開發創新性技術。  今年我們看到vivo在產品上不少創新,比如AI拍照、商用屏下指紋技術等等,這些都是基於生物特徵(biometrics)的鑑別技術,除此之外還有對人臉、虹膜、指紋、聲音等特徵上的識別,這些大多涉及到視覺信息,正是體現了計算機視覺的應用性,那什麼是計算機視覺呢?
  • 計算機視覺領域的人工智慧——記人工智慧技術應用專家陳秀新
    人工智慧是研究、開發用於模擬、延伸和擴展人智能的理論、方法、技術及應用系統的一門新的技術科學,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等,它由不同的領域組成,如機器學習,計算機視覺等等。其中,計算機視覺是使用計算機及相關設備對生物視覺的一種模擬。
  • 包括的領域有計算機視覺,語音識別,自然語言處理,圖像識別等
    現在人工智慧已經包括的領域有計算機視覺,語音識別,自然語言處理,圖像識別等。人工智慧的步驟人工智慧基本步驟包括,信息提取->信息分析->假設建模->學習->泛化,具體步驟。如果說計算機視覺是讓計算機看到一張黑白的二維圖像,那麼它可以識別字符串,可以通過圖像獲取某個標註的信息,它具有特定的識別圖像,可以從圖像分析出某個基本的結構。
  • 計算機視覺領域的王者與榮耀丨CCF-GAIR 2018
    在這背後,安防視頻監控與醫療影像,也成為眾多AI從業者尤為青睞的兩大行業。當計算機視覺研究與落地大潮湧動之際,第三屆CCF-GAIR全球人工智慧與機器人峰會「計算機視覺專場」,眾多科技巨頭首席技術官、獨角獸首席科學家、國際學術頂會主席、世界名校AI實驗室主任將會公開分享最前沿的計算機視覺技術研究與商用成果。
  • 人工智慧的技術結構是怎樣的
    基礎應用技術 當前人工智慧的商業化實現主要是基於計算機視覺、智能語音、自然語言處理等基礎應用技術實現,並形成了相應的產品或服務。本部分將在第三章進行詳細討論。 (二) 算法發展趨勢 當前,人工智慧算法已經能夠完成智能語音語義、計算機視覺等智能化任務,在棋類、電子遊戲對弈,多媒體數據生成等前沿領域也取得了一定進展,為人工智慧應用落地提供了可靠的理論保障。
  • 從CVPR到ICDAR 科大訊飛橫掃2019年度計算機視覺頂級會議多項冠軍
    從計算機視覺頂級會議CVPR的物體檢測挑戰賽DIW 2019到文檔分析與識別頂級會議ICDAR的手寫數學公式識別挑戰賽CROHME、場景文本視覺問答挑戰賽ST-VQA,這個6月不乏有一些計算機語言與人工智慧專業比賽陸續落幕。在這些行業賽事中,自然少不了科大訊飛的身影。
  • 人工智慧的產生源於古代人類對計算機編程幻想的各種可能性
    人工智慧領域發展到現在,不得不佩服人工智慧作為人類智慧源泉的地位。前不久看到阿爾法狗處於對弈狀態的時候,我就想如果阿爾法狗能夠戰勝人類,或許我們也可以順便把一些深度學習方面的科普知識講講,那麼人工智慧究竟是什麼呢?人工智慧的產生源於古代人類通過計算機編程了解或者說是幻想了各種可能性,現在的人工智慧基本上是以人類的思考模式來思考問題,依據人類與世界相通的物理學來研究世界。
  • 港科大教授權龍:三維視覺重新定義人工智慧安防
    接下來我要講的是當前計算機視覺存在的問題,以及為何三維視覺將重新定義計算機視覺,並且重新定義人工智慧安防。人工智慧的本質上是讓計算機去聽、看、讀,在所有的信息裡面,視覺信息佔了所有感官的80%,所以視覺基本上是現代人工智慧的核心。
  • 它為什麼比計算機視覺更重要?
    總的來說,自然語言就是指人類社會互相默認同時又區別於人工語言的一門獨特的語言,它區別於計算機的語言,就像python等等,這些語言有著嚴格的格式,與人類的語言有著本質的區別。同時,縱觀人類文明史,所有人類歷史的記載和流傳,以及代代相傳的知識與科學文化藝術等,這些文字信息佔到人類全體知識總量的 80%以上。
  • 百度大腦論壇如期而至,語音、視覺、語言與知識技術成熱點
    隨後,百度飛槳(PaddlePaddle)、百度 AutoDL、百度機器人技術、百度語音、百度地圖、百度智能視覺交互、百度大數據技術等諸多團隊負責人一一上場,為在場觀眾帶來了一場全面的技術盛宴除了視覺上的一系列應用,他也提到百度自動化建模在 NLP 中的應用,在中文情感分類任務中,這一技術取得了與專家手工調優將近同樣精度的效果,但大大節省了人工。百度語音技術解讀隨著此次開發者大會的召開,我們也看到百度在語音上取得的諸多突破。
  • 人工智慧開啟視覺處理新篇章:如何更好的理解這個世界
    作為人工智慧範疇中最關鍵的子領域之一(人類從外界獲取的信息中有80%~85%是依靠視覺實現的),計算機視覺技術的願景是利用攝像機等視覺傳感裝置來代替人眼對物體進行識別、跟蹤和測量,再由計算機處理這些視覺信息,從而達到像人眼一樣對事物進行感知和認知,直接對應安防監控系統「看得懂」的需求。2.
  • BAT人工智慧人才爭奪戰繼續,計算機視覺科學家任小楓加入阿里巴巴
    近日,黑智獲悉,原亞馬遜資深主任科學家(Senior Principal Scientist)任小楓正式確認加入阿里巴巴,擔任人工智慧核心團隊iDST的副院長和首席科學家。iDST是 阿里巴巴通過AI技術推動NASA計劃落地的核心團隊,通過阿里雲向各行業輸出技術及服務能力。
  • 探討計算機視覺前沿技術,加速智慧城市落地應用 | CNCC 2019
    19日下午,為探索計算機視覺與智慧城市發展,申省梅等著名學者將共同從學術和產業角度探討計算機視覺的場景解譯、人臉識別、人體姿態、視覺內容理解等前沿技術,以及在智能安防、自動駕駛等智慧城市建設方面的研究成果、發展前景與技術應用,值得期待!作為AI領域最熱門的研究與應用方向,目前計算機視覺技術在學術研究和產業落地方面都走在人工智慧發展的最前沿。
  • 港科大教授權龍:計算機視覺下一步將走向三維重建 | CCF-GAIR 2018
    他談到,當下因為深度學習技術的發展,人工智慧變得非常火熱,計算機視覺作為人工智慧的一個領域,也變得異常火熱。不過目前計算機視覺的研究和應用主要集中在「識別」,「識別」只是計算機視覺的一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向「三維重建」。
  • 智能語音前沿技術——發音檢錯糾錯和語音轉換
    智能語音前沿技術——發音檢錯糾錯和語音轉換 鄧佳佳 發表於 2018-03-22 15:38:49 近年來,人工智慧在國內外掀起了新一輪技術創新的浪潮
  • 人工智慧電視遠場語音設計
    人工智慧科學具有廣闊的發展前景和巨大的發展潛力,正確引導和規範人工智慧科學的技術性發展和應用,必將會給人類帶來巨大的財富[1]。  隨著大數據、雲計算、深度學習技術的不斷普及,語音技術的不斷優化,人工智慧越來越具備從"感知"到"認知"的能力,產品形態的智能化程度越來越高[2]。
  • 曾獲計算機視覺最高獎項,人工智慧學者朱松純加入北京大學
    朱松純教授受聘擔任北京大學講席教授、人工智慧研究院院長。據量子位消息,朱松純1986年考入中國科學技術大學計算機系,1991年取得學士學位。1992年赴美留學,4年後於哈佛取得了計算機專業碩士和博士學位。師從國際數學大師、菲爾茲獎得主、美國國家科學獎章獲得者,國際數學家協會前主席大衛·曼福德教授。其後朱松純先後在布朗大學、史丹福大學工作和任教。2002年開始,加盟美國加州大學洛杉磯分校(UCLA)任教,拿到終身教職,至今長達18年之久。
  • 計算機行業:人工智慧進入大規模商用階段
    投資要點:  上周回顧  上周計算機板塊(中信分類)下跌1.15%,漲幅排名位列30個行業中第23位,同期滬深300下跌0.59%。計算機板塊跑輸大盤。  本周觀點  人工智慧進入快速發展期。算力、算法、數據是人工智慧發展三個關鍵變量。
  • 從製造到零售,聯想計算機視覺技術持續推動行業智能廣泛落地
    作為擁有自主生產線的科技廠商,聯想的計算機視覺質檢技術擁有更強的應用場景適配性,從性能、速度和識別角度都更適合智能製造。除了與全球工程團隊合作開發智能製造解決方案以外,團隊也為智能物聯網設備提供圖像識別技術。聯想近期推出的個人云存儲設備就搭載了自研的照片自動識別功能,能夠智能識別用戶上傳圖片中的人與物體,為用戶進行分類和查詢。
  • 盤點中國十大計算機視覺公司
    從學科分類上,二者都被認為是ArtificialIntelligence下屬科目,不過計算機視覺偏軟體,通過算法對圖像進行識別分析,而機器視覺軟硬體都包括(採集設備,光源,鏡頭,控制,機構,算法等),指的是系統,更偏實際應用。簡單的說,我們可以認為計算機視覺是研究「讓機器怎麼看」的科學,而機器視覺是研究「看了之後怎麼用」的科學。