深度學習技術在人工智慧領域目前佔有絕對的統治地位,因為相比於傳統的機器學習算法而言,深度學習在某些領域展現出了最接近人類所期望的智能效果,同時也在悄悄的走進我們的生活,例如刷臉支付、語音識別、智能翻譯、汽車上的智能輔助駕駛等等,這讓我們的生活開始慢慢智能化,那具體在哪些方向深度學習表現的最為耀眼吶?
1 計算機視覺
圖像識別:圖像識別是最早深度學習的應用領域之一,其本質是一個圖像分類問題,早在神經網絡剛剛出現的時候,美國人就實現了對手寫數字的識別,並進行了商業化,基本的原理就是輸入圖像,輸出為該圖像屬於每個類別的概率,例如輸入一種狗的圖片,我們就期望其輸出屬於狗這個類別的概率值最大,這樣我們就可以認為這張圖片拍的是一個狗。經典的圖像識別的網絡有VGG系列、Inception系列、ResNet系列等。
目標檢測:目標檢測就是通過深度學習網絡的訓練和學習,能夠自動找到圖片中目標的大致位置,通常用一個矩形邊界框來表示,並將邊界框所包含的目標進行圖像分類,目前比較優秀的目標檢測算法有:YOLO、SSD、RCNN、FastRCNN、FasterRCNN、MaskRCNN等系列算法。
語義分割:圖像分類是對整張圖片進行分類處理,而語義分割就是對圖片中每個像素進行分類處理,通過算法設計自動將圖片中不同物體的像素進行分類識別,準確的標註出物體在圖像的位置。常見的語義分割算法有FCN、U-net、SegNet、DeepLab等系列算法。
視頻理解:視頻可以理解為在二維圖像上加入了時間信息,變成了具有3維信息的圖像分析,視頻理解囊括了視頻分類、行為檢測等常見任務,常見的算法模型有C3D、TSN、DOVF、TS_LSTM等。
圖像生成:圖像採集一般都是通過相機等外界設備拍攝真實環境得來的,但通過一定的學習算法,可以從大量真實的圖片中學習到真實圖像的分布情況,進而生成具有與真實圖像高度相似的圖像,這就是圖像生成技術。目前最流行的技術有VAE系列和GAN,其中GAN系列發展迅猛。
超解析度圖像:超解析度圖像生成技術(SR)可以將觀測到的低分率的圖像重建出高分辨圖像,說白了就是通過軟體的方法提高圖像的解析度,這種技術目前也在各大手機攝像頭解析度上有所使用,一般我們看到的攝像頭解析度參數並不是實際物理成像sensor的解析度,都會加入數字解析度的。
藝術風格遷移:通俗點講就是學習一副畫的style,然後採用學習到的style,將一副內容圖像進行重畫,也是一個非常有意思的研究方向。
2 自然語言處理
機器翻譯:傳統的機器翻譯模型採用是基於統計分析的算法模型,可想而知,對於複雜的語言表達邏輯,效果並不佳,而基於深度學習的機器翻譯,讓機器翻譯出來的結果更加接近人類的表達邏輯,正確率得到了大大的提高,創建的機器翻譯模型有:Seq2Seq、BERT、GPT、GPT-2等。
聊天機器人:讓機器人能夠理解人類的語言,並作出一定的語言反應,進而達到人機對話的目的。聊天機器人已經廣泛的應用在諮詢系統、智能家居等。
3 強化學習
虛擬遊戲:在虛擬遊戲中,機器可以通過自我模擬,自我訓練,自我測試,讓機器在一定遊戲規則下,學習到好的戰勝策略。在圍棋界,Google訓練的DeepMindAlphaGo就戰勝了圍棋高手李世石,這讓深度學習輕鬆攻陷了人類自以為傲的思維頂端遊戲。
機器人:藉助深度學習的力量,機器人可以在真實複雜的環境中,可以代替人執行一定的特殊任務,如人員跟蹤、排爆等,這在過去是完全不可能的事。做的最好的要屬美國波士頓動力公司開發的機器人,其在複雜地形行走、肢體協調等方面取得了巨大的進步。
自動駕駛:現在很多網際網路大公司都在自動駕駛上投入了大量的資源,如國內的百度、美國的Google公司、Uber公司等,在自動駕駛中,就應用了大量的深度學習技術,如馬路線與路標的檢測、周邊行走車輛的3維信息等。