本文是
王川: 深度學習有多深? (十七) -- 衡量GPU的計算能力
的續篇.
(1)
迄今為止我們討論的人工智慧的問題,都還是局限在"認知"方面的應用, 比如圖像識別,語音識別,自然語言處理,等等.
這類問題的特點是,機器獲得大量原始數據的培訓. 每一個輸入,都有標準的"輸出"的答案. 這種學習方式,也稱為"有監督學習".
但是生活中大多數問題,是沒有標準正確答案的.你的所作所為,偶爾會得到一些時而清晰, 時而模糊的反饋信號. 這就是"增強學習" (Reinforcement Learning) 要解決的問題.
"增強學習"的計算模型,最核心的有三個部分:
1. 狀態 (State): 一組當前狀態的變量 (是否吃飽穿暖, 心滿意足? 是鬱鬱寡歡, 還是志得意滿? )
2. 行動 (Action): 一組可以採取的行動變量 (是努力工作, 還是遊山玩水? 是修身養性, 還是夜夜笙歌? )
3. 回報 (Reward): 採取行動, 狀態改變後,把當前獲得的回報定量化. (喝酒就臉紅, 吃多了就發胖, 大怒就傷肝, 工作超過八個小時身體就被掏空, 等等).
增強學習的最終目的,就是在和外界環境的接觸/探索/觀察的過程中,不斷改進策略,把長期的回報/利益最大化而已.
(2)
增強學習的理論基礎, 要從運籌學裡的"貪婪算法" (Greedy Algorithm) 說起.
什麼是貪婪算法? 簡單說,就是,任何時候的決策,都是選擇當前觀察的最優解,而沒有整體長遠的規劃.
貪婪算法的優點是容易理解,簡單快速.但缺點是,得到的往往是局部最優解,而不是全球最優.
在子女教育中,"不要讓孩子輸在起跑線上"就是一種典型的貪婪算法的思維.那些放棄自己的努力,而把希望寄托在下一代的家長們,處心積慮地尋求當前最優解. 他們把孩子推送到重點幼兒園,重點小學,重點中學,重點大學,讓各種小提琴/鋼琴/奧林匹克數學培訓班佔用孩子的業餘時間,生怕孩子看上去比別人落後一點點.
但是學校教授的技能和社會需求變化往往存在嚴重脫節,同時大多數孩子缺乏對挫折和壓力的靈活應對的訓練. 當孩子從學校出來走向社會時,巨大的落差導致的各種不適應和問題就出現了.
郭德綱老師在一次訪談中,深刻地指出, "吃虧要趁早,一帆風順不是好事. 從小嬌生慣養,沒人跟他說過什麼話,六十五歲走街上誰瞪他一眼當時就猝死".
這就是對"貪婪算法"在兒童教育上的局限性的最無情犀利的鞭撻.
(3)
動態規劃,英文是 Dynamic Programming, 直譯為"動態程序", 這個概念由美國數學家 Richard Bellman 在1950年提出. 它是在貪婪算法的基礎上改進的算法. 實際上它和"動態","程序"兩個概念沒啥關係.
據 Bellman 老師介紹,當初為了忽悠政府的經費,就使用了"動態"這個詞.動態,給人一種靈活,性感,高大上的感覺.誰會對"動態"說不?
動態規划算法的本質,是把一個複雜的問題拆分為多個子問題,並且把子問題的答案存儲起來,避免以後的重複計算.
由於動態規劃是從全局分析問題,所以往往可以找到全局最優解.但它的局限是,
第一, 計算量大,需要窮舉和存儲子問題的解答方案.
第二,動態規劃的隱藏的假設是一個叫做"最優化原理"的東西,就是說,最優化的解決方案,可以通過其子問題的最優解決方案獲得. 換句話說,最優化問題的子決策,對於相應的子問題也是最優的.
什麼樣的問題不符合"最優化原理"?
一個典型的反例, 從點 A 到 點 B 的機票,最便宜的路線選擇,是要到點 C 轉機. 但從 A 到 C 最便宜的機票 (子問題), 卻要從 點 D 再轉機.
(未完待續)
==============================
點擊下面連結獲得本公眾號的介紹
王川: 如何從我的公眾號 investguru 裡面獲得最大的收穫
在投資和事業發展的路上如何集思廣益,舉重若輕?歡迎加入王川的俱樂部,這是一個凝聚來自世界四大洲各行各業精英的高端收費社區.有意入會者請和王川(微信號: 9935070) 直接聯繫。
作者簡介:王川,投資人,中科大少年班校友,現居加州矽谷。個人微信號9935070,公眾號 investguru ,新浪微博「矽谷王川",知乎專欄 "兵無常勢". 文章表達個人觀點僅供參考,不構成對所述資產投資建議,投資有風險,入市須謹慎.
<王川自選集> 第一卷電子書,現可在百度雲盤上免費下載,訂閱本公眾號後,在公眾號菜單右下角點擊"電子書", 即可獲得下載指令. 總共收錄我過去一年五十多篇原創的財經科技評論文章,近三百頁,歡迎下載傳閱!)
長按下面二維碼訂閱本公眾號. 訂閱後輸入'目錄『兩字看看你錯過了多少好文章!