強化學習終於走出遊戲區,跨過產業落地的第一道門檻。
文 | 劉景豐
編輯 | 甲小姐
什麼是智能?
人的智能,不僅來自眼睛的看,耳朵的聽,更重要的,是大腦的決策。無數看不見摸不著卻時刻都在發生的決策,推動著我們將思維轉化為一言一行,讓人類真正有能力和現實世界交互。
美劇《復仇者聯盟3》中有一個畫面:在復仇者聯盟即將與滅霸進行大戰前,奇異博士用時間寶石推進了時間,瀏覽了未來這一戰可能出現的結果,預測到在14000605種結果中,只有一種是獲勝的結果。這是一種高級的智能。
商業的智能,不僅需要感知智能,認知智能,更重要的,是決策的智能。伴隨著時刻發生的億萬用戶的海量需求,企業要短時間內做出大量決策——研發環節如何減少試錯成本,製造環節如何減少迭代次數,營銷環節如何提升投放效果,此外還有電商平臺如何給不同用戶動態推薦產品,網約車平臺如何給不同司機動態派發激勵,物流倉儲平臺如何更快地揀選貨物……決策時刻都有需求,顯然,很難靠人力去實現大數據和個性化時代數以億計的決策需求。
如今,機器可以比人看得更清,算得更快,但讓機器取代人來直接做決策,一直是人工智慧的挑戰高地。
如果只看機器取代人做決策,這早已不是新鮮事兒。在遊戲環境中,機器的決策能力已超越人類。2016年,AlphaGo打敗人類頂級棋手李世乭;2019年,DeepMind Alpha Star在《星際2》中擊敗了99.8%的人類玩家。時隔多年,「AlphaGo們」仍沒有走出遊戲虛擬區——在真實環境裡,AI的決策能力仍未大放光彩。
為什麼在科技突飛猛進的今天,AI的決策能力——智能決策——仍難在真實場景中發揮作用?阻力在哪裡?如何打破這一瓶頸?
一家位於南京的AI企業,通過自己的實踐,為這些待解之題提供解題思路。
2021年1月9日,南棲仙策在南京發布旗下新一代智能決策系統REVIVE。其最大的特點是,讓強化學習通過一套通用流程就能在現實業務場景中應用,目前已探索出從研發、生產、物流到營銷等多個製造業環節的落地場景。
脫胎於南京大學人工智慧學院的南棲仙策,是一家專注於智能決策的人工智慧新銳公司,公司的核心能力便是通過推演億萬種結果,找到通向未來的最優決策,進而提供現實世界自主決策系統。
值得一提的是,南棲仙策並非按傳統數據挖掘的方式做大數據預測,而是根據數據模擬成環境,讓機器具有「想像能力」,並在此基礎上根據目標尋找最優的策略。
換句話說,南棲仙策正把「AlphaGo們」從遊戲搬到現實應用中。
更重要的是,比起近些年AI落地場景的「需求真偽」和「市場大小」之爭議,智能決策是各行各業古已有之的需求,而智能決策供給端終於出現了突破口。
如果一切實踐順利,一個由智能決策驅動的大時代將開啟。比起攝像頭讓機器看見,語音助手讓機器聽見聽懂,智能決策,將開啟一個更大的全面智能時代,商業將真正進化到下一階段。
1.時代呼喚智能決策
對於2020年的「雙11」,人們或許仍記憶猶新。在「雙11」期間(11月1日-11月11日),近8億消費者在天貓累計下單了4982億元,訂單峰值高達至58.3萬筆/秒。截至11日24時,天貓「雙11」實時物流訂單也突破23.21億單,約等於2010年全國快遞量總和。
這串讓人震撼的消費數據背後,隱藏著玄機。
表面上,用戶在天貓上通過關鍵字搜想要的商品是「主動」行為,實際其瀏覽的每個商品,都是平臺根據其喜好、需求精準推薦的。
將每秒數十萬的商品進行個性化推薦,如果讓人類去決策,可能僅耗費的人力就要數萬之眾,此外針對每個用戶的需求作分析也需要一個過程,對普通人而言,一秒之內也很難做出準確的決策判斷。
但機器就可以輕易完成。
真實的情況是,用戶在天貓通過關鍵字「搜索」商品行為的背後,他第一眼會看到什麼、在第一次點擊之後再給他看什麼,類似這樣的決策其實都是機器自主完成的。用戶看到的一切其實都是通過數據智能的算法自動形成的,不存在任何人為幹預。
這個案例,恰對應了阿里巴巴集團總參謀長曾鳴在其著作《智能商業》一書中總結的「智能商業」三個特徵:實時服務海量用戶,滿足每一個用戶的個性化需求,服務自我更新與提升。
電商,和訂單配送、出行打車、信息推送、自動駕駛等等眾多場景共同組成了智能商業,這是一個數萬億級別的市場。
曾鳴斷言,基於數據智能的商業必將超越1913年橫空出世的福特流水線,給人類整體的生產力帶來一次根本性的巨大突破。
在當下的時間點看,疫情倒逼著企業加速數位化,人工智慧推動著產業加速智能化,兩者共同推動商業智能的到來。近日,騰訊研究院發布的《2020騰訊人工智慧白皮書》中就提出,人工智慧技術與產業發展正在邁向「泛在智能」時代,未來中國不再有純粹的傳統產業,每個產業或多或少都將開啟數位化進程。
智能商業下的每一個場景,都面臨大量的服務決策需求,且動輒百萬量級、千萬量級,且要求決策實時完成,靠原來人力決策的方式根本無法滿足這一需求。在巨大需求之下,一種新的決策手段誕生了——智能決策。
實際上,目前人們對智能決策並沒有準確的定義。一種解釋認為,智能決策是綜合了人工智慧(AI)、商務智能(BI)、決策支持系統(DSS)、知識管理系統(KMS)、專家系統(ES)以及管理信息系統(MIS)的輔助決策支持系統,其本質還是通過改進決策流程,用大數據的方式輔助決策。儘管這種決策方法已經在現實中有了較多的落地應用,但其最終還需要決策者自己「拍腦袋」,因此天花板較底。
智能決策的另一種解釋則簡單得多——決策自動化,或決策機器人。南棲仙策聯合創始人、CTO秦熔均將其本質概括為「讓機器自主決策」。它背後則涉及一種時下熱門的硬科技——強化學習。
這一複雜的人工智慧技術,可使機器自主完成從採樣到學習的過程,進而自主決策。
理論上,這種技術可自主決策,不再需要決策者去「拍腦袋」。然而,這一跟人工智慧概念幾乎同時期誕生的智能決策理念,在很長一段時間內,只能在遊戲中展示和應用。當人工智慧發展到今天,大眾對智能決策的期待早已不是局限在虛幻的遊戲世界,而是如何在真實環境中解決問題。
「我們更願意說『智能決策』,而不是『決策智能』,就是希望強調自主決策能力的應用。」秦熔均對「甲子光年」表示。
2.走出遊戲區
強化學習誕生以來,就一直通過遊戲來展示自己的能力。從1997年前西洋棋世界冠軍卡斯帕羅夫被IBM的深藍(Deep Blue)計算機擊敗,到2016年AlphaGo戰勝世界頂級圍棋棋手,20年間強化學習的智能決策本領接連在不同遊戲中超越人類,但問題是,它仍未擺脫遊戲環境。
強化學習走不出遊戲區,是有原因的。
其中一個原因是,強化學習需要了解決策後果,而很多情況下這只能在決策執行後看到,因此強化學習需通過「試錯」來完成學習。
本質上看,象棋、圍棋等遊戲都屬於封閉環境,具有清晰明確的運行規則,可在計算機中以100%的精度模擬。因此該環境下的強化學習試錯數據幾乎是免費獲得。唯一的開銷只是支撐計算機運行的電力。
而真實業務場景是開放環境,環境運行規則不明。一旦試錯會產生巨大的代價,輕則商業客戶流失,重則發生致命危害,如自動駕駛事故等。
如何既用深度學習發揮智能決策的巨大價值,又降低開放環境中的試錯成本?這個「魚與熊掌」難題,曾困擾著許多強化學習研究者,其中就包括俞揚。
從2004年進入南京大學周志華教授的LAMDA研究組求學,俞揚在人工智慧領域已有超過15年的研究經歷。2011年,俞揚在周志華教授指導下獲得南京大學博士學位,研究方向正是機器學習。此後,俞揚集中在強化學習理論與應用技術領域的研究,並於2018年獲聘南京大學人工智慧學院教授。
對強化學習了解越深,俞揚對「讓強化學習走出遊戲」的想法就越強烈。
轉機出現在2016年底。AlphaGo的光彩閃耀,讓網際網路頭部企業看到強化學習的巨大價值,並希望拓展應用。隨後,淘寶搜索組找到俞揚博士,希望進行一項校企合作項目。
這個項目是「如何在淘寶上創建搜索和推薦的模擬器」。
此前,淘寶面臨的問題正是強化學習的「老大難」——在商品搜索和推薦決策中的使用成本過高,無法真正落地。
2017年,在與淘寶搜索團隊討論後,俞揚向阿里提交了「虛擬淘寶」模擬器項目申請,試圖從歷史數據中學習出一個有虛擬用戶的環境,有了這個環境,便可以實現「0成本」訓練強化學習。項目申請提交後,俞揚團隊很快收到了阿里評審專家的質疑:用戶行為如此複雜,從沒有方法能成功模擬,這個項目能行得通嗎?
以往對於環境模型學習的理論分析顯示出,環境模型的誤差會導致策略誤差平方級增長,模擬一個好的環境可能比直接學策略還要困難。
在當時看來,這樣的構想此前沒有任何成功案例,而且團隊也沒有經驗,缺乏信心。但這是俞揚預見的唯一可行的途徑。成功只剩這一條路,只能硬著頭皮試試看。
在跟阿里評審專家進行了多次溝通後,俞揚頂著失敗的風險繼續嘗試。這套「虛擬淘寶」模擬器,是一套針對電商平臺的虛擬仿真系統,其目的是幫助平臺實現更合理的運作機制,平衡微觀執行和宏觀決策的一致性問題。
從技術上看,這一過程極其複雜,但其運行過程與《復仇者聯盟3》中的奇異博士用時間寶在14000605種結果中尋找獲勝結果一樣。
「虛擬淘寶」是通過模擬器克隆多個虛擬用戶,並對其實施基於強化學習的商品推薦,從中找到最優策略。慶幸的是,俞揚不僅實現了在開放環境中低成本使用強化學習決策,還將原來平方級的誤差降低到線性——誤差回到可控範圍。
使用強化學習構建的「虛擬淘寶」架構
事實也證明了這一方法的優越性。該項目的研究結果顯示,「虛擬淘寶」模擬器能夠忠實反映真實環境中的特徵,將其用於訓練強化學習,可以避免試錯的代價。訓練出的模型於2018年上線測試,在現實業務中獲得了2%的性能提升。
這一結果,第一次展示出環境學習途徑在真實場景應用的可行性,證明了俞揚的判斷是正確的。「虛擬淘寶」的探索,也為後來的淘寶國際項目中的搜索推薦任務提供了寶貴的研究積累。
阿里巴巴達摩院機器視覺團隊負責人徐盈輝對「甲子光年」表示,「智能決策在阿里巴巴整個業務版圖裡,已起到至關重要的作用。」在電商平臺上帶約束的供給(平臺流量)和需求(商家)的在線匹配機制,新品推薦策略中應用的規模化賭博機和半賭博機算法,以及為商家智能發布所研發的基於上下文的賭博機算法,還有傳統供應鏈、物流運輸領域,都有智能決策的身影。
此後,俞揚又接連與滴滴出行、菜鳥倉庫等公司合作,在網約車、倉儲揀選優化等多個真實開放場景中,進一步驗證了該技術路徑,打磨了算法。以菜鳥網絡倉儲揀選優化為例,此前只是按照路徑最優的方式給工人派單,但南棲仙策模擬了無數種可能的派單策略下工人的工作效率,最後從中選擇了最高效的策略。
最終結果顯示,該技術可將一個天貓倉庫揀貨時間在人工優化幾乎到頭的情況下,再縮短超過10%。
至此,強化學習終於走出遊戲區,跨過產業落地的第一道門檻。
3.解開落地之困
2018年,強化學習在現實環境中的多次成功應用,讓俞揚有了更強的信心,同時也看到了一片藍海。
「我們拿著強化學習的技術跟企業去合作,在別人看來這不過是一個探索的項目,也不會投入太多資源來推動這件事。」俞揚說。與此同時,俞揚的博士生、後來成為南棲仙策聯合創始人和CTO的秦熔均也對強化學習的落地應用充滿了憧憬,「非常希望能有一次契機和俞老師合作,我覺得公司的研究和項目與在學校裡非常不同,有更多機會接觸產業界的問題,不僅要仰望星空,還要腳踏實地。」秦熔均告訴「甲子光年」。
另一方面,需求確實存在。南棲仙策COO徐亮是俞揚的大學同學,不同於俞揚的學術經歷,徐亮自大學畢業就一直在產業界摸爬滾打,產業落地經驗十分豐富。
計算機專業出身的他,從2017年開始,對自己所從事的行業越來越感覺「不適」了。
「那時候,很多企業開始了數位化轉型、智能化轉型。就是裝一些傳感器,傳感器再把數據收集後放到數據中臺。」徐亮回憶,「其實很多企業只是把數據收集起來,但並沒有產生價值。」
儘管在當時看來,智能化的趨勢已經顯現,但實際中智能化的應用卻有名無實。數據原本是為了提升生產和決策的效率,但由於各種約束,數據只能躺在資料庫裡,並未產生明顯的決策價值。
要讓這些數據真正發揮決策價值,還需要一些更落地的解決方案。
2018年9月30日,在南京大學人工智慧創新研究院新型研發機構的孵化促進下,南棲仙策(南京)科技有限公司成立。
公司最初選擇的方向是自動駕駛中的智能決策。在與更有經驗的投資人溝通後,俞揚改變了想法。「決策只是自動駕駛的一個環節,自動駕駛的很多環節都不夠成熟,即使我們把決策做好,也無法解決整個問題。」俞揚告訴「甲子光年」。南棲仙策的天使投資人湧鏵投資近年來積極布局AI前沿產業,2016年天使輪投資了寒武紀,回報頗豐。在談及與俞揚教授的交集之時,湧鏵天使基金合伙人洪亦修笑道:「我們預感到人工智慧可能處在爆發前夜,陳天石是教授創業,而國內人工智慧的頂級學術圈子並不大,自然而然也就認識了俞揚教授。」
洪亦修告訴「甲子光年」,「作為天使投資人,更多的是信任和幫助,我們完全信任南棲仙策團隊在核心科研上的實力和優勢,更多的是在商業和戰略等方面提供幫助」。他認為,南棲仙策智能決策最大的潛力是通用性,它適用於包括製造、物流、營銷等很多場景,凡是需要做決策的地方就有應用的可能性。而我國既是全球最大的生產國也是最大的消費國,因此南棲仙策的產品在提升生產效率和促進消費方面都具有巨大的想像空間。
與洪亦修深入溝通後,南棲仙策開始了通用場景的強化學習應用,並形成四大核心技術:構建虛擬世界、高效強化學習、對抗攻擊訓練、在線模型適配——這四項技術,進化出一套「現實世界自主決策系統」。
說起來容易,但如果面對這樣的決策系統,客戶依然顧慮重重。最大顧慮是:如何保證虛擬環境下的決策能適用於真實環境?
為了解決這一顧慮,南棲仙策做了兩件事。
首先,在理論上證明其優越性。2020年俞揚帶領團隊成員,花了一年半的時間,最終用理論證明了在學習環境模型時,強化學習的方法性能好於傳統監督學習。這一理論已形成論文,並於2020年11月在NeurIPS 2020(2020年度國際人工智慧頂會)上發表。
其次,還要保證從虛擬環境到現實環境的可靠性。為此,秦熔均打造了南棲仙策檢驗標準,上線前對決策系統進行檢驗,以確定其和現實環境的擬合程度,並形成評分,直到達到要求。
經過這兩個環節的驗證,幾乎就可以確保決策系統的可靠。
但俞揚對該決策系統的要求並不止於可靠,「我們決策系統的優勢在於,它有想像力,能做出歷史上沒有見過的決策。」好比AlphaGo Zero沒見過人類下棋,就能學會各種下棋策略。
如今,南棲仙策智能決策已經在一些場景中完成落地。
「中國是個製造業大國,如果能在製造業場景把智能決策賦能上去,那能帶來很大的價值。」徐亮告訴「甲子光年」。製造業分幾個場景,第一個場景是研發階段,需要從初始狀態找到更接近目標的過程或者參數組合,這個目標肯定有很多;第二是效率最大化的場景,或者性能最好,或者成本最低,對於研發過程中可能有這樣一個目標的定義。
為了實現這個目標,南棲仙策通過不斷的試驗來完成這個目標,比如不斷調整參數做試驗,就是試錯的過程。但真實場景中試錯帶來的代價很大,業務人員第一反應就是能不能用模擬器的方式把這個東西實現,在過程中智能決策就能自然而然派上用場,幫助企業降低試錯成本。「我們正跟一家汽車廠商合作,幫助它們研發智能決策。預計可大幅減少測試次數,加快新車上市的時間,為車企贏得競爭力。」徐亮補充道。
實際上,在南棲仙策的探索下,基於強化學習的智能決策系統已經有了頗為清晰的應用路徑:在研發環節,可減少迭代次數,提升研發效率;在生產環節,可優化產線配置,加快製造流程;在物流環節,通過優化揀選方案,提升物流環節效率,降低成本;在營銷環節,則可改善投放策略、精準投放群體,進而提升銷量。
南棲仙策智能決策系統可應用場景
讓俞揚引以為傲的是,儘管谷歌的AlphaGo曾讓深度學習名揚天下,但南棲仙策是全球第一個將這一技術走出遊戲,並用於真實業務環境的。從這個意義上講,南棲仙策自主決策系統具有劃時代的價值。
4.中國AI的真機會
基於強化學習的自主決策系統雖然價值巨大,但其「高冷」的外表讓很多人對其望而卻步。
「我們接觸的很多人,包括客戶、投資人,都看不懂我們的技術,不知道我們到底是做什麼的。」俞揚對「甲子光年」稱。即使客戶有意願使用這套智能決策系統,也需要一定的門檻。
如果研發出來的產品沒人用,那它的價值就等於零。
所以對南棲仙策而言,一個重要的任務就是,讓這套智能決策系統更普適。「我們希望產品是,扔進去數據,就出來決策結果。通過走一套通用的流程就可以投入實際的業務場景當中去。」南棲仙策COO徐亮解釋稱。
這個願望,已經接近實現。2021年1月9日,南棲仙策在南京發布了旗下新一代智能決策系統——REVIVE。南棲仙策產品副總裁李濟君在發布會上稱,REVIVE要做的事,就是以強化學習算法為基礎,形成一個通用產品,再將這個通用產品應用到各行各業,「用戶不用關注算法的細節,只需要關注自身業務。」
REVIVE系統的特色在於,用戶只需根據系統內的模版,將excel等數據表上傳到系統,描述業務邏輯,系統就可以自動訓練模擬器,並學習得到策略模型,應用到實際生產中。
REVIVE工作流程
REVIVE已經能做到以目標為導向,輸入當前業務當中需要最優化的維度,策略模型就可以輸出一個決策結果。
如此一來,其使用門檻大大降低,基於強化學習的自主決策系統就變成一個人人可用的產品。
南棲仙策強化學習落地的速度不斷加快,也引起了越來越多同行業團隊的關注。
在國際上,此前Google、DeepMind、Berkeley等世界知名人工智慧機構的研究方向是虛擬環境下的決策系統;如今這些機構的學者,也把目光放在如何讓強化學習走出遊戲環境上。他們推動「離線強化學習」、「數據驅動強化學習」方向的研究,並建立了測評環境。照此下去,不出幾年,走出遊戲環境將成為強化學習領域的主流研究方向之一。
在俞揚看來,強化學習技術大規模應用後,將帶來重大變革,技術弱勢的競爭者可能會面臨來自算法的打擊。但國內在基於強化學習的智能決策領域布局的公司非常少,通常的做法是從數據中利用一些進階的規則輔助決策。
「這是個起點,也是我們的機會。中國AI企業需要突破原始創新能力,如果能抓住這一時機,促進強化學習在真實商業場景快速應用,很有可能實現人工智慧應用的彎道超車。」甲子光年副總裁李世民表示。
根據李世民的測算,目前該技術面向任一適用領域的市場空間都在百億級以上,前景十分廣闊。
在這一機遇之下,南棲仙策已開始與相關企事業單位的合作,率先將強化學習技術落地在我國製造、物流、服務等行業以及在國防應用中,為我國的產業智能化升級和國家安全做出貢獻。
在學術研究方面,俞揚聯合發起了亞洲強化學習研討會,並承擔了多屆研討會的組織;他還擔任了2020年在南京舉辦的國際分布式人工智慧會議程序主席,該會議以智能體和多智能體為主要議題;在今年剛過去的1月9日南棲仙策智能決策發布會上,南棲仙策還與多家單位一起,發起成立CCF多智能體系統專業學組——智能決策對抗MeetUp暨智能決策開放研究聯盟,聯合企業應用優勢與高校基礎研究優勢,為中國AI研髮帶來更多正向助力。
但這條路並不好走,甚至還要面對質疑。
「歷史其實都是這樣,往後看滿是道理,往前看全是質疑。不如堅守自己的信念,開始自己的徵途,讓強化學習在真實決策問題上落地,創造不同的世界。」這是俞揚的感慨,也是他的追求。
END.