香港科大商學院聯合零壹智庫共同推出《袁老師訪談錄》直播訪談欄目,聚焦在科技與商業領域,訪談知名學者和企業家。
本期訪談嘉賓是汪揚教授,他是大數據與人工智慧方面的專家,不僅在香港科大先後建立了大數據專業的本科與研究生學位課程,還鼓勵學術界與工業界的合作,開拓了一系列與工商業界合作的項目。在本次訪談中,主要圍繞大數據、人工智慧和區塊鏈等話題與教授進行了交流。
本期嘉賓介紹
汪揚教授本科畢業於中國科技大學,畢業後在哈佛大學菲爾茲獎得主David Mumford教授的指導下研究計算機視覺理論,並於1990年獲得哈佛大學數學博士學位。汪揚教授曾任喬治亞理工學院教授,密西根州立大學系主任。自2016年起汪揚教授擔任香港科技大學理學院院長,是美國數學與應用研究所(IMA)的理事會成員,深圳大數據研究院理事成員,香港Research Assessment Exercise(RAE)的委員會成員。
汪教授對純數學和應用數學有著廣泛的研究興趣和重要的學術貢獻,研究重點包括小波、調和分析、數位訊號和圖像處理、機器學習、分型幾何等領域。在國際頂級研究期刊上發表了100多篇研究論文。汪教授擔任多個知名期刊的主編及編委成員,同時近幾年也承擔了多個研究項目,如香港研究資助委員會項目、香港創新科技基金項目等,項目總經費超千萬港幣。
以下為訪談全文:
袁老師:現在有很多數學模型和方法用於對「新型冠狀病毒肺炎」進行判斷,您是不是也設計出了一些數學模型呢?
汪教授:我自己在網上看了幾十個模型,我個人持以下的觀點,就是不要太相信這些模型,至少不要相信這些所謂專家的預測。因為這些模型從歷史的角度看,都會跟實際差的很遠,而且即使跟實際是吻合也是碰運氣。但也不是說這些模型沒有用,這些模型在短期內可以告訴你趨勢,但是不要把它作為長期的判斷。
我覺得我們從事數學工作的研究人員也好,或者哪怕對數學比較了解和學過一些數學的人也好,都比較喜歡嚴謹的邏輯,很多時候我們在看到一個結論後,經常要問的是怎麼得到這個結論,然後再順著他的思路走下去看看他的假設,你會發現有非常合理的部分,但是有更多的地方是不合理的,或者完全是誤導。
這裡大概最有名的例子就是英國政府所謂的群體免疫,英國政府大概有一段時間,包括首相詹森都說英國可能失控,但是沒有辦法,所以就提出群體免疫。群體免疫的意思基本上就是說想控制這個病,必須把這個傳染因子降到1以下,最後不可能蔓延下去,就是控制住了。
只有被感染的人才應該戴口罩,而健康的人不應該戴口罩。從我讀過的學術報告來看,除非戴N95口罩,否則普通的外科口罩或其他口罩在阻斷病毒傳播方面作用不大。然而,即使是最便宜的口罩對被感染者呼出或咳嗽的病毒也能阻隔90%以上。雖然CDC使用了確實是倡導應用的有科學來源的防護措施,但只有大家確切知道誰是健康人誰是感染者時,CDC的建議才是合理的。但在現實中,人們在確診之前很難知道他們是否被感染。
袁老師:其實很多數學的模型是基於一些假設,而這些假設都是存在很多不確定性,所以這個模型的預測也就存在很多的不確定性。我們說數學不是萬能的,但是我們通過數學可以看到一些不成立的假設。
袁老師:汪院長從數學家的角度分析了全球疫情情況,打開了我們的思路。下面我們還期待汪院長進行他的主題分享--新經濟裡的數學故事。
汪教授:今天我們就聚焦在機器學習數學哲理和加密算法與應用。
數學基礎就是機器學習。傳統的系統就是輸入和輸出,比如從這張圖片上我們可以快速分辨出是貓還是狗。我們做科學研究的時候最好要找到科學的系統,比如說水的沸點和海拔有一個關係,我們可以構造一個公式。這個公式可能不完全對,但是在某些場合下是一個逼進;還有很多情況我可以做一個列表,通過輸入列表得到一個輸出,這在數據比較小的時候是可以做的,數據比較多的情況下我還是要做一個回歸,回歸就是逼進。傳統系統最重要的特點就是要得到這個盒子裡到底在做什麼。
很多科學家不認為中醫是科學,很多人覺得中醫說不清道理。但是事實上中國上千年的歷史裡都在用中醫,在很多問題上是很有效的。而有些人之所以認為中醫不是科學,最大的理念是科學的問題,我們不知道這個盒子是什麼東西,所以我們不認為它是科學。但其實在自然界中,很多事情都是非常複雜的,不大可能真正把所有的變量、所有的因果關係都搞清楚,可能永遠都不知道這個盒子是什麼東西。
機器學習應該說是最近幾十年興起的,建立一個所謂的黑盒子模型,是經過大量的數據訓練出來的,可以理解是比較複雜的回歸。建立這個黑盒子就是我們所謂的機器學習。
我們通常是沒有辦法解釋這個黑盒子是做什麼,現在也有很多科學家在研究到底怎麼解釋機器學習得來的結果,我們叫可解釋的機器學習。所謂的黑盒子模型在很多複雜的實際問題中的效果是碾壓傳統手段的。比如看醫學圖片是現在AI或者是大數據在應用中一個比較成熟的領域,現在這種圖片用機器學習方法來做都可以達到跟人差不多或者更好的水平。
我認為非常有意思的一個事情叫做GAN,即對抗生成網絡。它有兩個網絡,一個是鑑別真偽,一個是造假。圖中這些人臉是用GAN生成的,全部是假的。原理就是用現有一大批真的模型去訓練,訓練以後就可以去造出一個鑑別真偽的網絡,但是我同時可以構造另外一個假的神經網絡,所生成的東西就會有一個對抗的關係,就是對抗生成網絡。
我個人對人工智慧和機器學習生成的抽象畫比較有興趣。於是我就設計用人工智慧的辦法生成抽象畫,成品效果就在下圖中,我覺得還是蠻好的。
我們機器學習和人工智慧那麼強大,會不會有一定的隱患?我曾聽到一個說法,說數據就是「新石油」,但是應用不當就可能被濫用,有可能侵犯隱私,在國內大家也越來越注重隱私的保護。解決隱私問題很重要的一個環節就是加密。加密現在大概分三類,一類叫所謂的對稱加密,第二個是非對稱加密,第三個就是哈希函數,哈希函數有很多的應用,最大的應用是區塊鏈。
對稱加密就是傳統的加密,加密通過有一個密碼或鑰匙,如何編碼和解碼是一樣的,在1976年之前歷史上所用的加密方法都是對稱加密,比如圖靈及其團隊在二次大戰期間破解了德國海軍的密碼。
後來發展到非對稱加密,特點是加密的鑰匙可以是公開的,所有人都知道是怎麼加密,但是解不了這個密碼,加密的鑰匙和解密的鑰匙是不一樣,這項技術是在1976前後奠基的。
而單項哈希函數是另外一個概念,沒有什麼解密的碼,任何一個文本都可以設一個序列號,這個序列號有一些基本信息是不可逆的,但拿到這個序列號以後回不來,沒有辦法構造文本。
但是這些現在還是沒有辦法做到所謂的保護隱私,一些新興的加密技術現在有一線曙光。可能最接近落地的一個是零知識證明,另外一個叫安全多方計算(MPC),還有一個是同態加密(HE)。
零知識證明要解決的問題是它能夠驗證你的確是知道這個秘密,但是同時不暴露這個知識和秘密。用的技術就是隨機打亂次序,但是要把這個算法推廣還有一些挑戰。
安全多方計算(MPC)解決的核心是N個人都不想洩露自己的數據,但是又想知道公共的結果,這就是MPC。
同態加密,是我們密碼學的聖杯,可以把數據完全加密以後還可以做任何的計算,如果我們能實現這一點的話,就可以把任何數據都放在雲端,就不會擔心別人會去洩密或者是別人偷了你的數據用,因為你完全是保護的。後來經過微軟大力的推動,現在離落地已經非常近了。
袁老師:談區塊鏈就會談數字貨幣,您怎麼看未來的數字貨幣發展?比如說央行的數字貨幣、比特幣,libra等等。
汪教授:這是不可避免,一定會走這條路。很多國家和歐盟可能也會考慮推出,這只是一個時間問題。
數字貨幣有非常多的優勢,比如說它可以在金融流動方面、交易方面大大降低成本和增加利潤,在管理方面也會變得非常容易,尤其是以區塊鏈為基礎的虛擬貨幣。
央行推出DCEP的時機是非常成熟的。臉書推出Libra,現在看來阻力非常大,這是可以理解的,這是顛覆性的,有可能顛覆一個國家的主權,因為臉書本身至少有30億的客戶,如果它搞出一個貨幣,這30億人的力量遠遠高於很多的主權國家,很多政府對它有戒心,這不難理解。
袁老師:您在2016年就擔任香港科大理學院院長,在香港科大的四個學院中,您也是四個臺柱子之一,那我們理學院有什麼突出的成績?
汪教授:我更想說的是因為現在整個國際形勢,很多同學在考慮以後要到什麼地方去讀書,我還是覺得香港科大是非常好的選擇,我們理學院非常歡迎大家來申請。
從理念上看,我們這個學校從創辦以來一直是扎紮實實做科研教育,我們是非常聚焦的。我們學校也是非常具有國際化視野的,非常注重人才的引進,就像前段時間我經手的引進騰訊前AI Lab的主任張潼教授,他現在已經正式成為我們香港科大的計算機系和數學系教授,並擔任香港科大和創新工場聯合實驗室主任。
我們在做好基礎科研的同時,也都注重發展一些戰略方向,比如說我們最近也成立了海洋系,而且我們在很短的時間內就招聘了相當多位國際上非常優秀的年輕老師。
我們理學院和香港科大其他學院一樣非常注重創新,不僅做學術,我們也鼓勵學生去創新。比如說前面直播的嘉賓溫院長,他就是我們理學院物理系的教授,他做的病毒檢測儀是第一個,甚至說是唯一一個應用PCR技術的可攜性測試儀。
袁老師:我們今天也是問診未來系列,未來您覺得人工智慧會更加助力人類、還是給人類帶來一些傷害?您是樂觀派還是悲觀派?
汪教授:我是一個樂觀派,我個人認為人工智慧會給社會帶來很多的進步和利益,但是不能讓他們無控制的發展、沒有限制的發展。如果我們讓它無限制的發展,沒有任何法律等,我不願意說這是一個災難,但是一定會導致很多的社會問題,而且會導致最後社會的不平等的加劇。
但是如果我們能夠有效的加上一些邊界條件,對人工智慧發展有一些前提性約束的話,我個人對它的前景還是非常樂觀的,我認為它是往一個對社會造福的方向發展的。
袁老師:接下來我們從各個直播間選取幾個觀眾的問題請汪院長回答。第一個是21世紀經濟報導的問題,很多網絡從業者將大數據分析都說是人工智慧,有些人說這些不是人工智慧,只有做到機器學習的計算才可以算人工智慧。您怎麼看?
汪教授:從我個人角度來看,人工智慧現在是沒有一個很好的定義的,在這個問題的回答上是一定不會犯錯誤的,怎麼回答都有道理。我個人意見是把這種簡單的模型不傾向叫人工智慧,至少要有一定的機器學習的成分在裡面我才把它看成是深度學習,這個邊界是非常模糊的。
袁老師:下面一個問題來自零壹智庫,是關於區塊鏈的問題。區塊鏈是一種多學科交叉的組合性問題,數學對區塊鏈體系當中的價值具體體現哪一些方面?哪一些領域在開始落地實現?您認為還存在哪些發展空間?區塊鏈在未來的新經濟裡面會扮演什麼角色?
汪教授:我覺得從數學的角度看,區塊鏈裡面一些數學的基礎性問題基本上已經不多了,但是實際上有很多技術上的問題,怎麼去實現這些框架,或者是說有哪一些新的框架,嚴格的說他們不屬於數學的問題。
至於以後會有何用途,我覺得前途是無量的。我剛才提到加密,共享數據如何商業化,實際上是一個非常大的問題。我們有了安全加密和保護因素,待所有的工具都齊全落地以後,我認為很多現在我們花費巨大的精力和財力做的事情都可以通過區塊鏈很快的解決,比如一些商業糾紛的官司,如果一開始我們的數據和交流就都是在區塊鏈上的話,最後就可以完全不需要人,就是在區塊鏈上就把這個數據整合一下推出來,很快的就會自動做一個裁決,我覺得這是完全有可能的。這可能是幾十年以後的事情了。
袁老師:我們討論區的很多問題都是跟您剛才講的新興加密技術相關的,觀眾提問新興加密技術現在是在萌芽期還是已經成熟了?
汪教授:技術上是萌芽期,但是理論上是成熟了,理論上都知道怎麼做。現在還是處於一個快要落地的萌芽階段吧。
袁老師:來自贏鼎教育的提問是,如果未來想把數據分析技術運用到某些領域,比如環境考古、醫療,在大學期間選修數學分析還是數據分析,然後再學習相關的行業呢?您認為走哪一條路好?
汪教授:這個問題挺有趣的,也有一些同學經常問我走哪一條路,我個人認為沒有最佳的答案,也是根據個人的興趣吧,兩種方法都是有可能成功的,至於哪一個方法好現在是非常難說的。不要輕易放棄一個方法,哪條路好主要是取決於你自己,這裡面因素很多,包括你的個性和長處。
袁老師:下一個問題來自MBA China,有很多的用戶是企業的管理者,這些企業管理者如何正確看待數學?我們大家為什麼要學數學呢?
汪教授:我個人覺得其實數學帶來的是數學的思維方式,這個是非常重要的。所以我為什麼說你學什麼學科其實不是特別重要,如果你作為一個管理者的話,最重要的是你有沒有這種數學的邏輯思維,或面對長遠問題時候的嚴謹思維。
袁老師:建立數學思維是非常重要,也許會給我們一個更加理性地去看待這個世界的視角。
袁老師:來自雪球網的觀眾提問到數學在投資中的應用,在量化交易等等,數學在這些領域的應用會不會對投資行業起到顛覆性的影響?
汪教授:現在基本上是全部往這個方向前進,人工已經越來越少。我和在香港做投資的相關人士了解到他們基本上都是開始用了大規模的機器算法去做量化。在量化方面我現在有一個學生就在做這件事,他就是在虛擬貨幣裡面用機器學習的辦法去做量化,我認為他的成果還是蠻好的。他的心態非常好,能夠穩步的大概在保證比這個市場每個月高1%或者是2%,這樣就已經是非常優秀的。
袁老師:接下來就進入到我們的快問快答的環節,我們準備了幾個有趣的問題。
袁老師:你的幸運數字是幾?
汪教授:13。
袁老師:你幾歲的時候發現自己在數學方面天賦異稟?
汪教授:大概12、13歲吧。
袁老師:上學的時候語文成績好嗎?
汪教授:很差,我高考語文考了58.5分。
你認為到目前為止最偉大的數學家是誰?
汪教授:這個很難說了,但是從歷史上看,我覺得歐拉這個人是蠻偉大的。
袁老師:你覺得比數學更有意思的事是什麼?
汪教授:比數學更有意思的事情很多,在家裡跟小孩玩玩也是很有意思的事情。
袁老師:最後也請你給大家推薦兩本書。我看到也有小夥伴迫不及待地說您怎麼給他們建立數學思維,看看什麼樣的書。
汪教授:有一本書大家可以看看,有一個數學家叫喬丹艾倫伯格,寫了一本書《魔鬼數學》,專門寫數學思維,裡面舉了很多的例子。
如果要推薦兩本的話,第一個很可惜他沒有翻譯成中文,叫《BLIND MANS BLUFF》,中文大概就翻譯成「狐假虎威」,寫美國核潛艇從60年代到80年代做間諜,有一艘做間諜活動的核潛艇,這裡面就談到了數學上的事情。一個是密碼的問題;還有一個也與數學有關,就是用數學的方法尋找氫彈的故事,比如說美國曾經在西班牙的海岸線附近掉了兩枚氫彈,怎麼應用數學工具找到這兩枚氫彈,還講到有位專家利用了他認為是更合理的一個數學思維方式,很快找到了一艘潛艇的故事。這本書看起來是歷史,但是實際上讀起來比小說還有意思,我非常建議這兩本書。
還有一本書《他是賭神,更是股神》寫一個數學家是怎麼用數學方法在賭場和股市賺錢的。
總結語
本期訪談裡,汪教授與我們暢談了機器學習的數學哲理,結合疫情下的數據模型解析出這些模型的真相。在加密算法與應用方面,汪教授也梳理出一套邏輯清晰的技術發展路線,令大家頓感解惑。
在關於區塊鏈的話題上,汪教授更是拋磚引玉,為大家開闢思路。汪教授的言談親和,風趣幽默,也讓大家認識的一個「真實」的數學家。
End.
「《袁老師訪談錄》下期節目預告」
下一期我們邀請到了香港科大商學院副院長、EMBA中英雙語課程總監徐巖教授,將會在4月8日(周三)20:00繼續直播,與我們探討5G時代的新變化!