文/程一祥
如今,我們每個人都在談論「數據科學」,哈佛商業評論雜誌甚至將數據科學家定義為「21世紀最性感的職業」。在這個大數據時代,究竟什麼是數據科學?數據科學領域的科學家、從業者們又究竟是怎樣的一群人?他們在創造著什麼令人著迷的東西?DT君將在2018年走訪50位來自各行各業的頂尖數據科學從業者,希望能讓你們了解這些神奇的人和他們神秘事兒,為你們一窺數據科學的未來與未知。
大數據、人工智慧、無人駕駛、區塊鏈,技術浪潮總是一波未平一波又起。風口中,一個數據科學家該如何選擇。阿里雲機器智能科學家閔萬裡為DT君講述了他的故事。
當「少年班」不再是少年
春節過後的杭州依然還有些冷,連綿的幾日陰雨似乎也在阻延著人們找回工作的熱情。
雖然街道上人煙稀少,阿里的辦公樓裡卻人來人往,大多行色匆匆。他們穿行在一個又一個會議室之間,屋內的繁忙與窗外的蕭瑟形成了極強的對比。
在傍晚,DT君見到閔萬裡的時候,他剛結束了一個部門會議——這是他今天開的第三個會了,而且晚上還有會。
(圖片說明:DT君在杭州阿里雲總部採訪剛開完會的閔萬裡)
今年春節前後,阿里加速了在人工智慧領域的布局。他們的明星AI產品「ET城市大腦」在一月底得到馬拉西亞政府認可,被引入首都吉隆坡治堵;二月又登上網絡春晚的舞臺。作為阿里雲機器智能科學家以及這款明星產品的主要幕後推手之一,閔萬裡在這幾個月裡,顯得格外的忙碌。
如今的節奏,對閔萬裡來說,還真有點似曾相識:科技、曝光、節奏快。二十多年前,當閔萬裡走進「中國科學技術大學少年班」的時候,他就開始感受到了。雖然時間已經有點久遠,但一提起「科大少年班」這個話題,關於「神童」的討論總還是能吸引人注意。
這麼多年過去了,這個群體再次以另一種方式出現在了人們的視野中。他們不再是「神童」,而是開始成為科技領域的執牛耳者。當年與閔萬裡一起入學的,還有如今中國科學院最年輕的華人院士莊小威、打破了華人年齡紀錄晉升的哈佛教授尹希、發現世界上最小的納米碳管的秦祿昌、發明原子陷阱追蹤分析法的盧徵天.......
當然也並不是所有人都這麼幸運。當年媒體口中的「第一神童」寧鉑後來出了家,很多人也逐漸離開了科技領域。
「其實我從一開始也就沒覺得(我們)跟普通大學生有什麼區別,如果非要說的話,就是課業壓力更重一些。」談到科大少年班,閔萬裡的話語自始至終都流露著親切和感激,他沒覺得自己有什麼不同。在他心中,正是從科大開始,他開啟了自己追逐數據科學的道路。
「那個時候才十五六歲啊,就要把大學本科數學系的課程全學完。每周六節課,晚上還要做實驗。」對於閔萬裡來說,他覺得終身受益的地方,就是在少年班這個機制下,他接受了科大最系統、最嚴謹的數學和物理學訓練。
「當時科大有一個講線性代數的小冊子,李炯生和查建國老師編的,當時堪稱最難寶典。我們連那個都學下來了。那數學肯定是沒問題了。」閔萬裡回憶說,如今能在數據科學領域取得一定成績,離不開在科大打下的數學和物理的知識體系基礎。加入少年班時,閔萬裡靠的是自己過人的數學天賦,在科大選專業時,他又選擇了物理學作為研究方向。
在他看來,數學和物理的知識體系結合,給他後來的研究提供了自信的基礎。「如今我們做數據科學,首先要梳理行業的商業邏輯對吧,這就需要用物理的思維,去抽象定位這個業務的本質是什麼;抓住本質後你要有數學工具去量化它,處理龐大的數據問題,建模等。知其然,然後知其所以然,不是亂套框架。」閔萬裡說到。
閔萬裡談到數據,總是有一種學者般的認真勁兒,和一種純粹的理科邏輯。到現在,當他在公司裡跟人討論技術問題的時候,如果遇到分歧,他還是會說「實在不行我們就推公式嘛,算一算,看看誰是對的」。
科大畢業後,閔萬裡考入了美國芝加哥大學繼續攻讀物理學博士。如果就這麼走下去,他可能會成為一個優秀的物理學家,而與人工智慧擦肩而過。博士期間的轉專業的決定,讓他最終還是踏上了數據科學這趟高速列車。
面對選擇
陶傑在《殺鵪鶉的少女》中寫到:「當你老了,回顧一生,就會發覺,什麼時候出國讀書,什麼時候決定做第一份職業,什麼時候選定了對象而戀愛,什麼時候結婚,其實都是命運的巨變。只是當時站在人生的三岔路口,眼見風雲千檣,你作出選擇的那一日,在日記上,相當沉悶和平淡,當時還以為是生命中最普通的一天。 」
1999年,閔萬裡遇到了他的第一個三岔路口。
當時的美國處在網際網路泡沫的前期,整個資本市場表現出了對科技狂熱的追捧。「只要做個類似PPT的產品演示,忽悠一些網際網路概念,就能拿一億美元的融資。」——錢來的實在太容易了。
大環境吸引了大批優秀的校園精英投身網際網路科技行業,計算機相關的專業大受追捧。據閔萬裡回憶,很多物理系的研究生,念了一年物理就不念了,轉去再讀一年CS編程,出來就能去A股公司拿十萬美刀的年薪。
在當時很多學物理、數學這些基礎學科的學生看來,計算機簡直是太好入門了。又容易賺錢,為什麼不呢?畢竟沒有人非要和錢過不去。
閔萬裡這時去找到教授,說他也要轉專業。
「你是不是也要去學計算機?」這是那位費米國家實驗室的老教授看到他後的第一反應。
不過閔萬裡卻是想轉到統計系。
「完全是興趣使然。」閔萬裡在研究粒子物理的兩年裡,接觸到了大量數據統計的工作,他逐漸對統計領域產生起濃厚的興趣。
(圖片說明:芝加哥大學圖書館;圖片來源:Wikipedia)
在科大培養起的數學功底,讓他在統計上更加如魚得水,也更加自信。
談起當時的網際網路熱潮,閔萬裡說:「從沒心動」,因為那從來不是他要的生活。與其說是興趣決定選擇,不如說是一種對自我認知的自信——他一直很清楚自己要什麼。
「錢是遲早都會有的,但是如果找到機會做自己喜歡做的事,這個機會是難得的。」
統計就是他當時最喜歡做的事兒。
老教授用費米國家實驗室專用的信紙,洋洋灑灑地為他寫了一封推薦信,幫助閔萬裡進入了芝加哥大學的統計學系。這也是他真正開始數據科學的起點。
當「藝術」照進現實
「Data Science(數據科學)雖然現在火,但是早期並沒有提,我們那時自己人都叫它Data Art(數據藝術)。」
離開象牙塔後,閔萬裡就迫不及待地加入了IBM。他形容自己就像是一個狙擊手,「一定要上戰場才行」,數據應用必須要到業界實踐中去。
在對數據科學的討論中,當時分為兩派。一派是以統計學家為代表的「理論派」,他們堅信遇到問題應該先從物理本質出發,基於邏輯尋找相關性,然後設計模型,選擇變量;另一派是以計算機專家為代表的「實幹派」——不管基礎理論,套模型先算起來,比較「暴力」地直接試。孰優孰劣,就結果看還真是難分高下。
「當時我們就覺得,這個東西應該叫『數據藝術』,我們就像藝術家,數據就像調色板,我們要去憑空創造。」
2008年,還在IBM的閔萬裡創作了他第一個非常滿意的「數據藝術作品」——利用道路交通的攝像頭和傳感器數據,預測新加坡中央商務區未來60分鐘裡的交通狀況,從而避免交通擁堵,準確率高達85%。
他的靈感,來源於讀博時研究的網絡隨機過程課題。閔萬裡創造性地運用統計學和物理學的方法,解決了一個交通的工程學問題。這項研究的直接價值在於,通過這套算法,只需要調整一些紅綠燈設置,就能夠一定程度避免大城市的交通堵塞問題,每天可以為每個人節約5-10分鐘的通勤時間。
「這是多大的生產力價值!」閔萬裡感慨地說,「我當時覺得,自己的公式終於沒有白推,還是挺幸運的。」
閔萬裡的時任老東家IBM卻想的比他更多。
2008年11月,IBM在美國紐約發布了《智慧地球:下一代領導人議程》主題報告,其中正式提出了「智慧地球」的概念。這個概念後來被稱為「智慧城市」,簡單來說,就是應用信息技術等高科技更加精細、動態、科學的管理我們的城市,解決城市發展的諸如擁擠、堵車、汙染等問題。
(圖片說明:IBM的「智慧地球」計劃;圖片來源:IBM官網)
2009年8月,IBM又發布了《智慧地球贏在中國》計劃書,正式揭開 IBM「智慧地球」中國戰略的序幕。同年十一月,福布斯雜誌報導,IBM已經和瀋陽、北京等城市管理人員展開合作洽談,希望引入自己的交通管理系統,幫助解決城市道路擁堵問題——也就是基於閔萬裡論文的內容。
雖然2008年就已經寫好了,但是迫於商業上的考量,他的研究論文直到2011年才被IBM允許公開發表出來。
起了個大早,但這家老牌的科技巨頭公司卻在「智慧城市」的競爭中趕了個晚集。
「IBM的智慧城市計劃,變現模式依然是賣機器,側重的還是IT的基礎設施建設。」閔萬裡認為,這種老式觀念已經與當時的網際網路思維脫節了。
1953年,IBM用電子訂票系統替換了美國航空的紙質系統,帶來了控制系統領域的革新。從那時起,賣機器、賣系統、賣資料庫就成為了這家公司的核心商業模式之一。相比之下,2008年正是中國本土網際網路企業野蠻生長的一年,移動網際網路的大潮席捲全球。輕資產、賣服務、重數據開始成為科技公司的主流,商業模式的創新層出不窮。
「技術領先十年,觀念落後百年。」閔萬裡評價道。
2010年4月9日,時任工信部部長李毅中在2010年經貿形勢報告會上,重申信息安全問題。與此同時,IBM的「智慧地球」項目也由於實現難度過大等原因,在中國各地被叫停。
IBM的智慧城市項目在中國沒有取得成功。
不過,這一些列的嘗試拓展了閔萬裡的視野。他看到了數據科學下「智慧城市」的巨大潛力。
智慧城市2.0
離開了IBM後,閔萬裡希望自己能夠去一家有更好的平臺、能夠更快釋放自己研究價值的公司。
他一開始選擇了谷歌。
在谷歌,他主要負責移動廣告業務。「主要就是把網頁端的廣告主,吸引到移動端來,我們要根據行動裝置的位置、精準給用戶推薦廣告。」
在移動端業務的一個核心因素,就是用戶的位置信息。比如用戶如果三十分鐘前搜索了一個廣場的位置,那他可能就會去這個廣場吃飯、購物,谷歌就能夠預判用戶的位置,智能為用戶推送周邊的消費廣告。這與閔萬裡之前的交通研究,一脈相承。
在2012年底,谷歌的年度戰略只有一個關鍵詞——Mobile(移動)。閔萬裡團隊在移動廣告端的努力幫助谷歌順利完成了轉型。
2013年,馬雲在卸任阿里巴巴CEO的時候,去斯坦福商學院做了一次演講,當時閔萬裡也在。那次演講讓他感受到了阿里獨特的地方——「阿里巴巴有全世界最大的數據,比亞馬遜、eBay、PayPal加起來還多,來了之後更發現此言不虛,甚至還保守了些」,閔萬裡說。
來到阿里巴巴,閔萬裡就開始著手人工智慧類的項目。有了IBM的經驗,閔萬裡對於人工智慧的商業化想法更加成熟。他基於自己過去的研究,與團隊一起做了一個2.0版本的「智慧城市」——ET城市大腦。如今,ET城市大腦已經成為阿里的明星AI產品,在杭州、蘇州、衢州等城市提供服務,同時走向馬來西亞等世界其他國家。
(圖片說明:ET城市大腦在蘇州的應用場景——對蘇州工業園區主幹線的公交線路進行了調控,不改變車輛數量,只是動態調整每一輛公交車發車的時間,結果乘坐公交車的人多了17%)
與IBM從硬體入手不同,閔萬裡是從跟數據入手,通過對海量數據的分析處理優化交通管理問題。「這就像是萬裡長徵的最後一步,前些年硬體的發展為交通積累了很多數據,我們現在就是把它用起來。」
據阿里巴巴技術委員會主席王堅說,「城市大腦」現在已經接管了杭州128個信號燈路口,試點區域通行時間減少15.3%。在主城區,城市大腦通過連接高德地圖、交警微博和視頻數據去感知交通事件,日均報警(比如行人錯走上高架路等)500次以上,準確率達到92%。
(圖片說明:阿里巴巴技術委員會主席王堅在活動中介紹「ET城市大腦」項目)
在試點的蕭山區,利用機器智能調節路口信號燈、提前排空前方車流的技術,使120救護車到達現場的時間縮短了一半。
「其實做的越多,越發現有很多事情是我們做不到的。」閔萬裡從來不避諱ET城市大腦的局限性,他把城市比做一個生命體,他們所提供的只是大腦,是一種「多體多智能」的龐大計算中心。「如果軀體跟大腦不能連接在一起,那就做不到智慧的城市。」它要跟各個領域的部門合作,去找業務支撐。
ET大腦是阿里巴巴的阿里雲研發的超級人工智慧,專門用來解決和探索社會和經濟發展當中依靠人腦所無法解決的一些棘手問題,例如交通治理、環保預警、工業控制、智能媒體等。除了交通方面,阿里的ET大腦還開發了環境大腦、工業大腦、航空大腦等等。閔萬裡如今的業務已經讓人工智慧,從交通拓展到了更多的產業領域。
比較「冷」的數據科學家
如果你見過閔萬裡,你很難想像他與「冷」這個詞有什麼聯繫。
採訪的時候,他穿著一件抓絨外衣,不說話的時候,臉上總是笑眯眯地看著大家。
他評價自己的時候卻說,自己是一個比較「冷」的數據科學家——冷靜地看待數據,冷酷地對待科學。
如果我們稍微把時鐘往前撥幾年,當你回顧網際網路科技的發展歷史,除了興奮和讚嘆,你也會驚訝於它的速度和瘋狂。在中國,2014年大家都在追移動網際網路;2015年大數據開始變得火熱;2016年媒體的頭條充斥著VR、AR報導;2017年人工智慧和無人駕駛又粉墨登場;現在2018年,大街小巷都在討論區塊鏈的影響......
在資本和輿論的追逐下,數據科學開始披上不同的外衣,一方唱罷一方登場,不停地刺激著人們的神經。很多技術熱詞的生命力,甚至只有幾個月。為了迎合這些風口,看中熱錢的投機客們也多了起來。
「很多人昨天是大數據專家,今天是人工智慧專家,明天又變成了區塊鏈專家,就感覺他永遠都是那個弄潮兒。」但是技術的發展哪有這麼容易,隨技術更新隨波逐流的人很容易就淹沒了自己原本的標籤。
閔萬裡則始終把自己看做一個「大數據」從業者,他不喜歡新詞熱詞,對「數據」保持始終如一的冷靜。
「別人不要想來忽悠我,我明白數據的局限性,技術不是萬能的,算法不是萬能,數據也不是萬能的。」在閔萬裡看來,所謂數據科學的本質,只有放到「上下文」中,才能發揮正確的價值。「行業需求是什麼?市場是什麼?這才是核心問題,然後再說如何用技術解決。」
想用技術熱詞忽悠他,只談概念是不行的。「技術交流不服的時候就推公式嘛,我敢於刺刀見紅。推不出來你就,是吧,很冷酷。」
閔萬裡的這種對自己技術路線的「自信」和「定力」,很多也受到了阿里雲的創始人王堅博士的影響。
在五年前雲計算還是一個「笑話」的時候,王堅用技術自信,頂著壓力把這件事兒堅持了下來。閔萬裡說,「那時有人說他是『騙子』、『忽悠』、『瘋子』,不理解」,但今天阿里雲上演了技術創業史上最精彩的大反轉。
冷靜的技術判斷,冷酷的商業選擇。
閔萬裡把這些技術熱詞打了個有趣的比方,「這就像你在校園裡去追漂亮女生,這一個手還沒拉上呢,你又看上另一個了。」重要的是修煉內功,不要一個技術還沒搞好,就去追另一個新時髦。把內功練好,「漂亮女生」說不定就來追你了。
ET城市大腦的成功,讓閔萬裡他們看到了ET大腦的巨大商業潛力,他決定把「大腦」覆蓋到更多產業領域。不過他熟悉交通,對不熟悉的領域怎麼辦呢?
(圖片說明:阿里雲的ET工業大腦已經運用在了一些傳統工廠的車間,將人工智慧技術與傳統製造業融合)
回憶剛做「ET工業大腦」的時候,他看不懂工廠裡的那些數據,他形容當時看到那些工業生產數據就像「看天書」。於是他帶領團隊走到工廠生產第一線,挨個詢問老師傅們數據的含義。最後他把這些數據匯聚在ET工業大腦上,僅通過AI算法,幫助工廠提升了1%良品率,換算成人民幣差不多每年節省了上億元。
面對未知與不確定,有技術自信和才敢堅持走下去,去攬瓷器活。
看到「風口」,這位比較「冷」的數據科學家建議,不如練好你的「金剛鑽」先?
題圖 | 站酷海洛
關於數據科學50人
數據科學50人項目是DT財經旗下數據俠計劃重點內容產品,旨在與數據科學領域KOL共同挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。
數據俠門派
閔萬裡,阿里雲機器智能科學家。14歲被中科大少年班錄取。19歲畢業後赴美攻讀物理學碩士。2004年獲得芝加哥大學統計學博士學位。先後在IBM Watson研究院及 Google 擔任研究員,2013年加入阿里巴巴,領導阿里雲人工智慧ET大腦項目。
長期從事機器學習理論研究與應用算法研發,在腦電波(EEG)解析、高維數據挖掘、隨機過程理論、時間序列分析、網絡流理論等領域獲得多項國際專利。2011年發表的道路交通流預測研究,是該領域全球五年來被引用次數最多的論文之一。曾推動紐約、新加坡、瑞典等地的智慧城市創新。
加入數據俠
「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。