天有不測風雲。今年6月6日北京把新冠肺炎防控等級由二級下調到三級沒幾天,病毒突然從新發地農產品批發市場竄出,把北京的防控級別又拽回二級。8日我們從北京飛回老家鄉下山裡想涼快幾天,哪知11日深夜當地警察和醫務人員根據機票信息追蹤到家裡,把我們拉去50公裡外的縣醫院做核酸檢測,然後天天兩次上門測體溫,自我隔離14天。藉此機會,看了幾本書,中信出版社的《智能時代》是其中之一。作者是大數據科普作家吳軍博士,他已經出版過好幾本有關大數據的科普著作。作者在書中,用通俗易懂的語言,對大數據和機器智能對未來的影響進行了比較充分的揭示,文字振聾發聵,諸如「數據密集型科學」「機械思維」「大數據思維」等等新觀點,讓人來了次頭腦風暴。作者是大數據科學家,又曾經是數據服務商高管,在書中,夾敘夾議中既有科學理論,又有實踐經驗。讀起來無晦澀之困,有通俗之感。作者闡述了大數據科學發展的前因後果,概述了科學研究發展經歷的四個範式:一是描述自然現象的實驗科學;二是以牛頓定律等為代表的理論科學;三是模擬複雜現象的計算科學;四是目前的數據密集型科學。第四個範式是大數據時代的決定性因素,會與以前的每一階段工業革命一樣,給經濟社會帶來巨大變遷。作者認為,雖然數據在上面四個科學階段都存在,但只有今天,隨著網際網路的寬帶化和移動電子設備技術的應用,數據量的爆炸性增長和科學家們對數據的深度挖掘分析,才形成以大數據為特徵的數據密集型科學。
「數據密集型科學」推動思維革命
書裡提出了「數據密集型科學」概念,說它將推動人類的思維革命。為了說明這點,作者讓我們重溫了科學技術引導人類經濟社會進步的歷史。世界經濟發展史上的每一次技術革命,都是圍繞著一個核心技術展開的。第一次工業革命是蒸汽機,第二次工業革命是電氣化,第三次工業革命是計算機和半導體晶片為主的信息化,第四次是大數據和機器智能引領的智能革命。作者預言,這第四次革命將會徹底改變我們當下所有人的生活。其標誌是人類思維方式的革命性變革。傳統上人類決策是靠邏輯推理,而大數據和機器智能不是靠邏輯推理,而是靠大數據和智能算法幫助我們決策。這不可避免地會對未來經濟產生巨大影響。書裡對過去商業模式的歷史變遷總結了三條:一是技術革命導致新的商業模式誕生;二是生產過剩,需求拉動經濟增長的模式不可逆轉;三是商業模式既有繼承性又有創新性。第一次工業革命導致了產品需要靠展示推銷才能賣出去;第二次工業革命導致廣告業興起,展示的推銷方式變成了廣告,並導致了商業鏈的出現;第三次工業革命是信息革命使商業鏈得到發展,服務業的重要性凸顯。以「數據密集型科學」為指導思想的大數據時代,毫無疑問會推動現存商業模式的改變,大數據和機器智能將是第四次工業革命。蒸汽機、電氣化、信息化是這樣,大數據時代將仍然會是這樣,這是經濟發展的規律。這種變化是革命性的震撼人心的。為了讓讀者更直觀感性地認識這一點,作者在書中與我們一起回顧了2017年5月23-27日那場智慧機器人戰勝世界段位高手的圍棋比賽。智慧機器人以三比零戰勝人類頂尖棋手靠的就是大數據和計算機算法。從經濟角度思考這場圍棋比賽。那就是大數據和智慧機器人將會對現存經濟模式產生深刻而廣泛的影響。作者分析了機器人取勝的原因:其一,它的採用的是機器學習與神經系統科學結合的學習算法;其二,它在強大的雲計算系統中,通過統計模型在極短時間內學習分析了幾千萬盤圍棋棋譜和比賽巨量數據後,獲得了不同局勢下該如何行棋有一個比人類更為準確的估計,尋找出了比基礎棋譜更好的大數據棋路。這一點是人類大腦無論如何也無法完成的。機器智能裡面有兩個關鍵的技術是人腦無法獲得的。第一個關鍵技術是把棋盤上當前的狀態變成一個獲勝概率的數學模型,是完全靠數據訓練出來的。第二個關鍵技術是啟發式搜索算法。作者認為下圍棋這個看似智能型的問題,從本質上講,是一個大數據和算法的問題。在機器人的背後,是數據中心強大的伺服器集群,它們獲得智能的方法不是和我們人一樣靠邏輯推理,而更多的是利用大數據。因此,思維方式上的邏輯推理一霸天下的歷史或將改寫。
「機械思維」將靠後站
「機械思維」是一種靠邏輯推理的思維方式。如果機器人利用邏輯推理和圍棋手對弈,是戰勝不了人類的,但它另闢蹊徑,用大數據把人類頂級棋手幹下去了。智慧機器人在下棋時沒有用機械思維思考。作者認為,機械思維是前三個工業革命的科學方法論。它們和因果關係息息相關。由因根據三段論推出果的邏輯推理方式。作者認為,機械思維是過去三個多世紀裡人類總結出的最重要的思維方式是現代文明的基礎。西方把機械思維歸功於牛頓的科學方法論。內容包括:第一,世界變化的規律是確定的;第二,世界變化的規律不僅可以被認識,而且可用簡單的公式或語言描述清楚;第三,這些規律放之四海而皆準。機械思維方式導致了工業革命。從牛頓時代開始接下來的三個多世紀裡,人類越來越習慣於用機械思維描述一切、抽象一切:即抽象個體然後進行標準化,形成了用一個通用的方案來解決所有問題的方法論。作者認為,工業革命是牛頓提供了方法論即機械思維,而瓦特則是利用機械思維方法論發明了蒸汽機,開啟西方工業革命大門。因此,瓦特蒸汽機的成功不僅是技術,更重要的是機械思維方法論的成功。從牛頓開始,人類社會進步在很大程度上得益於機械思維,但是到了計算機資訊時代,機械思維的局限性也越來越明顯。人們發現世界本身存在著很大的不確定性。作者認為,機械思維的核心思想可以概括成確定性、或者可預測性和因果關係。它導致了人類歷史上很多重大的發明和發現。尋找因果關係是機械思維的一個特徵,但事實上,人類找到真正的因果關係是一件很難的事,裡面運氣的成分很大。機械思維具有兩面性——善於把握確定性而難以解決不確定性問題。由於數據之間的相關性在某種程度上可以取代原來的因果關係,可以幫助我們得到我們想知道的答案。由於近30年來網際網路寬帶和移動通信設備的迅速發展,由此而產生的海量數據和計算機算法,改變了機械思維300多年的習慣思維。大數據和計算機算法的結合不可避免地產生出「大數據思維」。因此「人機大戰」中,機器人才能戰勝人類頂尖棋手。
「大數據思維」引領新時代
「大數據思維」,可以幫助人們解決機械思維狀態下不能解決的一些問題。人機大戰中機器人的取勝說明,未來是可預測的,不確定是可以轉化為確定。因此,大數據思維在新的工業革命中將引領新時代。作者認為,大數據的基礎是數據和信息的收集和匯聚,它們三者既有聯繫又有區別。
談數據前,作者講了數字和數據的聯繫和區別。他認為,數字僅是數據非常小的一部分,數據的範疇比數字要大得多,但它們是有聯繫的。網際網路上的文字、圖片和視頻等都是數據;醫院裡包括醫學影像在內的所有檔案也是數據;公司的各種設計圖紙也是數據;出土文物上的文字、圖示也都是數據。人類發明了文字,並記錄了人類活動並留傳後世,形成文明的傳承。以語言和文字形式存在的內容是全世界各種信息處理中最重要的數據,在20世紀90年代網際網路興起之後,數據的獲取變得非常容易。
接著作者區別了數據和信息。作者認為,數據和信息還是稍有不同。信息是關於世界、人和事的描述,它比數據來得抽象。人的大腦是一個信息源,從思考到找到合適的語句,再通過發音說出來,是一個編碼的過程,經過媒介如聲道、空氣、電話線和揚聲器等傳播到聽眾耳朵裡,是經過了一個長長的信道的信息傳播問題,最後聽話人把它聽懂,是一個解碼的過程。隨著人類的進步以及處理數據和信息的能力不斷增強,人類從數據中獲取有用信息的本事就越來越大,對數據和信息進行處理後,人類就可以獲得知識。知識比信息更高一個層次,也更加抽象,它具有系統性的特徵。而數據是知識的基礎。只有善用數據,我們才能得到數據背後的信息。數據中隱藏的信息和知識是客觀存在的,但是只有具有相關領域專業知識的人才能將它們挖掘出來。人類文明的進程是伴隨著獲取數據——分析數據——建立模型——預測未知。雖然數據在文明進程中具有重大作用,但過去數據的作用常常被人們忽視。這裡面有兩個原因,首先是由於過去數據量不足,積累大量的數據所需要的時間太長。其次,數據和所想獲得的信息之間的聯繫通常是間接的,它要通過不同數據之間的相關性才能體現出來。
最後作者區別了數據和大數據。前面已經說到數據的概念是指所有輸入到計算機並被電腦程式處理的符號的介質的總稱。大數據則不僅僅是數據體量大並能及時獲得,同時還具有多維度、多樣性;全面性、完備性等特徵。從現象中、觀察中總結出數據,匯總數據並運用數據,是衡量人類文明發展水平之一。隨人類進步以及處理數據和信息的能力不斷增強,人類從數據中獲取有用信息的本事就越來越大,這就是大數據應用的基礎。數據在計算機時代記錄了人類的行為,靠計算機去發掘、分析而得出人類沒有寫明的,存在於多次重複的行為中的數據。這樣的行為,光有數據做不到,只有計算機也難成,只有兩者結合才能事成。這個加入計算機算法的數據稱之為大數據。計算機信息技術和電子行動裝置使得我們可以從足夠多的數據中發現各種事物的相關性並把握事物發展的軌跡,並依靠大數據來提高對未來不確定性把控能力。採用大數據的方法能夠使計算機的智能水平大大提高,替代人類智能解決不了的許多問題。決定今後20年經濟發展的是大數據和由之而來的智能革命。因此,從方法論的層面上看,大數據與三百年前產生的機械思維一樣,在大數據和機器智能大規模運用的情況下,會形成一種全新的思維模式即大數據思維,從而完成思維模式的一次革命。
大數據思維會帶來什麼?
按照大數據思維模式,我們做事情的方式方法需要從根本上改變。回顧歷史,展望未來,大數據引發的智能革命將是以一種全新的方式展開。蒸汽機、電氣化等技術革命都是生產力單點突破,從而帶動社會全面變革,今天的大數據正面臨這樣一個突破,大數據和機器智能的普及會帶來新一輪經濟社會生活的全面變革。大數據思維所具有的解決不確定性的能力可以為經濟社會發展有所作為。在大數據思維指導下,數據科學家可以把過去解決不了的問題,變成大數據問題來處理。溫故而知新。作者說,在歷史上,一項技術帶動整個社會的變革通常遵循一個公式,即現有產業+新技術=新產業。第一次工業革命是:現有產業+蒸汽機=新產業;第二次工業革命是:現有產業+電氣化=新產業;第三次工業革命是:現有產業+摩爾定律=新產業;第四次工業革命將是:用兩個公式簡單概括,現有產業+大數據=新產業,現有產業+機器智能=新產業。大數據思維將帶來一場新技術革命。大數據思維的核心是通過數據之間相關性的演算分析,取代機械思維下的因果推理,但大數據思維和原有的機械思維並非完全對立,它更多的是對後者的補充。是對邏輯思維辦不到的事情提供有益的補充,消除事物的不確定性,從而解決問題。大數據和機器智能將從供給側推動許多新產業的誕生,帶動產業升級換代,滿足人類社會多樣化、個性化需求,導致我們整個社會的升級和變遷。
這本書給我們提了個醒,即將到來的大數據時代,無論國家還是個人都應該建立大數據思維方式。跟上去則適者生存,掉下來則淘汰沒落。凡事預則立,不預則廢。據普華永道預測,到2030年,大數據和人工智慧將為全世界國內生產總值貢獻15.7萬億美元。數據是開發高級神經系統的必要條件,有數據才有可能更好地理解語言、識別物體並提出有用的見解。中國是世界第一製造大國,同時還擁有8-9億網民、10億以上的智慧型手機使用者,它們產生的海量數據是世界獨一無二的,這樣的數據背景為大數據和機器智能在中國發展提供了巨大的優勢條件。基於這種數據優勢,我們在第四次工業革命中存在非常大的彎道超車機會。目前,在大數據和機器智能領域,中國與世界先進水平距離已縮短,有些方面還略微領先,比如金融行動支付等。因勢利導地用大數據思維完成中國新經濟模式的變革是有完全可能的。在這種背景下讀讀《智能時代》一書,可以幫助我們更好理解即將到來的大數據思維新時代。
姜 洋
2020年6月22日