【導讀】馬伯庸《長安十二時辰》裡的「大案牘術」應是來自於現在的大數據。收集海量信息通過分析整理快速找出相關的結果。如果擁有此思想的人回到古代,是否有可能實現文中「大案牘術」?
先說結論——不可行,但是親王的腦洞足夠大。
其實這種腦洞在許多架空歷史的小說中也都出現過。除了《長安十二時辰》之外,包括《三體》中描述的「三千萬士兵組成人列計算機」,比如《宰執天下》中宋朝就有了馬拉火車與蒸汽機,都是作者們腦洞大開的體現。作為網絡文學,這種內容更多是一種「爽文」心態,讀者看著開心就好了,不需要計較真假。
為什麼「大案牘術」不可行?下面我就從存儲技術角度分析一下——
提到「大案牘術」,許多人都將其定義為當下的「大數據」,並以大數據之普及臆測出「大案牘術」的可行性。不過大家顯然都忘記了高中政治課上學過的內容:
任何社會均由生產力與生產關係、經濟基礎與上層建築構成基本框架。生產力決定生產關係,經濟基礎決定上層建築,而生產關係和上層建築又具有反作用。
最簡單的道理,我們現在之所以能夠利用大數據,是因為我們處在數位化的時代,我們有電腦、手機、伺服器等一系列電子計算設備,這些設備提供的計算力或者說生產力能夠輕鬆駕馭大數據的應用需求。雖然我們承認人腦相對於電腦來說目前還是要更先進,但是顯然在1000多年前的生產力狀態下,想僅僅依靠人腦來實現大數據應用並不現實。
網絡上對於大數據的定義很長,當然也不是很準確,但是定義中卻補充了大數據應用的5V標準,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。而「大案牘術」最大的問題就是第二項——Velocity(高速)。
這裡的「高速」顯然不是與ETC相關的概念,而是強調數據獲得、存取與處理的速度。今天,我們獲取數據的來源多樣,無論是在現實還是在網絡中,全世界每天產生的數據(包括結構化和非結構化數據)大約在2.5億個字節左右,這些數據來源包括但是不限於網際網路、社交媒體、通訊、照片與視頻、物聯網和服務等等。
但是在古代,數據的獲取方式就單一的多,主要就是靠人與人之間的接觸和口口相傳來實現的。在《長安十二時辰》中,靖安司針對整個長安城的大大小小的信息、事無巨細地記載。且不說這需要多大的人力,單單是針對每個人的信息進行記錄、分類、匯總所需要的存儲設備,就是一個天文數字。
今天,你只要離開屋子,也就進入了攝像頭監控當中。無論你是步行、坐公交還是自駕,路口的攝像頭都會對你的一言一行進行記錄。但即便是這樣,如何處理並保存這些龐大的數據也會成為警察叔叔們頭疼的問題,不然就不會有物聯網、邊緣計算和雲計算的應用出現了。
所以,從數據採集的角度來看,要將幾百萬人口的日常操作事無巨細的記錄下來,這恐怕並不是小小的靖安司所能夠安排得了的,也並不現實。比如我們需要記錄張三每天幾點離開家門、逛了什麼商鋪、買了什麼東西、跟什麼朋友聊天、吃了誰家的酒肉、付了多少酒錢肉錢、幾點鐘回家睡覺,恐怕昨天的記錄還沒有完成,新的一天就又開始了,所謂的「大案牘術」自然也就是一種空想。
說完了記錄,我們再來說說存儲。如今我們的存儲是按照字節Byte來計算的,我們每天產生的海量數據被存儲在世界各地的數據中心當中,通過磁碟、磁帶等方式存儲起來。這些數據有些是需要經常使用的,叫做熱數據(比如本周上映的電影);也有一些可能用過一次就不需要再用的,叫做冷數據(比如去年上映的電影);介乎兩者之間的叫做溫數據(比如兩個月前上映的電影)。
對於熱數據,我們可以將其存儲在SSD固態盤中,甚至我們也可以使用英特爾傲騰產品(比普通SSD快N倍的一種存儲設備);而對於溫數據和冷數據,我們可以就將其放在普通的機械硬碟甚至磁帶中。但是無論如何,我們在電腦端點點滑鼠,動動手指,你想看的電影就能立刻播放。
但是這在古代是難以想像的。即便唐代已經有個成熟的造紙工藝,不需要像秦漢那樣使用竹簡,但是將長安城數百萬人的數據都存儲起來是一個非常複雜的過程,而想從這些浩如煙海的數據中調取某個人某一天的數據,即便是有著精密的分類和嚴格操作的工人,其耗時也是巨大的。
除了數據的獲取的「高速」與數據存取的「高速」之外,我們還要看到另一個問題——數據應用與分析的「高速」。
今天我們談大數據,是因為我們有計算性能強大的設備,有精密的資料庫,有高速傳輸的光纖網絡,還有基於這些平臺上的算法和應用軟體。但是即便如此,我們的大數據分析也需要結合實際情況,有些內容我們還只能給出模糊的方向,甚至進行多種可能性的預測而已。
但是在《長安十二時辰》中,完成這一工作的就只有徐賓一人。當然,徐賓作為大案牘術算法的創始人,已經展示出了對這套算法的駕輕就熟,也獲得了一定程度上的成功,但是這始終阻擋不了他是一個人的事實。
是人就要吃飯睡覺,是人就有七情六慾,是人就會犯錯誤。還記得2017年初阿爾法狗與李世石的精彩對決嗎?大數據的最大價值就在於「熟能生巧」,或許在最初的訓練中,大數據分析的速度會落後於經驗豐富的人類,但是伴隨著樣本數量的增加和訓練流程的加快,藉助於神經網絡模型,機器人大概率會後來居上。大數據可以越變越強,但是依靠徐賓個人的大案牘術並不會,即便徐賓能夠廣開門庭,收徒開課,但本質上大案牘術還是基於人腦實現的分析,與電腦的速度不可同日而語。
大案牘術,說到底就是唐代資料庫,但是這個資料庫提供的是結構化的數據,徐賓所進行的就是一些數據的檢索和查詢。但即便如此,在數據的採集、數據存取和數據處理與分析上,都是不可能實現的,「高速」的缺陷,決定了大案牘術只是一種理想化的分析模型,也只能存在於架空歷史的小說當中。
歸根結底,徐賓的聰明超越了時代,他所提出的大案牘術超越了唐代的生產力水平,而這種超出生產力所想像的生產關係是不可能實現的,但是這絲毫不影響《長安十二時辰》作品的可讀性,畢竟讀者需要的是有趣的「爽文」而不是嚴謹的科學論證。
彩蛋:數據存儲又快又好,我們要靠什麼?
在剛剛的文章中,我們提到了一個名字——英特爾傲騰存儲。傲騰是英特爾基於3DXpoint存儲介質而打造的緩存設備 ,也是當下世界超快的存儲設備。它兼容了NVMe(非易失性存儲器)存儲協議,由3DXPoint內存介質、英特爾內存和存儲控制器、英特爾互聯IP和英特爾軟體共同構成。傲騰具備固態盤和內存兩種形態,後者被稱為數據中心可持久內存,相對傳統SSD來說性能提升巨大。