隨著科技的快速發展,人工智慧的熱度越來越高。而數學知識蘊含著處理智能問題的基本思想與方法,是理解複雜算法的必備要素。在機器學習工作流程中,數學與代碼高度交織在一起,代碼通常可以根據數學直觀地構建,甚至會共享數學符號與句法。
對於大多數新手來說,弄清楚入門人工智慧需要哪些數學基礎、需要熟悉什麼框架等,都至關重要。機器學習是一個異常豐富的研究領域,有大量未解決的問題:公正、可解釋性、易用性。如同所有的學科一樣,它的基本思想不是請求式的過程,而是需要耐心地用高級數學框架思考重大難題找到解決方案。在機器學習中,不論是在算法上理解模型代碼,還是在工程上構建系統,數學都有著其重要意義。因此,要了解人工智慧,首先要掌握必備的數學基礎知識。
學校一般都會分為文科和理科,有沒有莫名地產生一些理科生似乎更聰明的感覺呢?我認為,給人們造成這種感覺的很大原因在於數學。有的孩子很喜歡算術,但升入初中、開始從算術轉向數學時就跟不上了。一旦一步跟不上,就很難重新進入數學的世界,而課程不等人,不斷地繼續往前進行。在三角函數上摔一個跟頭,還摸著傷口沒回過神來呢,微積分又呼嘯而至。
數學最恐怖的地方在於它是一門不斷累積的學問,一旦在某個地方遭遇挫折,中途出現一點點空白,就算是想要努力越過空白、學習前面的課程,也是萬萬不可能的。不認真學習、補上空白的部分,根本無法前行,成績自然也不會提高。所以,一旦數學考不及格、開始對學習數學產生厭噁心理的話,就萬事皆休。
在此,不必特意舉出谷歌、蘋果,世界頂級企業基本上都是技術公司。網絡界幕後支配者Akamai 也是如此。它們全是由美國的理工科高材生所創立,而這些公司使用的技術都需要大量的數學支撐。
在谷歌主導網際網路搜索之前, 多數搜尋引擎採用的排序方法, 是以被搜索詞語在網頁中的出現次數來決定排序——出現次數越多的網頁排在越前面。 這個判據不能說毫無道理, 因為用戶搜索一個詞語, 通常表明對該詞語感興趣。 既然如此, 那該詞語在網頁中的出現次數越多, 就越有可能表示該網頁是用戶所需要的。 可惜的是, 這個貌似合理的方法實際上卻行不大通。 因為按照這種方法, 任何一個像祥林嫂一樣翻來復去倒騰某些關鍵詞的網頁, 無論水平多爛, 一旦被搜索到, 都立刻會 「金榜題名」, 這簡直就是廣告及垃圾網頁製造者的天堂。 事實上, 當時幾乎沒有一個搜尋引擎不被 「祥林嫂」 們所困擾, 其中最具諷刺意味的是: 在谷歌誕生之前的 1997 年 11 月, 堪稱早期網際網路巨子的當時四大搜尋引擎在搜索自己公司的名字時, 居然只有一個能使之出現在搜索結果的前十名內, 其餘全被 「祥林嫂」 們擠跑了。
正是在這種情況下, 1996 年初, 谷歌公司的創始人, 當時還是美國史丹福大學 (Stanford University) 研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 開始了對網頁排序問題的研究。 這兩位小夥子之所以研究網頁排序問題, 一來是導師的建議 (佩奇後來稱該建議為 「我有生以來得到過的最好建議」), 二來則是因為他們對這一問題背後的數學產生了興趣。網頁排序問題的背後有什麼樣的數學呢? 這得從佩奇和布林看待這一問題的思路說起。
在佩奇和布林看來, 網頁的排序是不能靠每個網頁自己來標榜的, 無論把關鍵詞重複多少次, 垃圾網頁依然是垃圾網頁。那麼, 究竟什麼才是網頁排序的可靠依據呢? 出生於書香門第的佩奇和布林 (兩人的父親都是大學教授) 想到了學術界評判學術論文重要性的通用方法, 那就是看論文的引用次數。 在網際網路上, 與論文的引用相類似的顯然是網頁的連結。 因此, 佩奇和布林萌生了一個網頁排序的思路, 那就是通過研究網頁間的相互連結來確定排序。 具體地說, 一個網頁被其它網頁連結得越多, 它的排序就應該越靠前。
不僅如此, 佩奇和布林還進一步提出, 一個網頁越是被排序靠前的網頁所連結, 它的排序就也應該越靠前。 這一條的意義也是不言而喻的, 就好比一篇論文被諾貝爾獎得主所引用, 顯然要比被普通研究者所引用更說明其價值。 依照這個思路, 網頁排序問題就跟整個網際網路的連接結構產生了關係, 正是這一關係使它成為了一個不折不扣的數學問題。
思路雖然有了, 具體計算卻並非易事, 因為按照這種思路, 想要知道一個網頁 Wi 的排序, 不僅要知道有多少網頁連結了它, 而且還得知道哪些網頁各自的排序——因為來自排序靠前網頁的連結更有分量。 但作為網際網路大家庭的一員, Wi 本身對其它網頁的排序也是有貢獻的, 而且基於來自排序靠前網頁的連結更有分量的原則, 這種貢獻與 Wi 本身的排序也有關。 這樣一來, 我們就陷入了一個 「先有雞還是先有蛋」 的循環: 要想知道 Wi 的排序, 就得知道與它連接的其它網頁的排序, 而要想知道哪些網頁的排序, 卻又首先得知道 Wi 的排序。
為了打破這個循環, 佩奇和布林採用了一個很巧妙的思路, 即分析一個虛擬用戶在網際網路上的漫遊過程。 他們假定: 虛擬用戶一旦訪問了一個網頁後, 下一步將有相同的機率訪問被該網頁所連接的任何一個其它網頁。 換句話說, 如果網頁 Wi 有 Ni 個對外連結, 則虛擬用戶在訪問了 Wi 之後, 下一步點擊那些連結當中的任何一個的機率均為 1/Ni 。 初看起來, 這一假設並不合理, 因為任何用戶都有偏好, 怎麼可能以相同的機率訪問一個網頁的所有連結呢? 但如果我們考慮到佩奇和布林的虛擬用戶實際上是對網際網路上全體用戶的一種平均意義上的代表, 這條假設就不像初看起來那麼不合理了。 那麼網頁的排序由什麼來決定呢? 是由該用戶在漫遊了很長時間——理論上為無窮長時間——後訪問各網頁的機率分布來決定, 訪問機率越大的網頁排序就越靠前。
為了將這一分析數學化, 我們用 Pi(n)表示虛擬用戶在進行第 n 次瀏覽時訪問網頁 Wi 的機率。 顯然, 上述假設可以表述為 (請讀者自行證明):
Pi(n+1)= Σj Pj(n)Pj→i/Nj
這裡 Pj→i 是一個描述網際網路連接結構的指標函數 (indicator function), 其定義是: 如果網頁 Wj 有連結指向網頁 Wi , 則 Pj→i 取值為 1, 反之則為 0。 顯然, 這條假設所體現的正是前面提到的佩奇和布林的排序原則, 因為右端求和式的存在表明與 Wi 有連結的所有網頁 Wj 都對 Wi 的排名有貢獻, 而求和式中的每一項都正比於 Pj, 則表明來自那些網頁的貢獻與它們的自身排序有關, 自身排序越靠前 (即 Pj 越大), 貢獻就越大。
為符號簡潔起見, 我們將虛擬用戶第 n 次瀏覽時訪問各網頁的機率合併為一個列向量 Pn, 它的第 i 個分量為 Pi(n), 並引進一個只與網際網路結構有關的矩陣 H, 它的第 i 行 j 列的矩陣元為 Hij = Pj→i/Nj, 則上述公式可以改寫為:Pn+1 = HPn,這就是計算網頁排序的公式。
熟悉隨機過程理論的讀者想必看出來了, 上述公式描述的是一種馬爾可夫過程 (Markov process), 而且是其中最簡單的一類, 即所謂的平穩馬爾可夫過程 (stationary Markov process), 而 H 則是描述馬爾可夫過程中的轉移概率分布的所謂轉移矩陣 (transition matrix)。 不過普通馬爾可夫過程中的轉移矩陣通常是隨機矩陣 (stochastic matrix), 即每一列的矩陣元之和都為 1 的矩陣 (請讀者想一想, 這一特點的 「物理意義」 是什麼?)。 而我們的矩陣 H 卻可能有一些列是零向量, 從而矩陣元之和為 0, 它們對應於那些沒有對外連結的網頁, 即所謂的 「懸掛網頁」 (dangling page)。
上述公式的求解是簡單得不能再簡單的事情, 即: Pn = HnP0,其中 P0為虛擬讀者初次瀏覽時訪問各網頁的機率分布 (在佩奇和布林的原始論文中, 這一機率分布被假定為是均勻分布)。以上就是谷歌背後最重要的數學奧秘。
谷歌的搜尋引擎問世之後,其他搜尋引擎公司的技術人員都大為震驚:「怎麼可以做到這樣?」最初,幾乎所有人都不知道它的運行機制。電影《星球大戰》預告片全世界同步公開的時候,幾乎所有的伺服器都因為點擊率過高而崩潰,唯有Akamai 的伺服器堅挺不倒。為什麼只有谷歌可以搜索?為什麼只有Akamai 的伺服器不會崩潰?這就是令人震撼的數學能力差距所導致的技術鴻溝。
今年7月,科技部、教育部、中科院、自然科學基金委聯合印發了《關於加強數學科學研究工作方案》,要求加強數學科學研究,持續穩定支持基礎數學科學。
為何要專門發文強調數學的重要性?這是因為,作為自然科學基礎的數學,實質上也是重大技術創新的基礎,直接影響著國家實力。
現階段,幾乎所有的重大發現都與數學的發展與進步相關,數學已成為航空航天、國防安全、生物醫藥、信息、能源、海洋、人工智慧、先進位造等領域不可或缺的重要支撐。我國在很多領域研究遭遇卡脖子的困境,也和數學研究滯後有關。
因此我們可以說提高數學研究能力,可不是靠刷題能解決的。舉個例子,許多工程設計需要通過試驗來印證,但多做試驗費錢、費時,整個設計耗資大而且周期拉得很長,而且很多與國防科技相關的技術也不能輕易試驗,都要通過數學建模的方式來模擬。
我國在原子彈和氫彈的試製過程中,因為充分發揮了理論分析和數值模擬的作用,造原子彈時所用的試驗只佔西方國家的十分之一,而從原子彈到氫彈只用了二年零三個月的時間,就是數值模擬發揮了作用。
去年初,藉由中興事件引發的中國晶片之痛的追問,也可以延伸到數學研究的薄弱上。而華為則在這方面,因為早早看準了基礎理論研究的重要性,從而避免了中興曾經遭遇的窘境。華為曾在3G和2G領域的算法層面帶來了革命性突破,讓其產品在產品紅海中殺出了一條生路,靠的就是其高薪聘請的俄羅斯數學家,而俄羅斯正是世界上名副其實的數學強國。為什麼華為有700多個數學家、800多個物理學家、120多個化學家?1月17日,華為創始人兼CEO在深圳接受央視記者董倩專訪,該節目於20日晚上在央視《面對面》節目播出,這是他首次接受國內電視媒體專訪闡明這一觀點。
任正非講過一段話,說明為什麼華為要堅持投入基礎理論研究。華為現在的水平尚停留在工程教學、物理算法等工程科學的創新層面,尚未真正進入基礎理論研究。隨著逐步逼近香農定理、摩爾定律的極限,而對大流量、低時延的理論還未創造出來,華為已感到前途茫茫、找不到方向。華為已前進在迷航中。重大創新是無人區的生存法則,沒有理論突破,沒有技術突破,沒有大量的技術積累,是不可能產生爆發性創新的。
當第三次工業革命帶來的技術紅利消耗殆盡,世界經濟增長陷入低迷,數學或許能夠成為引領下一波技術創新的突破口。從這點上來看,我們真該好好想想,中國人的數學水平真的領先全球嗎?我們究竟應該怎麼學數學?