1. 費根鮑姆和DENDRAL
費根鮑姆進入卡內基理工學院(卡內基梅隆的前身)攻讀電氣工程(簡稱 EE)本科時才 16 歲。大三時一門「社會科學的數學模型」的課設定了他的人生軌跡,那門課的老師是司馬賀。本科畢業後他留校,在司馬賀任院長的工業管理研究生院讀博士。博士畢業後他來到加州大學伯克利分校的工商管理學院任教。他曾和師弟菲爾德曼(Julian Feldman)合編過一本論文集《計算機與思維》,這本文集的版稅後來被用來在國際人工智慧聯合會(IJCAI)資助「計算機與思維」獎,這成為人工智慧界給 40 歲以下青年學者最重要的獎項,初衷有點像數學界的菲爾茨獎。排在一長串獲獎人第一位的是維諾格拉德(Terry Winograd),其中還有雷納特(Douglas Lenat)、英年早逝的馬爾以及吳恩達,最新的一位(2016 年度)是史丹福大學做自然語言處理的新秀 Percy Liang。1962 年麥卡錫從東岸的麻省理工學院搬到美麗的舊金山灣區,組建了史丹福大學計算機系。1964 年費根鮑姆響應麥卡錫的召喚,離開伯克利,到不遠處的史丹福大學協助麥卡錫。費根鮑姆(1936— )
1958 年李德伯格(Joshua Lederberger)獲得諾貝爾生理獎時才 33 歲,得獎的第二年,他就離開當時任教的威斯康星大學前往加州,受邀重建史丹福大學的醫學院並擔任遺傳學系主任。那時,史丹福大學的醫學院還在舊金山,和公立的加州大學舊金山分校一起。加州大學其他各分校沒有醫學院,舊金山分校就是整個加州大學的醫學院,直到 20 世紀 90 年代末期,斯坦福醫學院和加州大學舊金山分校分久必合,尋求合併但最終未果。話說回來,李德伯格在哥倫比亞大學讀本科時就受到「萊布尼茨之夢」的影響,企圖尋找人類知識的普遍規則。1962 年夏,李德伯格還在斯坦福計算中心聽編程的課,他上手的第一門語言是 BALGOL 。他很快就結識了剛從麻省理工學院加入史丹福大學的麥卡錫,他們還企圖把明斯基也吸引到斯坦福醫學院。李德伯格(1925—2008)
費根鮑姆 1964 年在史丹福大學高等行為科學研究中心的一次會上見到了李德伯格,對科學哲學的共同愛好促成了他們漫長而富有成效的合作。那時李德伯格的研究方向是太空生命探測,更具體地說就是用質譜儀分析火星上採集來的數據,看火星上有無可能存在生命。費根鮑姆的興趣則是機器歸納法,用現在的話說就是機器學習。他們倆,一個有數據,一個搞工具,一拍即合。從科學史的角度看,這是個跨學科的合作,李德伯格的影響力和領導力起了核心作用。按照布坎南的說法,以費根鮑姆為首的計算機團隊的任務就是把李德伯格的思路算法化。李德伯格完成哲學構思後就興趣遷移了,他最初的想法花了費根鮑姆們 5 年的時間才得以實現,李德伯格責怪他們太慢了。費根鮑姆很快就發現李德伯格是遺傳學家,對化學其實也是一竅不通,於是他們找到同校的化學家兼作家兼口服避孕藥發明人翟若適(Carl Djerassi)幫忙。翟若適沒得過諾貝爾獎,但他得過美國國家科學獎(得獎人包括維納、哥德爾、香農、丘成桐)和美國國家技術與創新獎(得獎人包括杜邦公司和 HP 創始人帕卡德、Intel 創始人諾伊斯、微軟創始人蓋茨),這是非常獨特的。另一位兩個獎都得過的是發明了計算機 RISC 架構的寇克(John Cocke)。翟若適那時剛從韋恩州立大學轉到自由的史丹福大學,李德伯格是他在加州結識的第一個朋友。三人合作的結果就是第一個專家系統 DENDRAL。DENDRAL 輸入的是質譜儀的數據,輸出是給定物質的化學結構。費根鮑姆和他的學生捕捉翟若適和他的學生的化學分析知識,把知識提煉成規則。這個專家系統有時做得比翟若適的學生還準。在翟若適的大部頭自傳中,只有一小段提到 DENDRAL,這個項目在他成果輝煌的學術生涯和多姿多彩的生活中,實在算不上什麼。翟自傳中說費根鮑姆一直把 DENDRAL 的核心稱為「翟算法」,而布坎南則記得大家都認為專業知識的提供者是李德伯格,也許是費根鮑姆圓滑,也許是計算機團隊更多地接觸李德伯格。費根鮑姆是學術活動家,剛到史丹福大學就擔任計算中心主任,當時這個職位比計算機系主任恐怕還更有影響力。20 世紀 60 年代初期和中期,費根鮑姆曾兩次訪問蘇聯,對蘇聯的計算機科學和控制論研究印象深刻,他早就觀察到蘇聯的研究偏理論而輕實踐。但蘇聯下棋程序的勝利確實讓世界吃驚。蘇聯控制論的定義太寬泛,無所不包,其結果也沒有重點,難有突破性成果,而當時中國的自動化學科就是仿效蘇聯的。美國不存在自動化學科,無所不包的 EE 和自動化有很大交集。費根鮑姆意識到他的蘇聯同行企圖利用他的名望來為蘇聯同行背書並爭取資助。而在美國,動態規劃的發明人貝爾曼則通過軍方智庫蘭德公司給空軍建議美國應該提防蘇聯的計算機科學研究。費根鮑姆不爽貝爾曼的報告,認為這是他利用蘇聯威脅論來為自己爭取科研紅利。而若干年後,費根鮑姆卻利用日本的五代機項目宣揚日本威脅論,這不得不讓人懷疑他的動機。費根鮑姆創辦的數家公司因各種原因,都沒有大的成功。其中 Teknowledge 公司沒成,倒是副產品、知識庫項目 SUMO 留了下來,現在開源了,成為幾大基礎的常識知識圖譜之一。2. MYCIN
MYCIN 的牽頭人布坎南也是 DENDRAL 的核心成員。布坎南是哲學出身,興趣廣泛。1964 年,在密執安州立大學學哲學的布坎南想在系統開發公司(SDC)找份夏季實習的工作,沒曾想 SDC 居然把他的簡歷發給了蘭德公司,敢情國防口的簡歷也共享。當時在蘭德做夏季工作的費根鮑姆給布坎南打了個電話,於是布坎南到蘭德公司實習並和費根鮑姆結緣。布坎南的研究方向是科學發現,他走的是邏輯路數而不是心理路數,沒曾想費根鮑姆也對科學哲學興趣濃厚。事實上,費根鮑姆和李德伯格最早關於 DENDRAL 的文章中提到了「機械化科學推理」(mechanizing scientific inference)的概念。布坎南博士畢業後想去教哲學,請費根鮑姆寫推薦信,但費說服布坎南到史丹福大學和他一起搞真正的科學發現。布坎南的哲學背景幫助了他,在 DENDRAL 項目的開頭,李德伯格和費根鮑姆都沒想到假設生成和理論生成的區別,同時布坎南也意識到他在哲學課堂裡學到的卡爾納普理論在計算上行不通。整個 DENDRAL 團隊中沒有一個人對其中涉及的化學知識有全部的了解,每個人都假設其他人知道。布坎南早期的演講開頭都得講點化學背景知識,聽眾聽不懂也不耐煩,他記得有一次是麥卡錫站出來對聽眾大喊:「你們就不能好好聽著嗎?」(Just listen,will you?)麥卡錫的威望為他解了圍。DENDRAL 獲得成功後,布坎南開始尋找新的方向。實驗科學與理論科學比較,是相對原始的,原始經驗也相對容易轉換成規則。除了化學和生物學,醫學是另一個可以馬上利用專家系統的領域。此時的斯坦福醫學院來了一位從哈佛大學本科數學畢業的高才生肖特萊福(Edward Shortliffe),他 1976 年在斯坦福醫學院拿到醫學學位 M.D.,但一年前在布坎南的指導下,他已經獲得了計算機科學的博士,論文就是專家系統 MYCIN,一個針對細菌感染的診斷系統。MYCIN 的處方準確率是 69%,當時專科醫生的準確率是 80%,但 MYCIN 的成績已經優於非本專業的醫生。肖特萊福因此獲得 1976 年 ACM 為青年計算機科學家設立的霍普(Grace Murray Hopper)獎。肖特萊福隨後去麻省總醫院做了三年內科住院醫生,1979 年回到史丹福大學兼任醫學院和計算機系的教授。MYCIN 團隊認為 DENDRAL 是專家系統的始祖,這一方面考慮了 DENDRAL 的時間點確實更早,另一方面布坎南本身就出自 DENDRAL。但紐厄爾,作為外人,卻認為 MYCIN 才是專家系統的鼻祖,因為 MYCIN 首創了後來作為專家系統要素的產生式規則:不精確推理。DENDRAL 的初衷則是從專家採集來的數據做機器歸納,或者說機器學習。雖然 MYCIN 從來沒被臨床使用過,但 MYCIN 的開發原理後來逐步被提煉成為專家系統核心 EMYCIN 的基礎。EMYCIN 的動機是兩方面的,除了通用化外,政府資助也是一個原因。20 世紀 70 年代初,DARPA 削減對人工智慧的資助,原來的長期資助改為每年評審。每次向 DARPA 匯報時,費根鮑姆團隊都得事先對詞,他們不敢說研究經費被用來做醫學相關的研究。直到後來他們拿到美國國家健康研究院(NIH)和美國國家醫學圖書館(NLM)的資助,情況才有所好轉。3. 專家系統的成熟
4. 知識表示
邏輯
心理學和語言學
知識表示的另一個來源是心理學和語言學,例如概念的上下位繼承關係最方便的表示方式是樹而不是一階邏輯。心理學實驗表明人在回答「金絲雀會飛嗎?」要比回答「鳥會飛嗎?」花的時間長,要回答第一個問題,人要再做一次「金絲雀是鳥」的推理。因為人在存儲知識時只存儲抽象的,這是空間經濟的考慮。心理學家米勒和喬姆斯基等一起開拓了認知科學,他最出名的論文大概就是那篇「魔力數字七」(The Magic Number Seven)。他除了理論的貢獻,晚年帶領普林斯頓大學的認知科學實驗室同仁做了「詞網」(WordNet)。WordNet 不單是一個同義詞辭典,還定義了詞的上下位關係,例如,car 的一種上位是 motor,可以再上位到 wheeled vehicle,直到 entity。WordNet 成為自然語言處理的基本工具。圖WordNet
明斯基的框架
Sowa 的概念圖
5. 雷納特和大知識系統
雷納特(1950— )
當雷納特來到 MCC 時,他已經有了一個新的想法:把人類的常識編碼,建成知識庫。這個新項目叫 Cyc,這三個字母取自英文單詞「百科全書」(encyclopedia)。這其實就是最早的知識圖譜。雷納特堅定地支持他老師費根鮑姆的知識原則(Knowledge Principle):一個系統之所以能展示高級的智能理解和行為,主要是因為在所從事的領域所表現出來的特定知識:概念、事實、表示、方法、比喻以及啟發。雷納特甚至說:「智能就是一千萬條規則。」索瓦提出「知識湯」(knowledge soup)的說法:我們腦子裡的知識不是一坨知識,而是好幾坨知識,每一坨內部是一致的,但坨和坨之間可能不一致,坨和坨之間是鬆散耦合的。古哈(Guha)在史丹福大學的博士論文導師是麥卡錫和費根鮑姆,他的論文講的是如何將一個大理論分解為多個「微理論」(microtheory),如何利用 Cyc 作為多個不同數據源的前端而不是全部,這恰是索瓦的「知識湯」的實現。Cyc 由此可成為數據或信息整合的工具。雷納特對此有點不爽,但他還是把古哈招到了門下。雷納特對 Cyc 自視甚高。他 1984 年時曾預言 15 年後,也就是 1999 年,每臺馬路上賣的電腦裡都得預裝 Cyc。1986 年,雷納特再度預言:Cyc 如果可用的話,至少要有 25 萬條規則,這至少要花 350 個人年,也就是 35 個人幹十年。Cyc 項目開始時有 30 個左右的知識工程師,他們每天的工作就是利用 Cyc 的語言 CycL 把日常生活的常識編碼,這包括教育、購物、娛樂、體育等。到了 1995 年,日本的五代機項目煙消雲散,美國政府也削減了對 MCC 的支持。雷納特帶著 Cyc 離開 MCC,成立 Cycorp 公司,開始了漫長的創業路程。核心骨幹古哈離開 MCC,先後加入了蘋果、網景和谷歌三家公司。倒是 WordNet 在各種版本的 Linux 配置的 App Center 裡很容易找到。WordNet 比 Cyc 更基本也更好用,當然 WordNet 沒有 Cyc 那麼多的推理功能。再過 50 年,人們對一階邏輯也不會像對莎士比亞那麼熟。也許 WordNet 並不是一個好的例子。Cyc 的原始目標更像是當今的維基百科,不過維基百科的受眾是人,Cyc 的用戶是機器。Cyc 在 20 世紀 90 年代初期就被批評說沒有成功案例,而當時的其他專家系統都有或多或少的應用。雷納特辯解道,Cyc 只有在知識量突破臨界點(critical mass)之後才能帶來收益。現在離開那時的批評,已經又過去了 20 多年。我們還是看不到可觀的應用。Cyc 現在有兩個版本:企業版和研究版。企業版收費,研究版對研究人員開放。曾經有一個開源的 OpenCyc,是一個簡版,但試用中發現 OpenCyc 引發的問題太多,被停掉了,Cyc 正在準備用一個雲版代替 OpenCyc。雷納特曾說:「學習只在已知事物的邊緣發生,所以人們只可能學到與自己已知相似的新東西。如果你試圖學習的東西與你已知的東西距離不遠,那麼你就能學會。這個邊緣的範圍越大(你已知的東西越多),就越有可能發現新的東西。」這不僅是他早期研究機器學習的感悟,也可以看作他對後來 Cyc 項目的體會。1984 年雷納特開始 Cyc 項目時,才 30 歲出頭,現在 30 多年過去了,他已經年近 70 歲,仍然擔任 Cycorp 的 CEO。6. 語義網
7. 谷歌和知識圖譜
維基百科中「居裡夫人」詞條
IBM 沃森的底層就整合了兩個開源知識圖譜 Yago 和 DBpedia。在常識圖譜的上面還可以構建垂直領域(例如生物、健康、金融、電商、交通等)的專業圖譜。紐厄爾和司馬賀在人工智慧中是符號派。其實,符號派中也派中有派,比司馬賀一支更加「符號」的是機器定理證明,紐厄爾和司馬賀的早期生涯曾和一幫邏輯學家結下梁子,而費根鮑姆繼承了老師的基因,對定理證明的第二代代表人物阿蘭•羅賓遜極盡攻擊之能事。明尼蘇達大學巴貝奇研究所做口述歷史的諾伯格在採訪各位人工智慧前輩時,總想把符號派歸結到麻省理工學院和卡內基梅隆大學之爭,而在史丹福大學的麥卡錫和 SRI 的尼爾森偏麻省理工學院,同在史丹福大學的費根鮑姆則偏自己的母校卡內基梅隆大學。當然我們還可以溯源到更早的達特茅斯會議上麥卡錫和司馬賀結下的梁子。但歸根結底,專家系統的理論基礎依然是機器定理證明。儘管費根鮑姆從某種意義上人造了「知識與推理」的對立話題,並強調知識對於邏輯推理的重要性,但知識和推理是不可分割的一對,強調知識並不能讓你脫離符號派。如果從純粹的定理證明的角度簡單地看專家系統,所謂知識其實就是公理,公理越多,推理的步驟自然就會越少。所謂知識和推理的對立,其實是狹義(特殊目的)和廣義(通用)的區別。知識是狹義的,推理是廣義的,因為不需要過多的公理。狹義對機器的短期實現高效,但人的學習門檻較高;而廣義對機器的實現自然低效,但人學習的門檻較低。一階邏輯的學習門檻最低,但當知識庫變大,推理引擎也得變得更加專用才能高效。推薦閱讀:
【TCMKB】最強解說!中醫藥知識圖譜究竟是什麼?怎麼來的?有什麼?
本文轉自:微信公眾號開放知識圖譜。原文節選自:《人工智慧簡史》第 3 章:從專家系統到知識圖譜,作者:尼克。