【科普】從專家系統到知識圖譜

2021-02-11 中醫藥知識服務平臺

1. 費根鮑姆和DENDRAL

費根鮑姆進入卡內基理工學院(卡內基梅隆的前身)攻讀電氣工程(簡稱 EE)本科時才 16 歲。大三時一門「社會科學的數學模型」的課設定了他的人生軌跡,那門課的老師是司馬賀。本科畢業後他留校,在司馬賀任院長的工業管理研究生院讀博士。博士畢業後他來到加州大學伯克利分校的工商管理學院任教。他曾和師弟菲爾德曼(Julian Feldman)合編過一本論文集《計算機與思維》,這本文集的版稅後來被用來在國際人工智慧聯合會(IJCAI)資助「計算機與思維」獎,這成為人工智慧界給 40 歲以下青年學者最重要的獎項,初衷有點像數學界的菲爾茨獎。排在一長串獲獎人第一位的是維諾格拉德(Terry Winograd),其中還有雷納特(Douglas Lenat)、英年早逝的馬爾以及吳恩達,最新的一位(2016 年度)是史丹福大學做自然語言處理的新秀 Percy Liang。1962 年麥卡錫從東岸的麻省理工學院搬到美麗的舊金山灣區,組建了史丹福大學計算機系。1964 年費根鮑姆響應麥卡錫的召喚,離開伯克利,到不遠處的史丹福大學協助麥卡錫。

費根鮑姆(1936— )

1958 年李德伯格(Joshua Lederberger)獲得諾貝爾生理獎時才 33 歲,得獎的第二年,他就離開當時任教的威斯康星大學前往加州,受邀重建史丹福大學的醫學院並擔任遺傳學系主任。那時,史丹福大學的醫學院還在舊金山,和公立的加州大學舊金山分校一起。加州大學其他各分校沒有醫學院,舊金山分校就是整個加州大學的醫學院,直到 20 世紀 90 年代末期,斯坦福醫學院和加州大學舊金山分校分久必合,尋求合併但最終未果。話說回來,李德伯格在哥倫比亞大學讀本科時就受到「萊布尼茨之夢」的影響,企圖尋找人類知識的普遍規則。1962 年夏,李德伯格還在斯坦福計算中心聽編程的課,他上手的第一門語言是 BALGOL 。他很快就結識了剛從麻省理工學院加入史丹福大學的麥卡錫,他們還企圖把明斯基也吸引到斯坦福醫學院。

李德伯格(1925—2008)

費根鮑姆 1964 年在史丹福大學高等行為科學研究中心的一次會上見到了李德伯格,對科學哲學的共同愛好促成了他們漫長而富有成效的合作。那時李德伯格的研究方向是太空生命探測,更具體地說就是用質譜儀分析火星上採集來的數據,看火星上有無可能存在生命。費根鮑姆的興趣則是機器歸納法,用現在的話說就是機器學習。他們倆,一個有數據,一個搞工具,一拍即合。從科學史的角度看,這是個跨學科的合作,李德伯格的影響力和領導力起了核心作用。按照布坎南的說法,以費根鮑姆為首的計算機團隊的任務就是把李德伯格的思路算法化。李德伯格完成哲學構思後就興趣遷移了,他最初的想法花了費根鮑姆們 5 年的時間才得以實現,李德伯格責怪他們太慢了。費根鮑姆很快就發現李德伯格是遺傳學家,對化學其實也是一竅不通,於是他們找到同校的化學家兼作家兼口服避孕藥發明人翟若適(Carl Djerassi)幫忙。翟若適沒得過諾貝爾獎,但他得過美國國家科學獎(得獎人包括維納、哥德爾、香農、丘成桐)和美國國家技術與創新獎(得獎人包括杜邦公司和 HP 創始人帕卡德、Intel 創始人諾伊斯、微軟創始人蓋茨),這是非常獨特的。另一位兩個獎都得過的是發明了計算機 RISC 架構的寇克(John Cocke)。翟若適那時剛從韋恩州立大學轉到自由的史丹福大學,李德伯格是他在加州結識的第一個朋友。三人合作的結果就是第一個專家系統 DENDRAL。DENDRAL 輸入的是質譜儀的數據,輸出是給定物質的化學結構。費根鮑姆和他的學生捕捉翟若適和他的學生的化學分析知識,把知識提煉成規則。這個專家系統有時做得比翟若適的學生還準。在翟若適的大部頭自傳中,只有一小段提到 DENDRAL,這個項目在他成果輝煌的學術生涯和多姿多彩的生活中,實在算不上什麼。翟自傳中說費根鮑姆一直把 DENDRAL 的核心稱為「翟算法」,而布坎南則記得大家都認為專業知識的提供者是李德伯格,也許是費根鮑姆圓滑,也許是計算機團隊更多地接觸李德伯格。費根鮑姆是學術活動家,剛到史丹福大學就擔任計算中心主任,當時這個職位比計算機系主任恐怕還更有影響力。20 世紀 60 年代初期和中期,費根鮑姆曾兩次訪問蘇聯,對蘇聯的計算機科學和控制論研究印象深刻,他早就觀察到蘇聯的研究偏理論而輕實踐。但蘇聯下棋程序的勝利確實讓世界吃驚。蘇聯控制論的定義太寬泛,無所不包,其結果也沒有重點,難有突破性成果,而當時中國的自動化學科就是仿效蘇聯的。美國不存在自動化學科,無所不包的 EE 和自動化有很大交集。費根鮑姆意識到他的蘇聯同行企圖利用他的名望來為蘇聯同行背書並爭取資助。而在美國,動態規劃的發明人貝爾曼則通過軍方智庫蘭德公司給空軍建議美國應該提防蘇聯的計算機科學研究。費根鮑姆不爽貝爾曼的報告,認為這是他利用蘇聯威脅論來為自己爭取科研紅利。而若干年後,費根鮑姆卻利用日本的五代機項目宣揚日本威脅論,這不得不讓人懷疑他的動機。費根鮑姆創辦的數家公司因各種原因,都沒有大的成功。其中 Teknowledge 公司沒成,倒是副產品、知識庫項目 SUMO 留了下來,現在開源了,成為幾大基礎的常識知識圖譜之一。

2. MYCIN

MYCIN 的牽頭人布坎南也是 DENDRAL 的核心成員。布坎南是哲學出身,興趣廣泛。1964 年,在密執安州立大學學哲學的布坎南想在系統開發公司(SDC)找份夏季實習的工作,沒曾想 SDC 居然把他的簡歷發給了蘭德公司,敢情國防口的簡歷也共享。當時在蘭德做夏季工作的費根鮑姆給布坎南打了個電話,於是布坎南到蘭德公司實習並和費根鮑姆結緣。布坎南的研究方向是科學發現,他走的是邏輯路數而不是心理路數,沒曾想費根鮑姆也對科學哲學興趣濃厚。事實上,費根鮑姆和李德伯格最早關於 DENDRAL 的文章中提到了「機械化科學推理」(mechanizing scientific inference)的概念。布坎南博士畢業後想去教哲學,請費根鮑姆寫推薦信,但費說服布坎南到史丹福大學和他一起搞真正的科學發現。布坎南的哲學背景幫助了他,在 DENDRAL 項目的開頭,李德伯格和費根鮑姆都沒想到假設生成和理論生成的區別,同時布坎南也意識到他在哲學課堂裡學到的卡爾納普理論在計算上行不通。整個 DENDRAL 團隊中沒有一個人對其中涉及的化學知識有全部的了解,每個人都假設其他人知道。布坎南早期的演講開頭都得講點化學背景知識,聽眾聽不懂也不耐煩,他記得有一次是麥卡錫站出來對聽眾大喊:「你們就不能好好聽著嗎?」(Just listen,will you?)麥卡錫的威望為他解了圍。DENDRAL 獲得成功後,布坎南開始尋找新的方向。實驗科學與理論科學比較,是相對原始的,原始經驗也相對容易轉換成規則。除了化學和生物學,醫學是另一個可以馬上利用專家系統的領域。此時的斯坦福醫學院來了一位從哈佛大學本科數學畢業的高才生肖特萊福(Edward Shortliffe),他 1976 年在斯坦福醫學院拿到醫學學位 M.D.,但一年前在布坎南的指導下,他已經獲得了計算機科學的博士,論文就是專家系統 MYCIN,一個針對細菌感染的診斷系統。MYCIN 的處方準確率是 69%,當時專科醫生的準確率是 80%,但 MYCIN 的成績已經優於非本專業的醫生。肖特萊福因此獲得 1976 年 ACM 為青年計算機科學家設立的霍普(Grace Murray Hopper)獎。肖特萊福隨後去麻省總醫院做了三年內科住院醫生,1979 年回到史丹福大學兼任醫學院和計算機系的教授。MYCIN 團隊認為 DENDRAL 是專家系統的始祖,這一方面考慮了 DENDRAL 的時間點確實更早,另一方面布坎南本身就出自 DENDRAL。但紐厄爾,作為外人,卻認為 MYCIN 才是專家系統的鼻祖,因為 MYCIN 首創了後來作為專家系統要素的產生式規則:不精確推理。DENDRAL 的初衷則是從專家採集來的數據做機器歸納,或者說機器學習。雖然 MYCIN 從來沒被臨床使用過,但 MYCIN 的開發原理後來逐步被提煉成為專家系統核心 EMYCIN 的基礎。EMYCIN 的動機是兩方面的,除了通用化外,政府資助也是一個原因。20 世紀 70 年代初,DARPA 削減對人工智慧的資助,原來的長期資助改為每年評審。每次向 DARPA 匯報時,費根鮑姆團隊都得事先對詞,他們不敢說研究經費被用來做醫學相關的研究。直到後來他們拿到美國國家健康研究院(NIH)和美國國家醫學圖書館(NLM)的資助,情況才有所好轉。

3. 專家系統的成熟

一個領域成熟與否的主要測度之一是賺不賺錢。人工智慧沒有商業應用一直是被批評的原因之一。專家系統時代最成功的案例是 DEC 的專家配置系統 XCON。DEC 是 PC 時代來臨之前的寵兒,他們用小型機衝擊 IBM。當客戶訂購 DEC 的 VAX 系列計算機時,XCON 可以按照需求自動配置零部件。從 1980 年投入使用到 1986 年,XCON 一共處理了八萬個訂單。XCON 到底為 DEC 省了多少錢一直是個謎,最高的說法是一年省四千萬美元,還有的說法是兩千五百萬,最低的說法是頂多幾百萬。無論如何,DEC 是把 XCON 當作商業成功來宣傳的。XCON 確實體現了技術的進步,其起源是卡內基梅隆的 R1。說來也有意思,最早的 XCON 居然是用 Fortran 語言寫的,失敗後居然令人髮指地改用 BASIC 語言。紐厄爾的博士生 Charles Forgy 發明了 Rete 算法和 OPS 語言,極大地提高了專家系統的效率,XCON 迅速採用 OPS 和隨後的 OPS5。20 世紀 80 年代初到 20 世紀 90 年代初,專家系統經歷了十年的黃金期,隨著日本五代機的幻滅,「專家系統」變成了一個不僅不時髦,反而有負面含義的詞。網際網路催生的電子商務,有很多和 XCON 類似的應用場景,於是新瓶裝舊酒,專家系統搖身一變,改名規則引擎,成為中間件的標配。徵信、反欺詐和風險控制一直是規則系統擅長的領域,徵信公司 FICO 收購了一系列一直苟延殘喘的專家系統公司,包括 Forgy 的 RulesPower。目前已經很少有獨立的專家系統公司了。

4. 知識表示

知識表示一直是人工智慧不溫不火的一個領域,催生者是專家系統和自然語言理解。KRL(Knowledge Representation Language)是最早的知識表示語言之一,有影響但不成功。參加過施樂實驗室(XEROXParc)KRL 項目的維諾格拉德在多年後總結教訓時說,KRL 要同時解決兩個問題:第一,知識工程師的可用性,也就是說人可讀可寫;第二,得有底層的麥卡錫風格的邏輯來支撐語義。要同時解決這兩個互相矛盾的問題,必然導致結果太複雜,四不像,知識工程師和邏輯學家都不買帳。

邏輯

邏輯是最方便的知識表示語言,從亞里斯多德開始人們就熟悉,邏輯同時具有各種數學性質。任何一本邏輯入門書都會有那個著名的蘇格拉底的例子:人必有一死,蘇格拉底是人,所以蘇格拉底必死。這個三段論表示成現代的數理邏輯就成了如下形式。大前提和小前提:(∀x) Man(x) ⊃ Mortal(x) & Man(Socrates)一階邏輯也稱謂詞邏輯,是希爾伯特簡化羅素的《數學原理》中邏輯的結果。謂詞邏輯沒有本體,也就是沒有關於特定世界的公理。也正因此,哲學家、邏輯學家蒯因把邏輯等同於一階邏輯。一階邏輯只是語法,沒有本體,沒有語義;而高階邏輯,在蒯因的眼裡,其實是「披著偽裝的集合論」(set theory in disguise)。費根鮑姆所謂的知識就是本體。當然,費根堡姆不是從邏輯的角度而是從心理的角度看問題,這顯然受到他的老師紐厄爾和司馬賀的影響。可計算性和計算複雜性理論與邏輯密不可分。一階邏輯是不可判定的,命題邏輯的可滿足性問題是 NP 完全的。知識表示的一個核心問題是找到一個一階邏輯的子集,它是可判定的,並且儘可能地有效。描述邏輯應運而生。描述邏輯可以表達實體和類以及類和類之間的關係。描述邏輯中的實體就是一階邏輯中的常量。實體的表示在描述邏輯中也稱 Abox,例如「牛頓是物理學家」可以表示為:描述邏輯中不需要變量,描述邏輯的術語更像是集合論,類和類之間的關係也稱 TBox。例如,在一個本體中,律師事務所(Lawfirm)是公司(Company)的子集,公司是組織(Organization)的子集,組織是 Agent 的子集,Agent 是 Thing 的子集,這樣一系列關係可以表示為:律師事務所 ⊑公司 ⊑組織⊑Agent ⊑Thing其對應的一階邏輯表達式為:   Lawfirm(x) → Company(x), Company(x) → Agent(x) ,    Agent(x) → Thing(x)一階邏輯的定理證明的 Term Index 技術中有 Subsumption 的概念,表示 Term 之間的集合從屬關係。Tbox 表達了一種簡化的 Subsumption。除了 ABox 和 TBox,還有 RBox 表示關係或者角色,關係之間可以有集合論中常有的子集、交集、併集等操作,例如「父親的父親是祖父」可表示為:has Father ◦ has Father ⊑ has GrandFather其對應的一階邏輯表達式為:has Father(x, y ) ∧ has Father(y, z) → has GrandFather(x, z)

心理學和語言學

知識表示的另一個來源是心理學和語言學,例如概念的上下位繼承關係最方便的表示方式是樹而不是一階邏輯。心理學實驗表明人在回答「金絲雀會飛嗎?」要比回答「鳥會飛嗎?」花的時間長,要回答第一個問題,人要再做一次「金絲雀是鳥」的推理。因為人在存儲知識時只存儲抽象的,這是空間經濟的考慮。心理學家米勒和喬姆斯基等一起開拓了認知科學,他最出名的論文大概就是那篇「魔力數字七」(The Magic Number Seven)。他除了理論的貢獻,晚年帶領普林斯頓大學的認知科學實驗室同仁做了「詞網」(WordNet)。WordNet 不單是一個同義詞辭典,還定義了詞的上下位關係,例如,car 的一種上位是 motor,可以再上位到 wheeled vehicle,直到 entity。WordNet 成為自然語言處理的基本工具。

圖WordNet

明斯基的框架

框架(Frame)就是類型。金絲雀是鳥,所有鳥的性質自動流傳給金絲雀,鳥能飛,金絲雀也能飛。蘋果手機是手機,手機能打電話,蘋果手機也能打電話。框架導致了面向對象(OO,Object-Oriented)的設計哲學,相關的程序設計語言都受此影響。從這個意義上還真驗證了:當一個概念有了成熟的實現時,就自動脫離了人工智慧。差不多同時出現的語義網絡(Semantic Net,注意這個和後面講到的 Semantic Web 相關但不同)是與框架等價的表示方式。語義網絡中的每個節點就是一個框架,每個節點上的邊可以看作一個 slot。

Sowa 的概念圖

IBM 的索瓦(John Sowa)在 20 世紀 80 年代初提出「概念圖」(Conceptual Graph),企圖把知識表示奠定在更加堅實的數學和邏輯基礎上。大約同時或稍早,德國數學家威勒(Rudolf Wille)提出基於代數的「形式化概念分析」(Formal Concept Analysis)。程序設計語言理論也變得越發嚴謹。在概念圖中,多重繼承的類型層次(Muliple Inheritance)可以用代數的偏序關係「格」(Lattice)來表示。「全序」關係(total-order)是「偏序」的一個特例。一個全序集中的成員要麼是 a<=b,要麼是 b<=a。偏序關係容許一個成員可以有多個上級,也可以有多個下級。而全序集中,每個成員只能有一個上級和一個下級,所以,全序關係有時也被稱為線性關係。當用「格」做知識表示時,每個概念就是「格」中的一員,概念之間服從偏序關係。多重繼承的 OO 都是偏序關係。

5. 雷納特和大知識系統

在日本五代機項目帶來的狂潮中,美國政府決定聯合多家高技術企業在德克薩斯大學奧斯汀分校所在地建立微電子與計算機技術公司(MCC,Micro electronics and Computer Technology Corporation)以抗衡日本,海軍上將英曼(Inman)被任命為 CEO,當時在奧斯汀分校從事機器定理證明的資深教授布萊索(Woody Bledsoe)全職加入 MCC 負責研發。這讓人想起二戰時曼哈頓工程中格裡菲斯將軍和奧本海默的分工。費根鮑姆提議建立美國的國家知識技術中心(National Center for Knowledge Technology),像狄德羅創建百科全書一樣,把人類有史以來的知識建庫,這自然對 MCC 的計劃也有很大影響。布萊索向英曼推薦了費根鮑姆的學生雷納特(Douglas Lenat)。雷納特此時 30 出頭,是人工智慧領域的一顆新星。他在賓夕法尼亞大學得了數學和物理雙學位後又拿了個數學碩士,畢業後他對數學和物理的學術工作都失去了興趣,但他畢業馬上就面臨徵兵,只得又跑到加州理工學院接著讀博士。期間他對人工智慧產生了強烈興趣,遂轉學到史丹福大學想跟隨麥卡錫,但正趕上麥卡錫的學術休假年,於是他變成了費根鮑姆和布坎南的學生。他的博士論文實現了一個稱作 AM 的程序,為此,IJCAI 在他博士畢業第二年就給了他一個「計算機與思維」大獎。AM 就是自動數學家(Automated Mathematician)的簡稱,它可以自動「發現」定理。雷納特沒有用「發明」這個詞,從某種意義上體現了他的哲學立場。在經受了一連串關於 AM 不嚴謹的批評之後,雷納特推出了 AM 的後繼 Eurisko。Eurisko 的應用領域更加廣泛,包括博弈。

雷納特(1950— )

當雷納特來到 MCC 時,他已經有了一個新的想法:把人類的常識編碼,建成知識庫。這個新項目叫 Cyc,這三個字母取自英文單詞「百科全書」(encyclopedia)。這其實就是最早的知識圖譜。雷納特堅定地支持他老師費根鮑姆的知識原則(Knowledge Principle):一個系統之所以能展示高級的智能理解和行為,主要是因為在所從事的領域所表現出來的特定知識:概念、事實、表示、方法、比喻以及啟發。雷納特甚至說:「智能就是一千萬條規則。」索瓦提出「知識湯」(knowledge soup)的說法:我們腦子裡的知識不是一坨知識,而是好幾坨知識,每一坨內部是一致的,但坨和坨之間可能不一致,坨和坨之間是鬆散耦合的。古哈(Guha)在史丹福大學的博士論文導師是麥卡錫和費根鮑姆,他的論文講的是如何將一個大理論分解為多個「微理論」(microtheory),如何利用 Cyc 作為多個不同數據源的前端而不是全部,這恰是索瓦的「知識湯」的實現。Cyc 由此可成為數據或信息整合的工具。雷納特對此有點不爽,但他還是把古哈招到了門下。雷納特對 Cyc 自視甚高。他 1984 年時曾預言 15 年後,也就是 1999 年,每臺馬路上賣的電腦裡都得預裝 Cyc。1986 年,雷納特再度預言:Cyc 如果可用的話,至少要有 25 萬條規則,這至少要花 350 個人年,也就是 35 個人幹十年。Cyc 項目開始時有 30 個左右的知識工程師,他們每天的工作就是利用 Cyc 的語言 CycL 把日常生活的常識編碼,這包括教育、購物、娛樂、體育等。到了 1995 年,日本的五代機項目煙消雲散,美國政府也削減了對 MCC 的支持。雷納特帶著 Cyc 離開 MCC,成立 Cycorp 公司,開始了漫長的創業路程。核心骨幹古哈離開 MCC,先後加入了蘋果、網景和谷歌三家公司。倒是 WordNet 在各種版本的 Linux 配置的 App Center 裡很容易找到。WordNet 比 Cyc 更基本也更好用,當然 WordNet 沒有 Cyc 那麼多的推理功能。再過 50 年,人們對一階邏輯也不會像對莎士比亞那麼熟。也許 WordNet 並不是一個好的例子。Cyc 的原始目標更像是當今的維基百科,不過維基百科的受眾是人,Cyc 的用戶是機器。Cyc 在 20 世紀 90 年代初期就被批評說沒有成功案例,而當時的其他專家系統都有或多或少的應用。雷納特辯解道,Cyc 只有在知識量突破臨界點(critical mass)之後才能帶來收益。現在離開那時的批評,已經又過去了 20 多年。我們還是看不到可觀的應用。Cyc 現在有兩個版本:企業版和研究版。企業版收費,研究版對研究人員開放。曾經有一個開源的 OpenCyc,是一個簡版,但試用中發現 OpenCyc 引發的問題太多,被停掉了,Cyc 正在準備用一個雲版代替 OpenCyc。雷納特曾說:「學習只在已知事物的邊緣發生,所以人們只可能學到與自己已知相似的新東西。如果你試圖學習的東西與你已知的東西距離不遠,那麼你就能學會。這個邊緣的範圍越大(你已知的東西越多),就越有可能發現新的東西。」這不僅是他早期研究機器學習的感悟,也可以看作他對後來 Cyc 項目的體會。1984 年雷納特開始 Cyc 項目時,才 30 歲出頭,現在 30 多年過去了,他已經年近 70 歲,仍然擔任 Cycorp 的 CEO。

6. 語義網

由專家系統一脈相傳的這一派自身的邏輯功力不夠,他們一直在和定理證明派掐架;另一方面,他們的工程實踐又略顯欠缺。專家系統風過了後,他們變成了暗流,直到歪打正著的全球資訊網支持者之一伯納斯李(Tim Berners-Lee)提出「語義網」(Semantic Web,見 Berners-Lee 2001),他們認為機會來了。伯納斯李因為草根且便捷的 HTTP 協議和超文本連結標準 HTML 出了名,被各種媒體稱為全球資訊網的發明人。第一波網際網路熱之後,他馬上離開歐洲粒子中心,到麻省理工學院新創辦的全球資訊網協會(W3C)擔任理事長。麻省理工學院給他在當時的計算機科學實驗室(現已合併為 CSAIL 計算機科學與人工智慧實驗室)謀了個位置,顯然目的是提高學院在網際網路大潮中的影響力。網際網路熱拉大了美國科技創新之都矽谷和麻省理工學院所在波士頓 128 公路之間的距離。20 年後,伯納斯李不負所望,得了 2016 年圖靈獎,這大概是圖靈獎有史以來含金量最低的一個。其實全球資訊網更大的功勞應該算在天才程式設計師安德森(Marc Andreessen)的頭上,是革命性的 Mosaic 瀏覽器帶來了網際網路革命。年輕的安德森志在改變世界,而不是徒得虛名。在克拉克(Jim Clark)的指點和幫助下創辦了網際網路標誌性企業「網景」後,他又經歷了幾次艱難但不是特別成功的創業。在第二次網際網路高峰來臨時,安德森與時俱進地創辦了新一代風險投資公司安德森霍洛維茨 ,成果和影響力直追老牌風投 KPCB 和紅杉資本。話說回來,得益於 20 世紀 80 年代就已成熟的 SGML 標準,超文本連結標準 HTML 是 SGML 的某種不夠深謀遠慮的簡化版。而 HTTP 頂多算掛在瀏覽器偉岸身軀上的一個可有可無的小玩具,直到網際網路標準化組織 IETF 對 HTTP 做了幾次修改之後,HTTP 才更像是個專業的東西。全球資訊網協會(W3C)的目的是為全球資訊網設立標準。伯納斯李身邊一下子聚集了一幫多年不得志的非主流 IT 從業者。他們在 W3C 中提出的幾個亂七八糟的標準確實體現出他們的理論功底之缺乏。在 W3C 的各種會中經常會見到各大技術公司中游離於邊緣的資深從業者,有些人換了工作還是代表不同的公司參加各種標準化組織的工作組會議,他們的職業生涯不是為了做出技術貢獻,而是不斷為自己的存在找各種高尚的理由並脫離公司的管理體制。2006 年美國人工智慧年會(AAAI)上,在伯納斯 - 李的主題發言之後,時任谷歌研發總監的諾維格(Peter Norvig)尖銳地發問,被人認為是毫不留情地批評了語義網。W3C 語義網的工作後來在一些準邏輯學家加入後引入了描述邏輯,變得貌似嚴格起來,經過幾次迭代後演化成大雜燴,理論上不嚴謹,實踐中不可用。所謂「萬事開頭難」,但開了一個壞頭,則是災難,為後人修正製造了人為障礙。我們可以把語義網的工作與早期的 DENDRAL 和 MYCIN 做個對比,很明顯,無論理論、實踐還是人文社會政治環境,都不可同日而語。幾乎每個「語義網」的項目都能看到古哈的影子,2013 年他還在谷歌時曾有個演講「隧道深處見到光」(Light at the End of the Tunnel),與其說是誇耀成功,倒不如說是總結教訓。

7. 谷歌和知識圖譜

在維基百科的同時,還有個 Freebase。維基百科的受眾是人,而 Freebase 則強調機器可讀。2016 年維基百科達到 1000 萬篇文章,其中英文版達到 500 萬篇文章,而 Freebase 有 4000 萬個實體表示。Freebase 的背後是一家名叫 Metaweb 的創業公司,創始人之一是希利斯(Danny Hillis)。2010 年 Metaweb 被谷歌收購,谷歌給它起了個響亮的名字「知識圖譜」。2016 年穀歌對 Freebase 停止更新,把所有數據捐給維基數據(Wikidata)。維基數據是維基百科的母公司 Wikimedia 的德國分部的項目,得到了微軟創始人艾倫出資創辦的艾倫人工智慧研究所的支持。除了維基數據之外,另外還有幾個開源的知識圖譜,如 DBpedia、Yago、SUMO 等。值得一提的是,SUMO 是費根鮑姆創辦的一家失敗的公司 Teknowledge 的遺產。所有開源的知識圖譜的基礎數據的重要來源之一都是維基百科。以維基百科中居裡夫人的詞條為例,在「居裡夫人」頁面的右邊,有個被稱為 infobox 的框,裡面包含了居裡夫人的數據,例如她的生日、卒日、出生地、母校、老師、學生等,這些數據已經接近結構化的質量。

維基百科中「居裡夫人」詞條

IBM 沃森的底層就整合了兩個開源知識圖譜 Yago 和 DBpedia。在常識圖譜的上面還可以構建垂直領域(例如生物、健康、金融、電商、交通等)的專業圖譜。紐厄爾和司馬賀在人工智慧中是符號派。其實,符號派中也派中有派,比司馬賀一支更加「符號」的是機器定理證明,紐厄爾和司馬賀的早期生涯曾和一幫邏輯學家結下梁子,而費根鮑姆繼承了老師的基因,對定理證明的第二代代表人物阿蘭•羅賓遜極盡攻擊之能事。明尼蘇達大學巴貝奇研究所做口述歷史的諾伯格在採訪各位人工智慧前輩時,總想把符號派歸結到麻省理工學院和卡內基梅隆大學之爭,而在史丹福大學的麥卡錫和 SRI 的尼爾森偏麻省理工學院,同在史丹福大學的費根鮑姆則偏自己的母校卡內基梅隆大學。當然我們還可以溯源到更早的達特茅斯會議上麥卡錫和司馬賀結下的梁子。但歸根結底,專家系統的理論基礎依然是機器定理證明。儘管費根鮑姆從某種意義上人造了「知識與推理」的對立話題,並強調知識對於邏輯推理的重要性,但知識和推理是不可分割的一對,強調知識並不能讓你脫離符號派。如果從純粹的定理證明的角度簡單地看專家系統,所謂知識其實就是公理,公理越多,推理的步驟自然就會越少。所謂知識和推理的對立,其實是狹義(特殊目的)和廣義(通用)的區別。知識是狹義的,推理是廣義的,因為不需要過多的公理。狹義對機器的短期實現高效,但人的學習門檻較高;而廣義對機器的實現自然低效,但人學習的門檻較低。一階邏輯的學習門檻最低,但當知識庫變大,推理引擎也得變得更加專用才能高效。

推薦閱讀:

【TCMKB】最強解說!中醫藥知識圖譜究竟是什麼?怎麼來的?有什麼?

本文轉自:微信公眾號開放知識圖譜。原文節選自:《人工智慧簡史》第 3 章:從專家系統到知識圖譜,作者:尼克。

相關焦點

  • 從專家系統到知識圖譜
    三人合作的結果就是第一個專家系統 DENDRAL。DENDRAL 輸入的是質譜儀的數據,輸出是給定物質的化學結構。費根鮑姆和他的學生捕捉翟若適和他的學生的化學分析知識,把知識提煉成規則。這個專家系統有時做得比翟若適的學生還準。在翟若適的大部頭自傳中,只有一小段提到 DENDRAL,這個項目在他成果輝煌的學術生涯和多姿多彩的生活中,實在算不上什麼。
  • 知識圖譜和問答系統
    在討論知識圖譜和問答系統之前,先給出幾篇以前的文章。第一篇文章是《立委科普:問答系統的前生今世》,以前也發過,再發一下。
  • 基於知識圖譜的人機對話系統|公開課筆記
    分享嘉賓 | 劉昇平(雲知聲 AI Labs 資深技術專家)來源 | AI 科技大本營在線公開課人機對話系統,或者會話交互,有望成為物聯網時代的主要交互方式。而語言的理解與表達和知識是密切聯繫的,知識圖譜作為一種大規模知識的表示形式,在人機對話系統中各模塊都有重要的應用。
  • 明略數據基於知識圖譜的問答系統淺析
    2011年Siri誕生,到GoogleNow,再到Cortana和Alexa,作為語音助手,其實它們本質上都是問答系統。其融合自然語言處理、知識圖譜構建、知識表示與存儲、認知與推理、信息檢索、深度學習等技術,關聯起人類的基礎知識認知與客戶的業務數據知識經驗,給客戶建立起自己的行業AI系統,通過簡潔高效的問答式交互,實現數據到信息到知識到智慧決策的精準性輸出。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    知識圖譜由節點和邊組成,節點表示實體,邊表示實體與實體之間的關係,這是最直觀、最易於理解的知識表示和實現知識推理的框架,也奠定了現代問答系統的基礎。從20世紀80年代的知識庫與推理機,到21世紀初的語義網絡和本體論,其核心是早期版本的知識圖譜,要麼側重知識表示,要麼側重知識推理,但一直苦於規模小、應用場景不清楚而發展緩慢。
  • 【8月發布-知識圖譜】疾病科室、心血管系統疾病知識圖譜發布,助力...
    2018年,國家衛健委在《印發電子病歷系統應用水平分級評價管理辦法(試行)及評價標準(試行)的通知》中提出要求:「到2019年,所有三級醫院要達到電子病歷系統功能應用水平分級評價3級以上;到2020年,所有三級醫院要達到分級評價4級以上,二級醫院要達到分級評價3級以上。」
  • 分享| 知識圖譜的前世今生:為什麼我們需要知識圖譜?
    第一個部分介紹我們為什麼需要知識圖譜,第二個部分介紹知識圖譜的相關概念及其形式化表示。最後,作一個簡單的總結,並介紹該專欄後續文章會涉及的內容。 一、看到的不僅僅是字符串 當你看見下面這一串文本你會聯想到什麼?
  • 縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕
    2019年,在數據、算法和算力合力驅動下,人工智慧進入了飛躍發展時期,各個領域已經積累了豐富的數據、完善的專家知識和領域知識,為知識圖譜有效落地奠定了基礎,但仍存在場景知識表達難以完備化、更新困難以及推理欠缺等實際問題。
  • 「直男變暖男」——當推薦系統遇上知識圖譜
    因此筆者一直關注技術領域,斥巨資(狗頭保命)先後參加了python機器學習、知識圖譜的課程學習。入門路漫漫,血淚有誰知,吾將上下而求索。本文只是作為探索之路的一個開頭,與感興趣的朋友共同努力,推動文科生走出技術白痴的困境。本文章內容來源為集智學園孫星愷課程《系統講解知識圖譜——從建模到應用》課程,CDA機器學習工程師課程相關筆記整理,課程版權歸原作者所有。
  • 【推薦系統】推薦系統結合知識圖譜簡單總結
    首先對簡單介紹推薦系統,之後整理了幾篇結合知識表示的論文。一句話來介紹的話,就是通過分析歷史數據,來給用戶 推薦 可能會喜歡/購買的商品, 這裡面的核心就是用戶 (User) 和 商品 (Item)。因此item的建模比較關鍵,在推薦系統中,目前不少工作開始融合一些結構信息來提高性能與解釋性,至於如何建模結構,個人理解已有工作大概可以分為兩種類型:結合異質信息網絡 (Heterogenerous Network)本篇筆記主要集中在推薦系統結合知識圖譜的幾篇工作做個非常簡單的總結,後續如時間允許,會將這一系列補全。
  • 科普 | 典型的知識庫/連結數據/知識圖譜項目
    ConceptNet:ConceptNet是常識知識庫。最早源於MIT媒體實驗室的Open Mind Common Sense (OMCS)項目。OMCS項目是由著名人工智慧專家Marvin Minsky於1999年建議創立。ConceptNet主要依靠網際網路眾包、專家創建和遊戲三種方法來構建。ConceptNet知識庫以三元組形式的關係型知識構成。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 知識圖譜系列:Task 1 知識圖譜介紹
    /team-learning-nlp/tree/master/KnowledgeGraph_Basic感謝Datawhale社區的無私分享想學習的小夥伴可以一起來1.知識圖譜知識圖譜本質上是語義網絡(Semantic Network)的知識庫。
  • 知識圖譜助力新基建(新知)
    和一般的數據存儲形式的區別在於,知識圖譜「保存」有推理規則和專家經驗,不僅僅能用數據反映事件,還能反映出事件之間的聯繫。吳信東打個比方,當車輛出現故障無法啟動,資深維修專家用小錘頭敲兩三次,根據聲音判斷就可能知道哪一個部件出了問題。新手則會把可能出問題的部件都拆開來檢查,嘗試所有的可能。知識圖譜相當於人工智慧時代的行業專家。
  • 從神經轉化到符號:從知識圖譜的角度看認知推理的發展
    例如,ACM圖靈獎獲得者約書亞·本吉奧(Yoshua Bengio)在NeuIPS2019的特邀報告中明確提到,深度學習需要從系統1(System1)到系統2(System2)轉化。,則必須藉助外部的符號知識(如知識圖譜)進行認知推理,才能完成求解過程。 綜上所述,「神經+符號」系統無疑是人工智慧的理想模型。我們可以總結出一個完美的「神經+符號」系統的特點和優勢: 1. 可以輕鬆處理目前主流機器學習擅長的問題; 2.
  • 知識圖譜:知識圖譜賦能企業數位化轉型 | AI 研習社職播間第 3 期
    、智能問答和可視化等,類似於 IBM Watson 、Palantir 利用這些技術去做智能情報分析或行業的專家系統一樣,知識圖譜可以應用於醫療癌症智能診斷、金融智能投研、法律類案推薦等場景。當然,除了需要企業有較強的使用意願,知識圖譜也需要技術層面的支撐。這也是為什麼此前的專家系統都沒有做起來的重要原因——因為條件還不具備。這些專家系統往往都是人工在做相關的工作,成本很高,難以落地應用場景。而現在我們的知識圖譜能做起來,主要有 4 個方面的原因:第一,在線海量數據。現在海量數據在線可公開獲取,而企業內部信息化階段也有大量數據沉澱。
  • 【知識圖譜】知識圖譜嵌入模型簡介
    由於在表達人類先驗知識上具有優良的特性,知識圖譜近年來在自然語言處理、問答系統、推薦系統等諸多領域取得了廣泛且成功的應用。    圖1:知識圖譜示意圖  然而,知識圖譜通常存在連結缺失問題,這限制了知識圖譜在相關下遊任務中的應用。為解決該問題,知識圖譜補全任務應運而生。
  • 長篇大論中抓取精華,語音實時生成知識圖譜,這個系統可謂是首個
    然而在現有的技術中,大部分研究集中在從文本轉化到圖譜的過程,卻忽略了從語音實時轉換到圖譜的研究。本文將介紹一篇關於從語音到圖譜構建的論文,可以說是該領域的首個相關研究。這篇來自明略科學院知識工程實驗室的論文已被人工智慧國際頂會 IJCAI 2020 Demonstrations Track 接收。
  • 知識圖譜與智能問答研討會將於北理工召開
    虛擬化的知識圖譜通過提供了一種高層次的查詢接口,使得最終用戶不需關心底層的數據存儲和組織。此技術的核心為查詢重寫,可以重用現有的資料庫的功能。本報告首先將介紹OBDA技術的基本知識。然後講解Ontop系統怎樣實現知識圖譜虛擬化。最後,我們討論知識圖譜虛擬化技術在石油、能源、醫療、考古、測繪、海事安全、電子商務等領域的具體應用案例和前景。
  • 知識圖譜線上培訓課程
    知識圖譜課程全面系統講授、研討知識圖譜相關概念與技術主題,對當前行業落地過程的一系列困難進行答疑解惑,使學員系統地掌握知識圖譜概念與技術。同時,本次課程還邀請了兩位華為雲的專家,結合華為雲知識計算即服務(KaaS)解決方案,為學員深度解析知識圖譜行業實踐經驗。