【數據簡化DataSimp導讀】馮志偉老師為宗成慶博士2006年力作《統計自然語言處理》序言,對經驗主義和理性主義的分析非常精彩,基本是NLP領域的發展史。基於統計的自然語言處理的理論基礎是哲學中的經驗主義,基於規則的自然語言處理的理論基礎是哲學中的理性主義。這些問題,說到底,是關於如何處理經驗主義和理性主義關係的問題。科普是希望更多人投入到科研創新中來,切實解決自然語言領域問題,推進領域的發展。文本數據簡化是對知識文本基於詞頻統計共現分析、時空序列分析等方法做溯源簡化,以搭建知識庫等。秦隴紀陸續搜集傾向於文本媒體諸如政府、媒體、醫學、體育、建築等數據,以彙編為數據圖書《信息社會的數據資源概論》十章:自然、社會、人文、教育、宗教、藝術、技術、哲學、科學等數據資源素材持續收集中,歡迎提供線索或合作。
01 《統計自然語言處理》序言 (15752字)
《統計自然語言處理》序言
本文選自馮志偉文化博客2011-10-23同名文章
德國博登湖風光(馮志偉攝 2011)
▌1 「自然語言處理」定義及基於規則、統計的兩大派
我在1996年出版的《自然語言的計算機處理》中,曾經說過:「自然語言處理(Natural Language Processing, NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的語言進行各種類型處理和加工的技術。」[1]這個定義是正確的,它的缺點是比較籠統。我一直不太滿意這個定義。
後來,我在1999年出版的《計算機進展》(Advanced in Computers)第47卷上,看到了美國計算機科學家馬納瑞斯(Bill Manaris)在《從人-機交互的角度看自然語言處理》一文給自然語言處理提出的如下定義:「自然語言處理可以定義為研究在人與人交際中以及在人與計算機交際中的語言問題的一門學科。自然語言處理要研製表示語言能力(linguistic competence)和語言應用(linguistic performance)的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷地完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的評測技術。」 這個定義的英文如下:「NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication, develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinement of such processes/models, and investigates techniques for evaluating the result systems.」[2]馬納瑞斯的這個定義更加完善,把自然語言處理的研究過程也清楚地反映出來了。我覺得,這是目前在汗牛充棟的各種文獻中可以找到的關於自然語言處理的一個比較好的定義。我原則上認同這個定義。
根據這個定義,自然語言處理要研究「在人與人交際中以及在人與計算機交際中的語言問題」,既要研究語言,又要研究計算機,因此,它是一門交叉學科,它涉及到語言學、計算機科學、數學、自動化技術等不同的學科。
近年來,由於自然語言處理的發展,不同學科的專家絡繹不絕地參加到自然語言處理的隊伍中來。這些來自不同學科領域的專家,對於他們自己原來的本行,當然都是精研通達的內行,但是,他們當中的很多人,對於自然語言處理這個交叉學科本身,並沒有接受過專門的學習和訓練,有必要進行更新知識的再學習,除了學習不同於他們自己本學科的相關學科的知識之外,還有必要學習自然語言處理這個交叉學科本身的知識。
自然語言處理已經有五十多年發展的歷史了,在這五十多年的發展過程中,自然語言處理形成了自己特有的理論和方法,成為了一門獨立的學科,有自己特定的科學內容。關於自然語言處理本身的這些知識,絕不是不學而能的,而是需要經過艱苦的學習之後才可以逐步地掌握的。學習自然語言處理這個學科的專門知識,正如學習語言學、計算機科學、數學和自動化技術一樣,非下苦功學習不可。
正是基於這樣的理解,中國科學院研究生院專門開設了《自然語言理解》的課程,講授自然語言處理這個學科特有的專門知識。中國科學院自動化研究所國家模式識別重點實驗室研究員宗成慶博士從事自然語言處理研究多年,他從2004年春天開始,每年的春季學期在中國科學院研究生院講授這門課程,這門課程受到了學生們的歡迎,2005年被評為中國科學院研究生院的優秀課程。在這門課程的基礎之上,宗成慶博士寫成了這本《統計自然語言處理》的專著。我國過去曾經出版過一些關於自然語言處理和計算語言學的教材,這些教材中,除了翻譯的外版教材之外,大多數只是講授基於規則的自然語言處理,沒有專門講授基於統計的自然語言處理。《統計自然語言處理》一書,彌補了我國自然語言處理教材的這個缺陷,起了填補空白的作用。這本書納入《中文信息處理叢書》並由清華大學出版社出版,這是我國自然語言處理教材建設的一件值得慶幸的好事。
▌2 宗成慶博士《統計自然語言處理》成書背景及15章內容概述
《統計自然語言處理》一書的整體規劃和部分章節是宗成慶博士於2004年底在法國格勒諾布爾信息與應用數學研究院(Institut d'Informatique et Mathématique appliquée de Grenoble, IMAG)的自動翻譯研究組(Groupe d'Etude de la Transduction Automatique, GETA)完成的。我在1978年至1981年期間,也曾經在IMAG的GETA師從著名數學家沃古瓦(B. Vauquois)在這裡做過機器翻譯的研究,建立了漢-法/英/日/俄/德多語言機器翻譯系統,使我對於自然語言處理這個神奇的研究領域產生了越來越濃厚的興趣,從此我就義無返顧地投身於自然語言處理的事業。歲月不饒人,將近三十年的光陰匆匆地流逝而去,當年我還是風華正茂的青年人,而今,我已經變成白髮蒼蒼的垂垂老人了,我為這個事業坎坷地奮鬥了大半生時間,其間的甘苦有誰知道呢?三十年來,不論是處於順境還是逆境之中,我對於IMAG和GETA始終懷著難分難解的深厚感情,這種感情當然主要是對於我們共同的自然語言處理事業的感情。宗成慶博士2004年底恰巧在IMAG和GETA寫作《統計自然語言處理》一書,說明他和我之間確實有緣分,這樣的緣分促使我們這兩個年齡相差甚大的人,在自然語言處理這個領域裡風雨同舟,休戚與共,一起克服攀登科學高峰的困難,共同分享探索語言奧秘的愉快,成為了忘年之交的好朋友。
宗成慶博士完稿之後,也許他知道我對於IMAG和GETA的這種特殊感情,馬上就給我送來了此書的列印稿,我得以先睹為快。
我帶著極大的熱情和濃厚的興趣一口氣讀完此書。覺得此書覆蓋全面,論述清楚,實例豐富,邏輯嚴密,既有深入的理論分析,又有實際的應用研究。它既是初學者學習統計自然語言處理的入門初階,又是這個領域的專門家深入鑽研統計自然語言處理的導航指南。不禁為之拍手叫絕!
本書在內容的安排方面別具匠心。1至9章主要介紹統計自然語言處理的理論,10至15章主要介紹統計自然語言處理的應用。
在統計自然語言處理的理論方面。首先介紹有關的基礎知識,例如,概率論和資訊理論的基本概念、形式語言和自動機的基本概念。這些基礎知識,對於以語言學為背景的讀者是非常有用的,對於理科背景的讀者,可以略過這一部分。由於統計自然語言處理是以語料庫和詞彙知識庫為語言資源的,因此,在介紹了有關的基礎知識之後,本書講解了語料庫和詞彙知識庫的基本原理,使讀者對語言資源的建造技術獲得清楚的認識。語言模型和隱馬爾柯夫模型是統計自然語言處理的基礎理論,在統計自然語言處理中具有重要的地位。因此,本書介紹了語言模型的基本概念,並討論了各種平滑方法和自適應方法,又介紹了隱馬爾柯夫模型和參數估計的方法。接著,本書分別論述了在詞法分析與詞性標註中的統計方法,在句法分析中的統計方法,在詞彙語義中的統計方法。
在統計自然語言處理的應用方面,本書對統計自然語言處理的各個應用部門進行系統的、詳細的介紹,分別介紹了統計機器翻譯、語音翻譯、文本分類、信息檢索與問答系統、信息抽取、口語信息處理與人機對話系統等各種應用系統中的統計自然語言處理方法。
從篇幅來看,本書的理論部分與應用部分幾乎各佔一半,可以說是理論與應用並重。
近年來,統計自然語言處理發展迅速,取得了令人矚目的成績。統計自然語言處理的理論逐漸完善,形成了科學的體系,統計自然語言處理的應用碩果纍纍,產生了很好的社會效益和經濟效益,在文字識別、語音合成等領域的技術已經達到了實用化的水平。統計自然語言處理的技術,還進一步應用到網絡內容管理、網絡信息監控、不良信息的過濾和預警等方面,並且與網絡技術、圖象識別和理解技術、情感計算(affective computing)技術結合起來,由此而產生了一些新的研究方向,在現代信息科學的發展中,起著越來越重要的作用。
面對統計自然語言處理取得的這些令人鼓舞的輝煌成績,有些學者的頭腦開始發熱起來,他們輕視自然語言處理中基於規則的方法,甚至貶低那些從事研究基於規則的自然語言處理的學者。這種局面使我感到困惑。
IBM公司的傑裡內克(Fred Jelinek)是一位使用統計方法研究語音識別與合成的著名學者,他在統計自然語言處理研究中取得的成績是人所共知的。我也很佩服他的成就。可是,他卻看不起使用規則方法研究自然語言處理的人。他於1988年12月7日在自然語言處理評測討論會上的發言中曾經說過:「每當一個語言學家離開我們的研究組,語音識別率就提高一步。」(「Anytime a linguist leaves the group the recognition rate goes up.」)根據一些參加這個會議的人回憶,當時傑裡內克講的話更為尖刻,他說:「每當我解僱一個語言學家,語音識別系統的性能就會改善一些。」(「Every time I fire a linguist the performance of the recognizer improves」.)傑裡內克的這些話,把基於規則的自然語言處理研究貶低到了一無是處的程度,把從事基於規則的自然語言處理研究的人,貶低到了一錢不值的程度,對於基於規則的自然語言處理,採取了嗤之以鼻的態度。[3]
2000年,在美國約翰·霍普金斯大學(Johns Hopkins University)的暑期機器翻譯討論班(Workshop)上,來自南加州大學、羅切斯特大學、約翰·霍普金斯大學、施樂公司、賓夕法尼亞州立大學、史丹福大學等學校的研究人員,對於基於統計的機器翻譯進行了討論,以德國亞琛大學(Aachen university)年輕的博士研究生奧赫(Franz Josef Och)為主的13位科學家寫了一個總結報告(Final Report),報告的題目是《統計機器翻譯的句法》(「Syntax for Statistical Machine Translation」),提出了統計機器翻譯的基本框架。奧赫在國際計算語言學2002年的會議(ACL2002)上又發表論文,題目是:《統計機器翻譯的分辨訓練與最大熵模型》(「Discriminative Training and Maximum Entropy Models for Statistical Machine Translation」),進一步提出統計機器翻譯的系統性方法,獲ACL2002大會最佳論文獎。2003年7月,在美國馬裡蘭州巴爾的摩(Baltimore, Maryland)由美國商業部國家標準與技術研究所NIST/TIDES (National Institute of Standards and Technology) 主持的機器翻譯評比中,奧赫獲得了最好的成績,他使用統計方法從雙語語料庫中自動地獲取語言知識,建立統計機器翻譯的規則,在很短的時間之內就構造了阿拉伯語和漢語到英語的若干個機器翻譯系統。偉大的希臘科學家阿基米德(Archimedes)說過:「只要給我一個支點,我就可以移動地球。」(「Give me a place to stand on, and I will move the world.」)而奧赫也模仿著阿基米德說:「只要給我充分的並行語言數據,那麼,對於任何的兩種語言,我就可以在幾小時之內給你構造出一個機器翻譯系統。」(「Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.」)。奧赫在統計機器翻譯方面的成就使我們高興,他使我們看到了未來的機器翻譯的曙光,令人鼓舞。[4]可是,2006年6月奧赫在西班牙巴塞隆納舉行的TC-STAR機器翻譯系統評測研討會上的特邀報告《機器翻譯的挑戰》(Challenges in Machine Translation)中,他卻認為:在統計機器翻譯中,語料庫的規模起著舉足輕重的作用,而詞法、句法和語義等語言知識對於機器翻譯系統的性能幾乎沒有什麼幫助,甚至有些語言知識還會起副作用,幫倒忙。他也開始貶低語言規則在自然語言處理中的正面作用。
傑裡內克和奧赫都是在自然語言處理中卓有成就的學者,他們上述的言論值得我們中國的自然語言處理工作者注意,也值得我們深思。
▌3 自然語言處理發展史中的經驗主義、理性主義哲學
基於統計的自然語言處理的理論基礎是哲學中的經驗主義,基於規則的自然語言處理的理論基礎是哲學中的理性主義。這些問題,說到底,是關於如何處理經驗主義和理性主義關係的問題。為了追本溯源,在這裡,我願意回顧一下哲學中經驗主義與理性主義,並且考察一下它們對於語言學和自然語言處理的影響,這樣,也許能夠幫助我們更清楚地認識到這個問題的實質。
自從人類有哲學以來,在認識論中就產生了經驗主義(empiricism)和理性主義(rationalism)這樣兩種不同的傾向。在歐洲哲學史上,當近代哲學家們把這兩種傾向的衝突以及解決這一衝突的不懈努力提到全部哲學的中心地位上來之前,無數的哲學家們就已經對此進行了艱苦卓絕的研究,走過了崎嶇漫長的探索道路。
人類哲學從它產生的第一天起,就在自身之內包含著一個深刻的矛盾:哲學來自經驗,但它又是超越經驗的結果;哲學是理性思維、範疇和概念的運動,但又只有經驗才能推動它。感性與理性的這種矛盾實質上也就是經驗主義和理性主義的矛盾,它作為存在和思維的矛盾在認識論方面的一個表現,自開始的時候起,就是人類哲學思想發展的內在動力之一。
這種矛盾,在人們的思想中都有不同程度、不同形式的表現,但是,經驗主義和理性主義作為比較典型的認識論的理論,並且形成了兩個既互相對立、互相鬥爭,又互相影響、互相滲透的哲學流派而在哲學史上出現,則是在西歐早期資產階級反封建革命時期前後,成為16世紀末期到18世紀中期重要的歷史現象。
在16世紀到18世紀的歐洲,經驗主義哲學以培根(Francis Bacon, 1561-1626)、霍布斯(Thomas Hobbes, 1588-1679)、洛克(John Locke, 1632-1704)、休謨(David Hume, 1711-1776)為代表,他們都是英國哲學家,因此,經驗主義也被稱為「英國經驗主義」。培根批評理性派哲學家,他說,「理性派哲學家只是從經驗中抓到一些既沒有適當審定也沒有經過仔細考察和衡量的普遍例證,而把其餘的事情都交給了玄想和個人的機智活動」[5]。他提出「三表法」,制定了經驗歸納法,建立了歸納邏輯體系,對於經驗自然科學起了理論指導作用。霍布斯認為歸納法不僅包含分析,而且也包含綜合,分析得出的普遍原因只有通過綜合才能成為研究對象的特殊原因。洛克把理性演繹隸屬於經驗歸納之下,對演繹法作了經驗主義的理解,他認為,一切知識和推論的直接對象是一些個別、特殊的事物,我們獲取知識的正確途徑只能是從個別、特殊進展到一般,他說,「我們的知識是由特殊方面開始,逐漸才擴展到概括方面的。只是在後來,人心就採取了另一條相反的途徑,它要盡力把它的知識形成概括的命題」[6]。休謨運用實驗推理的方法來剖析人性,試圖建立一個精神哲學體系,他指出,「一切關於事實的推理,似乎都建立在因果關係上面,只要依照這種關係來推理,我們便能超出我們的記憶和感覺的見證以外」[7],他認為,「原因和結果的發現,是不能通過理性,只能通過經驗的」[8],經驗是我們關於因果關係的一切推論和結論的基礎。
現代自然科學的代表人物牛頓(Isaac Newton, 1642-1727)建立了經典力學的基本定律即牛頓三定律和萬有引力定律,使經典力學的科學體系臻於完善。他的哲學思想也帶有明顯的經驗主義傾向。他認為自然哲學只能從經驗事實出發去解釋世界事物,因而經驗歸納法是最好的論證方法。他說:「雖然用歸納法來從實驗和觀察中進行論證不能算是普遍的結論,但它是事物本性所許可的最好的論證方法,並隨著歸納的愈為普遍,這種論證看來也愈有力」[9]。他把經驗歸納作為科學研究的一般方法論原理,認為,「實驗科學只能從現象出發,並且只能用歸納來從這些現象中推演出一般的命題」[10]。正是由於牛頓遵循經驗歸納法,才在物理學上取得了劃時代的偉大成就。
法國啟蒙運動的代表人物伏爾泰(Voltaire,1694-1778)也有明顯的經驗主義傾向。他以洛克的經驗主義為武器去反對教會至上的權威,否定神的啟示和奇蹟,否認靈魂不死。他讚美經驗主義哲學家洛克:「也許從來沒有一個人比洛克頭腦更明智,更有條理,在邏輯上更為嚴謹」[11]。他積極地把英國經驗主義推行到法國,推動了法國的啟蒙運動。
哲學中的這種經驗主義深刻地影響到自然語言處理中基於統計的經驗主義方法,它是自然語言處理中經驗主義方法的哲學基礎。
在自然語言處理中,除了基於統計的經驗主義方法之外,還同時存在著基於規則的理性主義方法。自然語言處理中的理性主義來源於哲學中的理性主義。
在歐洲,這種理性主義源遠流長,到了16世紀末至18世紀中期更加成熟,出現了笛卡兒(Rene Descartes, 1596-1650)、斯賓諾莎(Benetict de Spinoza, 1632-1677)、萊布尼茲(Cottfried Wilhelm Leibniz, 1646-1716)等傑出的理性主義哲學家。笛卡兒改造了傳統的演繹法,制定了理性的演繹法,他認為,任何真理性的認識,都必須首先在人的認識中找到一個最確定、最可靠的支點,才能保證由此推出的知識也是確定可靠的。他提出在認識中應當避免偏見,要把每一個命題都儘可能地分解成細小的部分,直待能夠圓滿解決為止,要按照次序引導我們的思想,從最簡單的對象開始,逐步上升到對複雜事物的認識。斯賓諾莎把幾何學方法應用於論理學研究,使用幾何學的公理、定義、命題、證明等步驟來進行演繹推理,在他的《論理學》的副標題中明確標示「依幾何學方式證明」。萊布尼茲把邏輯學高度地抽象化、形式化、精確化,使邏輯學成為一種用符號進行演算的工具。笛卡兒是法國哲學家,斯賓諾莎是荷蘭哲學家,萊布尼茲是德國哲學家,他們崇尚理性,提倡理性的演繹法。他們都居住在歐洲大陸,因此,理性主義也被稱為「大陸理性主義」。
在哲學領域中,始終都存在著經驗主義和理性主義的矛盾和鬥爭。這種矛盾和鬥爭,當然也會反映到自然語言處理中來。
早期的自然語言處理研究帶有鮮明的經驗主義色彩。
1913年,俄國科學家馬爾柯夫(A. Markov,1856-1922)使用手工查頻的方法,統計了普希金長詩《歐根●奧涅金》中的元音和輔音的出現頻度,提出了馬爾柯夫隨機過程理論,建立了馬爾柯夫模型,他的研究是建立在對於俄語的元音和輔音的統計數據的基礎之上的,採用的方法主要是基於統計的經驗主義的方法。
1948年,美國科學家香農(Shannon)把離散馬爾柯夫過程的概率模型應用於描述語言的自動機。他把通過諸如通信信道或聲學語音這樣的媒介傳輸語言的行為比喻為「噪聲信道」(noisy channel)或者「解碼」(decoding)。香農還借用熱力學的術語「熵」(entropy)作為測量信道的信息能力或者語言的信息量的一種方法,並且他採用手工方法來統計英語字母的概率,然後使用概率技術首次測定了英語字母的不等概率零階熵為4.03比特。香農的研究工作基本上是基於統計的,也帶有明顯的經驗主義傾向。[12]
然而,這種基於統計的經驗主義的傾向到了喬姆斯基(Noam Chomsky)那裡出現了重大的轉向。
1956年,喬姆斯基從香農的工作中吸取了有限狀態馬爾柯夫過程的思想,首先把有限狀態自動機作為一種工具來刻畫語言的語法,並且把有限狀態語言定義為由有限狀態語法生成的語言,建立了自然語言的有限狀態模型。喬姆斯基根據數學中的公理化方法來研究自然語言,採用代數和集合論把形式語言定義為符號的序列,從形式描述的高度,分別建立了有限狀態語法、上下文無關語法、上下文有關語法和0型語法的數學模型,並且在這樣的基礎上來評價有限狀態模型的局限性,喬姆斯基斷言:有限狀態模型不適合用來描述自然語言。這些早期的研究工作產生了「形式語言理論」(formal language theory)這個新的研究領域,為自然語言和形式語言找到了一種統一的數學描述理論,形式語言理論也成為了計算機科學最重要的理論基石。
喬姆斯基在他的著作中明確地採用理性主義的方法,他高舉理性主義的大旗,把自己的語言學稱之為「笛卡兒語言學」(Descartes linguistics),充分地顯示出喬姆斯基的語言學與理性主義之間不可分割的血緣關係。喬姆斯基完全排斥經驗主義的統計方法。在1969年的Quine's Empirical Assumptions一文中,他說:「然而應當認識到,『句子的概率』這個概念,在任何已知的對於這個術語的解釋中,都是一個完全無用的概念」[13]。他主張採用公理化、形式化的方法,嚴格地按照一定的規則來描述自然語言的特徵,試圖使用有限的規則描述無限的語言現象,發現人類普遍的語言機制,建立所謂的「普遍語法」(universal grammar)。轉換生成語法在20世紀60年代末到70年代時期在國際語言學界風靡一時,轉換生成語法對於自然語言的形式化描述方法,為計算機處理自然語言提供了有力的武器,有力地推動了自然語言處理的研究和發展。
轉換生成語法的研究途徑在一定程度上克服了傳統語言學的某些弊病,推動了語言學理論和方法論的進步,但它認為統計只能解釋語言的表面現象,不能解釋語言的內在規則或生成機制,遠離了早期自然語言處理的經驗主義的途徑。這種轉換生成語法的研究途徑實際上全盤繼承了理性主義的哲學思潮。
在自然語言處理中的理性主義方法是一種基於規則的方法(rule-based approach),或者叫做符號主義的方法(symbolic approach)。這種方法的基本根據是「物理符號系統假設」(physical symbol system hypothesis)。這種假設主張,人類的智能行為可以使用物理符號系統來模擬,物理符號系統包含一些物理符號的模式(pattern),這些模式可以用來構建各種符號表達式以表示符號的結構。物理符號系統使用對於符號表達式的一系列的操作過程來進行各種操作,例如,符號表達式的建造(creation)、刪除(deletion)、複製(reproduction)和各種轉換(transformation)等。自然語言處理中的很多研究工作基本上是在物理符號系統假設的基礎上進行的。
這種基於規則的理性主義方法適合於處理深層次的語言現象和長距離依存關係,它繼承了哲學中理性主義的傳統,多使用演繹法(deduction)而很少使用歸納法(induction)。
自然語言處理中,在基於規則的方法的基礎上發展起來的技術有:有限狀態轉移網絡、有限狀態轉錄機、遞歸轉移網絡、擴充轉移網絡、短語結構語法、自底向上剖析、自頂向下剖析、左角分析法、Earley算法、CYK算法、富田算法、複雜特徵分析法、合一運算、依存語法、一階謂詞演算、語義網絡、框架網絡等。
在20世紀50年代末期到60年代中期,自然語言處理中的經驗主義也興盛起來,注重語言事實的傳統重新抬頭,學者們普遍認為:語言學的研究必須以語言事實作為根據,必須詳盡地、大量地佔有材料,才有可能在理論上得出比較可靠的結論。
自然語言處理中的經驗主義方法是一種基於統計的方法(statistic-based approach),這種方法使用概率或隨機的方法來研究語言,建立語言的概率模型。這種方法表現出強大的後勁,特別是在語言知識不完全的一些應用領域中,基於統計的方法表現得很出色。基於統計的方法最早在文字識別領域中取得很大的成功,後來在語音合成和語音識別中大顯身手,接著又擴充到自然語言處理的其他應用領域。
基於統計的方法適合於處理淺層次的語言現象和近距離的依存關係,它繼承了哲學中經驗主義的傳統,多使用歸納法(induction)而很少使用演繹法(deduction)。
這個時期自然語言處理中的經驗主義派別,主要是一些來自統計學專業和電子學專業的研究人員。在20世紀50年代後期,貝葉斯方法(Bayesian method)開始被應用於解決最優字符識別的問題。1959年,布來德索(Bledsoe)和布羅寧(Browning)建立了用於文本識別的貝葉斯系統,該系統使用了一部大詞典,計算詞典的單詞中所觀察的字母系列的似然度,把單詞中每一個字母的似然度相乘,就可以求出字母系列的似然度來。1964年,墨斯特萊(Mosteller)和華萊士(Wallace)用貝葉斯方法成功地解決了在《聯邦主義者》(The Federalist)文章中的原作者的分布問題,顯示出經驗主義方法的優越性。
20世紀50年代還建立了世界上第一個聯機語料庫:布朗美國英語語料庫(Brown corpus)。這個語料庫包含100萬單詞的語料,樣本來自不同文體的500多篇書面文本,涉及的文體有新聞、中篇小說、寫實小說、科技文章等。這些語料是布朗大學(Brown University)在1963-64年收集的。隨著語料庫的出現,使用統計方法從語料庫中自動地獲取語言知識,成為了自然語言處理研究的一個重要方面。
20世紀60年代,統計方法在語音識別算法的研製中取得成功。其中特別重要的是隱馬爾柯夫模型(Hidden Markov Model)和噪聲信道與解碼模型(Noisy channel model and decoding model)。這些模型是分別獨立地由兩支隊伍研製的。一支是傑裡內克(Jelinek),巴勒(Bahl),梅爾塞(Mercer)和IBM的華生研究中心的研究人員,另一支是卡內基梅隆大學(Carnegie Mellon University)的拜克(Baker)等。AT&T的貝爾實驗室(Bell laboratories)也是語音識別和語音合成的中心之一。
在自然語言處理中,在基於統計的方法的基礎上發展起來的技術有:隱馬爾柯夫模型、最大熵模型、n元語法、概率上下文無關語法、噪聲信道理論、貝葉斯方法、最小編輯距離算法、Viterbi算法、A*搜索算法、雙向搜索算法、加權自動機、支持向量機等。
不過,在20世紀60年代至80年代初期的這一個時期,在自然語言處理領域的主流方法仍然是基於規則的理性主義方法,經驗主義方法並沒有受到特別的重視。
這種情況在80年代初期發生了變化。在1983-1993年的十年中,自然語言處理研究者對於過去的研究歷史進行了反思,發現過去被忽視的有限狀態模型和經驗主義方法仍然有其合理的內核。在這十年中,自然語言處理的研究又回到了50年代末期到60年代初期幾乎被否定的有限狀態模型和經驗主義方法上去,之所以出現這樣的復甦,其部分原因在於1959年喬姆斯基對於斯金納(Skinner)的「言語行為」(Verbal Behavior)的很有影響的評論在80年代和90年代之交遭到了學術界在理論上的強烈反對,人們開始注意到基於規則的理性主義方法的缺陷。
這種反思的第一個傾向是重新評價有限狀態模型,由於卡普蘭(Kaplan)和凱依(Kay)在有限狀態音系學和形態學方面的工作,以及丘奇(Church)在句法的有限狀態模型方面的工作,顯示了有限狀態模型仍然有著強大的功能,因此,這種模型又重新得到自然語言處理學界的注意。
這種反思的第二個傾向是所謂的「重新回到經驗主義」;這裡值得特別注意的是語音和語言處理的概率模型的提出,這樣的模型受到IBM公司華生研究中心的語音識別概率模型的強烈影響。這些概率模型和其他數據驅動的方法還傳播到了詞類標註、句法剖析、名詞短語附著歧義的判定以及從語音識別到語義學的聯接主義方法的研究中去。
從20世紀90年代開始,自然語言處理進入了一個新的階段。1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者哈欽斯(J. Hutchins)在他的特約報告中指出,自1989年以來,機器翻譯的發展進入了一個新紀元。這個新紀元的重要標誌是,在基於規則的技術中引入了語料庫方法,其中包括統計方法,基於實例的方法,通過語料加工手段使語料庫轉化為語言知識庫的方法,等等。這種建立在大規模真實文本處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它將會把自然語言處理推向一個嶄新的階段。
在過去的四十多年中,從事自然語言處理系統開發的絕大多數學者,基本上都採用基於規則的理性主義方法,這種方法主張,智能的基本單位是符號,認知過程就是在符號的表徵下進行符號運算,因此,思維就是符號運算。
著名語言學家弗託(J. A. Fodor)在《Representations》一書(MIT Press, 1980)中說:「只要我們認為心理過程是計算過程(因此是由表徵式定義的形式操作),那麼,除了將心靈看作別的之外,還自然會把它看作一種計算機。也就是說,我們會認為,假設的計算過程包含哪些符號操作,心靈也就進行哪些符號操作。因此,我們可以大致上認為,心理操作跟圖靈機的操作十分類似。」[14] 弗託的這種說法代表了自然語言處理中的基於規則(符號操作)的理性主義觀點。
這樣的觀點受到了學者們的批評。舍爾(J. R. Searle)在他的論文《Minds, Brains and Programmes》[15]中,提出了所謂「中文屋子」的質疑。他提出,假設有一個懂得英文但是不懂中文的人被關在一個屋子中,在他面前是一組用英文寫的指令,說明英文符號和中文符號之間的對應和操作關係。這個人要回答用中文書寫的幾個問題,為此,他首先要根據指令規則來操作問題中出現的中文符號,理解問題的含義,然後再使用指令規則把他的答案用中文一個一個地寫出來。比如,對於中文書寫的問題Q1用中文寫出答案A1,對於中文書寫的問題Q2用中文寫出答案A2,如此等等。這顯然是非常困難的幾乎是不能實現的事情,而且,這個人即使能夠這樣做,也不能證明他懂得中文,只能說明他善於根據規則做機械的操作而已。舍爾的批評使基於規則的理性主義方法受到了普遍懷疑。
理性主義方法的另一個弱點是在實踐方面的。自然語言處理的理性主義者把自己的目的局限於某個十分狹窄的專業領域之中,他們採用的主流技術是基於規則的句法分析技術和語義分析技術,儘管這些應用系統在某些受限的「子語言」(sub-language)中也曾經獲得一定程度的成功,但是,要想進一步擴大這些系統的覆蓋面,用它們來處理大規模的真實文本,仍然有很大的困難。因為從自然語言系統所需要裝備的語言知識來看,其數量之浩大和顆粒度之精細,都是以往的任何系統所望塵莫及的。而且,隨著系統擁有的知識在數量上和程度上發生的巨大變化,系統在如何獲取、表示和管理知識等基本問題上,不得不另闢蹊徑。這樣,就提出了大規模真實文本的自然語言處理問題。1990年8月在芬蘭赫爾辛基舉行的第13屆國際計算語言學會議(即COLING'90)為會前講座確定的主題是:「處理大規模真實文本的理論、方法和工具」,這說明,實現大規模真實文本的處理將是自然語言處理在今後一個相當長的時期內的戰略目標。為了實現戰略目標的轉移,需要在理論、方法和工具等方面實行重大的革新。1992年6月在加拿大蒙特婁舉行的第四屆機器翻譯的理論與方法國際會議(即TMI-92)上,宣布會議的主題是「機器翻譯中的經驗主義和理性主義的方法」。這裡的所謂「理性主義」,就是指以生成轉換語法為基礎的基於規則的方法,所謂「經驗主義」,就是指以大規模語料庫的分析為基礎的基於統計的方法。從中可以看出當前自然語言處理所關注的焦點。當前語料庫的建設和語料庫語言學的崛起,正是自然語言處理戰略目標轉移的一個重要標誌。隨著人們對大規模真實文本處理的日益關注,越來越多的學者認識到,基於語料庫的分析方法(即經驗主義的方法)至少是對基於規則的分析方法(即理性主義的方法)的一個重要補充。因為從「大規模」和「真實」這兩個因素來考察,語料庫才是最理想的語言知識資源。
在這樣的情況下,人們開始深入地思考,喬姆斯基提出的形式語法規則是否是真正的語言規則?是否能夠經受大量的語言事實的檢驗?這些形式語言規則是否應該和大規模真實文本語料庫中的語言事實結合起來考慮,而不是一頭鑽入理性主義的牛角尖?
喬姆斯基作為一位求實求真、虛懷若谷的語言學大師,最近他也開始對於理性主義進行了反思,表現了與時俱進的勇氣。在最近他提出的「最簡方案」中,他認為,所有重要的語法原則直接運用於表層,不同語言之間的差異通過詞彙來處理,把具體的規則減少到最低限度,開始注重對具體的詞彙的研究。可以看出,喬姆斯基的轉換生成語法也開始對詞彙重視起來,逐漸地改變了原來的理性主義的立場,開始與經驗主義妥協,或者悄悄地向經驗主義復歸。
在20世紀90年代的最後五年(1994-1999),自然語言處理的研究發生了很大的變化,出現了空前繁榮的局面。概率和數據驅動的方法幾乎成為了自然語言處理的標準方法。句法剖析、詞類標註、參照消解和話語處理的算法全都開始引入概率,並且採用從語音識別和信息檢索中借過來的評測方法,統計方法已經滲透到了機器翻譯、文本分類、信息檢索、問答系統、信息抽取、語言知識挖掘等自然語言處理的應用系統中去,基於統計的經驗主義方法逐漸成為自然語言處理研究的主流。
可以看出,在自然語言處理發展的過程中,始終充滿了基於規則的理性主義方法和基於統計的經驗主義方法之間的矛盾,這種矛盾時起時伏,此起彼伏。自然語言處理也就在這樣的矛盾中逐漸成熟起來。
▌4 自然語言處理的規則、統計方法的優點和缺點
總結自然語言處理發展的曲折歷史可以看出,基於規則的理性主義方法和基於統計的經驗主義方法各有千秋,因此,我們應當用科學的態度來分析它們的優點和缺點。
我們認為,基於規則的理性主義方法的優點是:
-- 基於規則的理性主義方法中的規則主要是語言學規則,這些規則的形式描述能力和形式生成能力都很強,在自然語言處理中有很好的應用價值。
-- 基於規則的理性主義方法可以有效地處理句法分析中的長距離依存關係(long-distance dependencies)等困難問題,如句子中長距離的主語和謂語動詞之間的一致關係(subject-verb agreement)問題,wh移位(wh-movement)問題。
-- 基於規則的理性主義方法通常都是明白易懂的,表達得很清晰,描述得很明確,很多語言事實都可以使用語言模型的結構和組成成分直接地、明顯地表示出來。
-- 基於規則的理性主義方法在本質上是沒有方向性的,使用這樣的方法研製出來的語言模型,既可以應用於分析,也可以應用於生成,這樣,同樣的一個語言模型就可以雙向使用。
-- 基於規則的理性主義方法可以在語言知識的各個平面上使用,可以在語言的不同維度上得到多維的應用。這種方法不僅可以在語音和形態的研究中使用,而且,在句法、語義、語用、篇章的分析中也大顯身手。
-- 基於規則的理性主義方法與計算機科學中提出的一些高效算法是兼容的,例如,計算機算法分析中使用Earley算法(1970年提出)和Marcus 算法(1978年提出)都可以作為基於規則的理性主義方法在自然語言處理中得到有效的使用。
基於規則的理性主義方法的缺點是:
-- 基於規則的理性主義方法研製的語言模型一般都比較脆弱,魯棒性很差,一些與語言模型稍微偏離的非本質性的錯誤,往往會使得整個的語言模型無法正常地工作,甚至導致嚴重的後果。不過,近來已經研製出一些魯棒的、靈活的剖析技術,這些技術能夠使基於規則的剖析系統在剖析失敗中得到恢復。
-- 使用基於規則的理性主義方法來研製自然語言處理系統的時候,往往需要語言學家、語音學家和各種專家的配合工作,進行知識密集的研究,研究工作的強度很大;基於規則的語言模型不能通過機器學習的方法自動地獲得,也無法使用計算機自動地進行泛化。
-- 使用基於規則的理性主義方法設計的自然語言處理系統的針對性都比較強,很難進行進一步的升級。例如,斯羅肯(Slocum)在1981年曾經指出,LIFER自然語言知識處理系統在經過兩年的研發之後,已經變得非常之複雜和龐大,以至於這個系統原來的設計人很難再對它進行一點點的改動。對於這個系統的稍微改動將會引起整個連續的「水波效應」(ripple effect),以至於「牽一髮而動全身」,而這樣的副作用是無法避免和消除的。
-- 基於規則的理性主義方法在實際的使用場合其表現往往不如基於統計的經驗主義方法那樣好。因為基於統計的經驗主義方法可以根據實際訓練數據的情況不斷地優化,而基於規則的理性主義方法很難根據實際的數據進行調整。基於規則的方法很難模擬語言中局部的約束關係,例如,單詞的優先關係對於詞類標註是非常有用的,但是基於規則的理性主義方法很難模擬這種優先關係。
不過,儘管基於規則的理性主義方法有這樣的或那樣的不足,這種方法終究是自然語言處理中研究得最為深入的技術,它仍然是非常有價值和非常強有力的技術,我們決不能忽視這種方法。事實證明,基於規則的理性主義方法的算法具有普適性,不會由於語種的不同而失去效應,這些算法不僅適用於英語、法語、德語等西方語言,也適用於漢語、日語、韓國語等東方語言。在一些領域針對性很強的應用中,在一些需要豐富的語言學知識支持的系統中,特別是在需要處理長距離依存關係的自然語言處理系統中,基於規則的理性主義方法是必不可少的。
我們認為,基於統計的經驗主義方法的優點是:
-- 使用基於統計的經驗主義方法來訓練語言數據,從訓練的語言數據中自動地或半自動地獲取語言的統計知識,可以有效地建立語言的統計模型。這種方法在文字和語音的自動處理中效果良好,在句法自動分析和詞義排歧中也初露鋒芒。
-- 基於統計的經驗主義方法的效果在很大的程度上依賴於訓練語言數據的規模,訓練的語言數據越多,基於統計的經驗主義方法的效果就越好。在統計機器翻譯中,語料庫的規模,特別是用來訓練語言模型的目標語言語料庫的規模,對於系統性能的提高,起著舉足輕重的作用。因此,可以通過擴大語料庫規模的辦法來不斷提高自然語言處理系統的性能。
-- 基於統計的經驗主義方法很容易與基於規則的理性主義方法結合起來,從而處理語言中形形色色的約束條件問題,使自然語言處理系統的效果不斷地得到改善。
-- 基於統計的經驗主義方法很適合用來模擬那些有細微差別的、不精確的、模糊的概念(如「很少、很多、若干」等),而這些概念,在傳統語言學中需要使用模糊邏輯(fuzzy logic)才能處理。
基於統計的經驗主義方法的缺點是:
-- 使用基於統計的經驗主義方法研製的自然語言處理系統,其運行時間是與統計模式中所包含的符號類別的多少成比例線性地增長的,不論在訓練模型的分類中還是在測試模型的分類中,情況都是如此。因此,如果統計模式中的符號類別數量增加,系統的運行效率會明顯地降低。
-- 在當前語料庫技術的條件下,要使用基於統計的經驗主義方法為某個特殊的應用領域獲取訓練數據,還是一件費時費力的工作,而且很難避免出錯。基於統計的經驗主義方法的效果與語料庫的規模、代表性、正確性以及加工深度都有密切的關係,可以說,用來訓練數據的語料庫的質量在很大的程度上決定了基於統計的經驗主義方法的效果。
-- 基於統計的經驗主義方法很容易出現數據稀疏的問題,隨著訓練語料庫規模的增大,數據稀疏的問題會越來越嚴重,這個問題需要使用各種平滑(smoothing)技術來解決。
自然語言中既有深層次的現象,也有淺層次的現象,既有遠距離的依存關係,也有近距離的依存關係,自然語言處理中既要使用演繹法,也要使用歸納法。因此,我們主張把理性主義和經驗主義結合起來,把基於規則的方法和基於統計的方法結合起來。我們認為,強調一種方法,反對另一種方法,都是片面的,都無助於自然語言處理的發展。
英國經驗主義哲學家培根既反對理性主義,也反對狹隘的經驗主義,他指出,由於經驗能力和理性能力這兩方面的「離異」和「不和」,給科學知識的發展造成了嚴重的障礙,為了克服這樣的弊病,他提出了經驗能力和理性能力聯姻的重要原則。他說,「我以為我已經在經驗能力和理性能力之間永遠建立了一個真正合法的婚姻,二者的不和睦與不幸的離異,曾經使人類家庭的一切事務陷於混亂」[16]。他生動而深刻地說道:「歷來處理科學的人,不是實驗家,就是教條者。實驗家像螞蟻,只會採集和使用;推論家像蜘蛛,只憑自己的材料來織成絲網。而蜜蜂卻是採取中道的,它在庭園裡和田野裡從花朵中採集材料,而用自己的能力加以變化和消化。哲學的真正任務就正是這樣,它既非完全或主要依靠心的能力,也非只把從自然歷史和機械實驗收來的材料原封不動,囫圇吞棗地累置於記憶當中,而是把它們變化過和消化過放置在理解力之中。這樣看來,要把這兩種機能、即實驗的和理性的這兩種機能,更緊密地和更精純地結合起來(這是迄今還未收到的),我們就可以有很多的希望」[17]。
培根的主張是值得我們深思的。在自然語言處理的研究中,我們不能採取像蜘蛛那樣的理性主義方法,單純依靠規則,也不能採取像螞蟻那樣的經驗主義方法,單純依靠統計,我們應當像蜜蜂那樣,把理性主義和經驗主義兩種機能更緊密地、更精純地結合起來,推動自然語言處理的發展。
本書講述的是統計自然語言處理的經驗主義方法,這些方法只是自然語言處理的一個方面。我們在閱讀本書的同時,不要忘記在自然語言處理中還存在著另外一個方面,這就是基於規則的理性主義方法,我們也應當學習這些基於規則的理性主義方法,並且把這兩種方法結合起來,彼此取長補短,使之相得益彰。這樣,我們對於自然語言處理這個學科,就可以獲得全面而完整的認識。
儘管本書的題目是《統計自然語言處理》,但是,本書作者並不偏袒基於統計的經驗主義方法而排斥基於規則的理性主義方法,他對於經驗主義和理性主義之間關係的認識是非常清楚的,他說:「無論如何,不管是理性主義也好,還是經驗主義也好,任何一種主義都不可能完全解決自然語言處理這一複雜問題。而實際上,很多新的研究結果也表明,將理性主義和經驗主義相結合,尋找一種融合的解決方法,才是自然語言處理的真正出路。」他強烈主張:在基於規則的理性主義方法和基於統計的經驗主義方法之間,絕不應該有哪種方法可以「藐視天下,惟我獨尊」。對於宗成慶博士的這種真知灼見,我舉雙手贊成。
2006年8月25日於北京
[1] 馮志偉,自然語言的計算機處理,上海外語教育出版社,1996年。
[2] Bill Manaris, Natural language processing: A human-computer interaction perspective, Advances in Computers, Volume 47,1999)
[3] M. Palmer and T. Finin, workshop on the evaluation of natural language processing systems, Computational Linguistics, 16(3), 175-181, 1990.
[4] 馮志偉,當前自然語言處理發展的四個特點,《暨南大學華文學院學報》2006年,第1期(總21期)。
[5] 《十六——十八世紀西歐各國哲學》,第23頁。
[6] 洛克,《人類理解論》,商務印書館,第598頁。
[7] 休謨,《人類理解研究》,商務印書館,第27頁。
[8] 《十六——十八世紀西歐各國哲學》,第634頁。
[9] 塞耶編,《牛頓自然哲學著作選》,商務印書館,第212頁。
[10] 塞耶編,《牛頓自然哲學著作選》,商務印書館,第8頁。
[11] 《十八世紀法國哲學》,商務印書館,第59頁,1963年。
[12] 《十八世紀法國哲學》,商務印書館,第59頁,1963年。
[12] 馮志偉在20世紀70年代末和80年代初,模仿香農的工作,採用手工查頻的方法測定出漢字的不等概率零階熵為9.65 比特。他的方法也是一種基於統計的經驗主義方法。
[13] Chomsky, N. 1969. Quine's Empirical Assumptions, In Davidson, D. and J. Hintikka, eds., Words and Objections, Dordrecht: Reidel.
[14] J. A. Fodor, Representations, MIT Press, 1980.
[15] J. R. Searle, Minds, Brains and Programmes, 載 Behavioral and Brain Sciences, Vol.3, 1980.
[16] 《十六——十八世紀西歐各國哲學》,第8頁。
[17] 培根,《新工具》,商務印書館,第75頁。
02 「自然語言處理綜論」第二版中文版 (404字)
「自然語言處理綜論」第二版中文版由馮志偉和孫樂翻譯完成,電子工業出版社出版,第二版對於第一版做了大幅度修訂,增加了最新的內容特別是語音自動處理的內容。這是英文版作者的序言:
The goal of a textbook author is the same as the goal of any teacher:passing on our love for our field to a new generation of students, encouraging them to do innovative and creative new work, and helping them to advance the state of human knowledge. For a textbook in the interdisciplinary area of speech and language processing, there are the additional goals of enabling students from differing backgrounds (computer science, linguistics, electrical engineering) to acquire the knowledge and tools of the new interdisciplinary field, and to develop an appreciation for the beauty and complexity and variety of human language. We therefore feel extremely lucky that Professor Feng Zhiwei, aided by Dr.Sun Le, undertook the arduous job of translating this book. Prof. Feng is the perfect scholar for the job of translating such a book, because of his long experience in our field, his wide breadth of research interests throughout computational linguistics in general and Chinese computational linguistics specifically, his remarkable familiarity with the state of our field across the world, from China to France, from Korea to Germany, and of course his expertise on translation as a research area! We are also very excited that this translation into Chinese is the first translation of our book out of English.China's long history of the study of language is of course well known, and in this new century the young scientists of China are already playing a key role in the important scientific advances of our field. We look forward to even more amazing contributions from China and hope that our small book, now with the help of Prof. Feng and Dr.Sun, can provide a small aide in the great role that Chinese scientists are playing on the world scientific stage!
Daniel Jurafsky and James H.Martin
Palo Alto,California,and Boulder,Colorado
官方網站:DataSimp.Org全文完
參考文獻(106字)
1. 馮志偉文化博客.《統計自然語言處理》序言.[EB/OL] http://blog.sina.cn/dpool/blog/s/blog_72d083c70102dszv.html,2011-10-23.
x. 秦隴紀.數據科學與大數據技術專業概論;人工智慧研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.
從《統計自然語言處理》序言看NLP領域發展史 (16529字)
秦隴紀
簡介:馮志偉老師為宗成慶博士2006年力作《統計自然語言處理》序言,對經驗主義和理性主義的分析非常精彩,基本是NLP領域的發展史。(文末「閱讀原文」可下載1圖1條3碼22k字11頁PDF)點藍色連結字「數據簡化DataSimp」關注後菜單項有文章分類。作者:馮志偉。來源:新浪馮志偉文化博客,本文獲得馮老師授權轉發,引文出處請看參考文獻。版權聲明:技術科普文章,公開資料©版權歸原作者所有。僅供學習研究,請勿用於商業非法目的。如出處有誤或侵權,請聯繫溝通、授權或刪除事宜,聯繫、投稿郵箱DataSimp@126.com。強烈譴責超市、銀行、學校、政府、公司倒賣公民姓名、身份證號、手機號等人身數據!【「數據簡化DataSimp、科學Sciences、知識簡化」公號希望聚集各專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。秦隴紀發起公號覆蓋各領域科普及簡化,期待您參與~】歡迎轉發。
目錄
從《統計自然語言處理》序言看NLP領域發展史 (16529字)1
01 《統計自然語言處理》序言 (15752字)1
02 「自然語言處理綜論」第二版中文版 (404字)10
參考文獻(106字)11
Appx(618字).數據簡化DataSimp社區簡介11
Appx(618字).數據簡化DataSimp社區簡介
信息社會之數據、信息、知識、理論持續累積,遠超個人認知學習時間、精力和能力。應對大數據時代的數據爆炸、信息爆炸、知識爆炸,解決之道重在數據簡化(Data Simplification):簡化減少知識、媒體、社交數據,使信息、數據、知識越來越簡單,符合人與設備的負荷。數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques):對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方面做簡化,應用於信息及數據系統、知識工程、各類資料庫、物理空間表徵、生物醫學數據,數學統計、自然語言處理、機器學習技術、人工智慧等領域。歡迎投稿數據科學技術、簡化實例相關論文提交電子版(最好有PDF格式)。
填寫申請表加入數據簡化DataSimp社區成員,至少一篇數據智能、編程開發IT文章:①原創或翻譯美歐數據科技論文;②社區義工或完善S圈型黑白靜態和三彩色動態社區LOGO圖標。論文投稿、加入數據簡化社區,詳情訪問www.datasimp.org社區網站,網站維護請投會員郵箱DataSimp@163.com。請關注公眾號「數據簡化DataSimp」留言,或加微信QinlongGEcai(備註:姓名/單位-職務/學校-專業/手機號),免費加入投稿群或「科學Sciences學術文獻」讀者微信群等。
長按下圖「識別圖中二維碼」關注三個公眾號(搜名稱也行,關注後底部菜單有文章分類頁連結):
數據技術公眾號「數據簡化DataSimp」:
科普公眾號「科學Sciences」:
社會教育知識公眾號「知識簡化」:
(轉載請寫出處:©秦隴紀2010-2018匯譯編,歡迎技術、傳媒夥伴投稿、加入數據簡化社區!「數據簡化DataSimp、科學Sciences、知識簡化」投稿反饋郵箱DataSimp@126.com。)
普及科學知識,分享到朋友圈
https://pan.baidu.com/s/1raiezYc