在「大數據」時代,人工智慧作為實現科技強國的核心技術,不僅成為國家的戰略需要,在傳統領域也已領跑量化人文研究。人工智慧對於人文學者究竟意味著什麼,人文主義者應怎樣採用量化方法處理和數位技術的關係,這些都是當下亟須從數字人文角度來思考的相關問題。
數字人文實踐中的人工智慧
與哲學界更偏重理論思考和倫理憂思不同,對數字人文實踐來說,人工智慧在很長一段時間內都或多或少地意味著機器學習(machine learning)的實操領域,特別是其中的無監督學習(unsupervised learning),亦即人工幹預近乎為零的數據訓練法。在此,人工智慧並非科幻小說中神乎其神的「超級智能」,更多是觸手可及的統計方法,正越來越普遍地被運用在大規模數據建模中,相關從業者也一直在摸索中學習、在學習中實驗。
自2009年8月起,芝加哥大學文本光學實驗室就利用上海圖書館提供的民國時期期刊語料數據,從五個方向先後實驗了用以區分和發現1918—1949年三十年間各種潛在「新文學」文類的辦法,其中至少有三種路徑涉及深度學習,包括神經網絡學習的次序模型(sequential modeling)和模式識別(pattern recognition)的技術。將一些業內通行的做法應用於精度要求極高的文學研究,非但不會讓人們覺得炫奇,相反,從實驗設計到程序運行、再到必要的統計檢驗,毫不意外地充滿了各種失敗和不理想。為了達到一定的準確率,必須不斷地放棄一些看似正確的做法,要不斷地去試錯和「妥協」。事實上,似乎也很少有人想到這是人工智慧,興許正在不斷活躍的數字產業界對這樣的標籤會更有興趣。
關於人工智慧應用,文學藝術界熱衷談論的另一個現象是AI寫作。在這方面,清華大學自然語言處理與社會人文計算中心的孫茂松團隊一直在做相關探索。出自該團隊實驗室的「九歌」作詩機現在不僅可作五言七言絕句,還可作律詩,也曾多次參加競賽節目。孫茂松在2019年12月創刊的《數字人文》上提出「計算創造力」這一概念。但是機器一定就能「創造」嗎?未必。因為這一切之所以成為可能,靠的無非是統計學。在孫茂松看來,再複雜的深度學習也不過基於一種可能性推斷。僅以七律為例,如果粗略假設中國古典詩歌使用的通用漢字在1萬字左右,那麼理論上可產生的詩歌總數(排列組合)將是2的744次方。這是一個天文數字,所以只能靠算法來挖掘出「好詩」。怎麼挖掘?就需要建模,就要以超過80萬行的古詩語料和已標註的知識庫為材料,來訓練專門設計的模型。這些模型藉助於認知心理學中類似於「工作記憶」的讀—存—取的信息循環加工過程,將臨近詩行中各種語彙排列的可能性相繼產生出來。在這個不斷「緩存」的過程中,由關鍵詞所提示的詩歌主題和由相關語料提供的歷史文化信息被儲存在一個動態化的模型中,而相應算法的設置則極大地保證了詩行內涵的連續性,最後再輔以韻律規則和風格模式的學習。經大量使用者評分實驗證明,「九歌」不僅可以作出和律、連貫、「有意境」的詩歌,還可和人配合作詩,並自主為作出的詩打分。也就是說,在AI「作詩」時,模型和算法仍然來自於人,來自對大量古詩佳作模板的「習得」,這些模板體現在句法生成的規則層面上。
從理論上講,受訓之後的模型完成的是一種「集大成」之作。所以有批評家說,不妨將AI寫的詩當成「行業準入」原則,寫得不如它們的就不配為詩人。這當然是笑談,但從現階段大部分機器作詩的機制來講,卻不無道理,因為「站在巨人的肩膀上」當然沒有理由比前人寫得差。只不過作為文學研究者,我們所關心的並不是「九歌」能否作出超越古人經典的佳句,我們更關注的是由自動作詩引申出的背後機制,以及格律的本質到底是什麼等問題。在今天,諸如如何通過精巧的實驗設計用算法表徵由詞組和句法賦形的感覺模式(pattern)和一種決定了古體詩「體式」的概率因素、外在格律和內在音樂性是怎樣的關係等問題,正逐漸成為數字人文的課題。
算法黑箱與計算批評
數字人文是要將計算工具的運用合理地引入人文研究的舉證、推理、分析、闡釋乃至批評環節,這絕不是一個學科可以單向突破的,一定是要在跨學科的碰撞中形成有價值的問題,再通過團隊協作來解決,最後獲得領域內部或外部的認識更新。數字人文當然可以很炫,也可以很平實,但真正衝破邊界的跨學科合作異常困難,其難度並不亞於研發一個人工智慧作詩機。這些難度不僅來自於技術操作方面,更多源於評價機制,以及一些必須被充分討論的方法論和概念性前提。然而現在的問題是,人工智慧所帶動的技術熱點層出不窮,隨潮流而動引發的究竟是數據驅動、模式驅動還是知識或問題驅動?在這個過程中,人文學者的位置到底在哪?或者說,人文學者要怎樣才能避免成為技術的附庸?
從這些問題出發,筆者認為數字人文或者文化分析(Cultural Analytics)學者,是能夠通過自己的批評實踐來體現人文主義的價值關懷的。這首先體現為要敢於實現一種對技術的「祛魅」,這也恰恰是提高人文學者科技素養的一種努力,或者說是為之提供了一個切入口。這不僅是因為「入乎其中」才能更好地「出乎其外」,也是文學研究者力所能及的事情。簡單說就是要通過計算批評,在「遠讀」和人文質詢的結合部發力。目前,人工智慧容易引起人們不滿的一點是所謂黑箱。談一項數據科學的應用研究不能不談算法,就如同理解一首詩不能越過它的語言一樣。然而很多基於大數據的深度學習,其計算過程的複雜程度卻「超出人類理解的範圍」。例如,如果想研究某一時期小說中敘述網絡的演變,可能首先需要把所有文本中人物對話的關係提取出來。當文本量較小,還局限在單一作家的範圍內時,是可以通過成百上千次觀察,根據情境特點設計或尋找一系列規則,來判定對話角色,再藉助統計工具把文本中的全部可能性關係給「算」出來的。這是一種典型的自上而下的、一目了然的做法。但是,一旦文本量上升,擴展到成千上萬部小說,就有必要發明角色的自動識別工具。此時如不結合人工標註,單純的無監督學習是無法勝任的。而即便基於一定的人工標註量和給定規則,也有可能會把所有句法關係一股腦地提取出來,至於計算機到底是根據怎樣的算法來做到的,卻沒有人知道。單純跟隨大數據驅動提取出的關係,如果不加甄別地直接用於下一步的文學解釋,將是很難形成闡釋意義的,而這也是目前大量基於「共現」技術的提取有可能存在的問題。這種自下而上的、主體介入較少的做法很難不引起人們質疑。所以恰如孫茂松所說,黑箱對於技術探索來說可能是好事,圖靈測試就是黑箱。這是因為技術突破更關心的乃是能否達到目的,成功實現了某種路徑,然而在發現與闡釋並重的文學研究這裡,卻可能毫無意義。
如何開展及其意義
那麼,在高精確度的知識驅動還未能實現的當下,還要不要繼續數字人文的探索?答案是肯定的,只不過此時需考慮如何加入「人」的環節。所謂計算批評,一言以蔽之,就是用「人讀」的結果,來質詢「機讀」的結果,通過經驗性的比較分析,接通更深層次上可能存在的文化因由。
以用模式識別的辦法對美國現代主義時期的英語俳句所做的研究(霍伊特·朗、蘇真:《文學模式識別:文本細讀與機器學習之間的現代主義》)為例。該研究的技術路徑比較普通,就是讓機器學會判定任意一首詩歌文本是「俳句」還是「非俳句」。但對兩位文學研究者來說,真正的實驗開始於如何從被機器「誤判」的部分入手,以此來弄清楚用於識別俳句文本模式的統計學模型,怎樣才能與基於文本細讀的俳句本體觀和歷史文化解釋相協調。也就是說,一旦機器出現了錯誤,錯誤就引發了一個重要的「闡釋性問題」:是什麼讓某些詩(或者說某些特徵)那麼的「像俳句」?通過細查一首詩的表面,他們發現,原來算法是根據幾種特定措辭和音節特徵出現的概率來判定的——這在某種程度上便「破解」了算法的黑箱。破解的意義當然不是為了說明機器的局限性,而是說這些由機器創造的「潛在俳句」,恰恰給文學研究創造了一個全新的東西。它的一半是程序腳本,另一半來自既往的文學批評史,這不僅給了算法一席之地,而且讓在個別層面看來很可能是偶然的語言特徵散落於數十家期刊的上百首詩歌的層面上,提示了「一個共享著俳句特定要素的更廣泛的文本集合」。這個集合將譯作和改編中的特徵模式也包容進來,提供了「既與俳句文體相關、同時又屬於某些更廣泛的事物的東方主義氛圍」,這一氛圍即是人們所想像的「流傳中的文本模式」。經過此種遠讀式的顯影,研究者便可以在更寬泛的詩學話語中考察文本的社會歷史影響和地位,進而追索俳句背後隱藏的美國現代主義時期的文化邏輯了。
事實上,這種基於量化的文學批評,或稱計算批評(computational criticism)、算法批評(algorithm criticism)的統計學基礎正是一種模型檢驗的「自反意識」(蘇真語),此做法的本質是人和算法的互動,是一種強調人的意識和機器進行對話、交鋒的文化批評。在一個由研究者發動的批評性環節中,一方面主體完成了對算法的質疑和檢驗,另一方面算法也解放了限制在原先文學史視域中的批評潛能,藉助由算法產生的中介性概念,人們可以在遠讀和細讀間回返,不斷切近想要研究的問題。
提倡計算批評的出發點也是為了從根源上反對數字人文的工具化。誠如Ted Underwood指出的,我們在網絡上每一次使用搜尋引擎檢索信息,其實都完成了一次與算法的互動。「人文主義者」通常傾向於忽略這個動作所含的豐富意義,卻不知這種輕視正埋下了工具主義的隱患。可以說,那種將技術的歸技術、理論的歸理論、理工的歸理工、人文的歸人文的分野,還是對當下大行其道的工具理性習焉不察的認同。人文主義的立場無論如何都不應成為人們使用量化手段來通達問題關鍵的障礙。相反,真正的人文主義者甚至必須恢復「全才」狀態,這才是開展數字人文研究的意義所在。所以如果我們太過鮮明地將數位技術劃為形下之器,而將傳統學問尊為形上之道,也許會更加重工具論的成色。那麼就此推開,在現階段,一種落地的、切中要害的人工智慧批評,不能也不該繞開算法。
(作者單位:中國社會科學院文學研究所)
來源:中國社會科學網-中國社會科學報 作者:趙薇
歡迎關注中國社會科學網微信公眾號 cssn_cn,獲取更多學術資訊。