北理工校友發明文言文「填詞大師」,斷句、造詞都能做,高考文言文...

2021-01-19 澎湃新聞

蕭簫 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

都說GPT-3能接人話,補充上下文關係,中文版的「填詞大師」你見過沒?

不僅是中文版,這個「填詞大師」甚至還是從古代穿越過來的文言文版。

這是兩個來自北理工的小哥做出的模型GuwenBERT,經過訓練後的模型,不僅能自動幫助文言文斷句,還能幫你思考被遮住的詞語到底是什麼。(真沒有用原詩騙你)

要是這個模型去參加高考,文言文斷句、詩詞背誦部分,豈不是都能拿滿分?

來看看它是怎麼被做出來的~

文言文版BERT,填詞斷句樣樣通

GuwenBERT,是在中文BERT-wwm模型的基礎上,利用古文數據集訓練出來的。

中文BERT-wwm(基於全詞遮罩技術的中文預訓練模型)是哈工大和訊飛聯合發表的模型,在中文BERT的基礎上,修改了預訓練階段的訓練樣本生成策略。

全詞遮罩(Whole Word Masking),指原來的遮罩(mask)只隨機遮一個字,現在則會對一個詞的所有字進行遮罩。

但中文BERT-wwm,是針對現代漢語訓練的模型。

經受過文言文「毒打」的小夥伴都知道,古文不僅詞法與現代漢語中多存在不同,而且沒有斷句,理解起來費神費力。

想要在大量古籍中按圖索驥,快速查找到想要的資料,更是難上加難。

為此,GuwenBERT橫空出世,根據已有的現代漢語模型,用古文數據集訓練出了文言文預訓練模型。預訓練的過程是這樣的:

目前,這個模型已經給出了樣本,在線就能一試文言文版BERT的功力。

調戲Demo的方法是,隨便給一句古文,用[MASK]遮住其中一個字、或是一個標點,讓GuwenBERT來猜猜看,你遮住的到底是什麼。

例如,遮住一個逗號,看文言文會不會斷句。BERT在思考了不到一秒後,就給出了自己的答案:

至於填詞方面,文言文BERT的表現也很優秀,在思考了一會後,填上了正確的詞語。

是不是感覺有點簡單?我們用課文來試一下:

效果竟然也不錯,要是這樣的理解能力去參加高考,豈不是就能拿個默寫部分的滿分了?

其實不然,這個文言文BERT,並不是根據記憶來判斷如何填詞,只是根據訓練後的模型,來預測「概率最大的字」。

於是在測試過程中,出現了一些神奇的事情:這個文言文BERT,不僅能接梗造詞,甚至還給李白詩中的字「推薦」了更好的替代者。

接梗造詞樣樣會,李白的詩也能改

舉個例子,即使輸入的不是原來的詩句,文言文BERT也同樣能預測出被遮住的字,不僅能隨便接梗,還面不改色心不跳。

例如,「垂死病中驚坐起,笑問客從何處來」也能接……(原詩是?)

一旦涉及動詞的選取,GuwenBERT的預測就更加難以捉摸,因為可選的範圍太大了。(中文博大精深)

例如,將「不及汪倫送我情」的「送」字遮住的話,GuwenBERT就開始感到迷茫,即使是預測率最高的「知」,也只有15.7%的概率。

「不及汪倫知我情」,想必BERT版李白,內心一定認為汪倫是自己高山流水一般難得遇見的知音。

在斷句的情況下,如果並非對仗工整的語句,GuwenBERT也要好好思考一會。

雖然文言文BERT有自己的想法,不過它還是「循規蹈矩」的,目前在測試時,語法上還沒有出現太大的問題。

甚至,還能為古人們的寫作提供別樣的靈感。

但文言文BERT目前還只能遮罩一個字,要是多了幾個,它就不跟你玩了。

不知道作者以後會不會在這方面進一步加上新功能。

作者介紹

這個文言文BERT的作者,是兩位來自北理工的同學。

閻覃,來自北京理工大學,目前是計算機科學與技術專業的一名碩士生。

這位小哥在GitHub的名字是Ethan,他還特意選擇了某些日期來contribution,把自己的名字拼了上去。

遲澤聞,同樣來自北京理工大學,目前的研究工作主要是通過預訓練來進行跨語言的自然語言生成。

目前,模型的相關代碼已經開源,想要了解的小夥伴,可以在下方試玩模型、或是查看代碼。

這樣的文言文BERT,你覺得還能用在哪些地方呢?

歡迎留言討論~

demo在線可玩:

https://huggingface.co/ethanyt/guwenbert-base

模型地址:

https://github.com/Ethan-yt/guwenbert

參考連結:

https://zhuanlan.zhihu.com/p/275970135

https://www.linkedin.com/in/ethanyan/

— 完 —

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

原標題:《北理工校友發明文言文「填詞大師」,斷句、造詞都能做,高考文言文滿分靠它了》

閱讀原文

相關焦點

  • 文言文斷句鞏固練習
    一、主謂賓斷句法閱讀下面的文言文,完成題目。原涉,字巨先。祖父武帝時以桀驁自陽翟徙茂陵。涉父哀帝時為南陽太守。天下殷富大郡二千石死官賦斂送葬皆千萬以上妻子通共受之以定產業。時又少行三年喪者。及涉父死,讓還南陽賻[注]送,行喪冢廬三年,繇是顯名京師。
  • 文言文表達方式與現代語法存在差異,高考想拿高分,仍有規律可循
    人生三大喜事之一,其中就包括金榜題名,每年的高考備受關注,不僅高考生們自己懷著緊張激動的情緒迎戰高考,家長和社會上的人士也關注著高考的動態,高中是人生最重要的三年,所以同學們一定要好好把握。斷句練習循序漸進,從簡單到複雜,終會有成效我們在從小學習接觸語文的時候,就會學到標點符號,如何斷句,通過斷句的方式讓重點更突出,標點是現代人隨著文化的不斷發展所加,那麼在學習文言文的時候在理解文章的內容之後,可以試著斷句,學習文言文的過程是非常枯燥無味的,但是也可以培養同學們的理解能力,每天都進行練習,從簡單到複雜,循序漸進,終究會有成效。
  • 2020高考必備文言文解題技巧,結構分析法解決文言文實詞解釋
    大家好,我是幫助高考考生考高分的米飯老師。這一期我們繼續聊文言文實詞詞義解釋的第二種方法:結構分析法 。解釋非掩飾:顧名思義,結構分析法就是指根據詞語、詞組或者句子結構來確定文言文實詞詞義的一種方法。理論依據:文言文裡排比、對偶、並列的和句子等對稱的語言現象比比皆是, 在這些對稱的句子中, 前後位置對稱的地方,一般來說詞性相同、詞義相近、相反相對, 高考考生可以通過對已知詞語的理解推斷出未知的詞義。實例證明:例如:《屈原列傳》裡有一句:「亡國破家相隨屬, 而聖君治國累世不見也。」 。
  • 古人為什麼用晦澀難懂的文言文,我們是否恢復使用文言文?
    從小學的時候我們都開始有接觸到文言文,我記得我最早學的是《學奕》。剛開始學這個的時候只知道全部是聽不懂的,很麻煩,要逐字逐句的翻譯才能明白。那麼古人為什麼要發明文言文呢,難道他們不覺得麻煩嗎?他們平常說話也是這樣的嗎?
  • 文言文很難學好嗎?學好文言文、古文的秘笈
    龍爪手告訴同學們,不用緊張,也不用著急,龍爪手教同學們用簡單的方法,就可以搞定文言文。也許同學們有疑問:真的可以嗎?是不是硬核要拿出來溜溜才知道,看看是不是真的有絕活。同學們耐心往下看。 無論學哪門功課,都應該研究一下這門課的特點,英語有英語的特點;數學有數學的特點;物理有物理的特點,掌握了科目的特點,學習起來才能事半功倍,做到有的放矢,才能真正學習好這門課。
  • 蔣昕捷:高考寫下文言文《赤兔之死》獲滿分,19年過去現狀如何?
    高考對於一個高中生的重要性不言而喻,在高考的面前,所有人都要放下自己的個性,付出自己的努力爭取在卷面上拿到一個共性的高分。 人們紛紛爭相點開這篇傳奇一般的高考作文,都想知道一個高中生的水平,怎麼能寫出全篇文言文的高考作文而且竟然拿到了滿分,而19年過去,其現狀如何?
  • 培養文言文素養從課本做起2——《寒號鳥》
    教改後,原來五六年級才學習的文言文下沉到了三年級。三年級上冊是《司馬光》,下冊是《守株待兔》。這些文言文雖然簡單,但對單字的釋義、內容的理解等方面的要求卻一點都不含糊。文言文是語文學習中的難點之一。文言文能力的提升沒有捷徑可走,也是需要在學習過程中長期進行積累。
  • 高考「最難背」的3篇文言文,完整背誦2篇都是學霸?第三篇是噩夢
    中國古代文化,博大精深,在普及白話文之前,文言文是最普及的書面文字,文言文言簡意賅,含義豐富,具有一定的優越性,它也是中國幾千年文化傳承最官方的文字。所以現在無論是在小學,還是中學,都會學習文言文,比如小學的《兩小兒射日》,初中的《出師表》。高中的《師說》等都是必背古文。
  • 高考作文該不該寫文言文? 看看語言泰鬥王力教授怎麼說
    想起2001年,一篇題為《赤兔之死》的文言作文獲滿分,此後幾乎每年全國都會出現一兩例高考文言文作文優作,由此也引發了該不該提倡學生用文言寫作多年的討論。關於一般青年們用文言文寫作的問題,語言泰鬥王力先生曾表達過這樣的觀點:「學不好固然是貽笑大方,學好了也就是作繭自縛。文章越像古文,就越不像現代的話。」本期的「國風堂」,我們就接著王力教授的觀點談一談這個問題。
  • 文言文閱讀高頻詞語收錄大全!快列印記熟,文言文閱讀少走彎路!
    文言文作為語文學習過程中的一大難點,背誦、抄寫、釋義、閱讀……是學習文言文的常態。其中一個環節做不好,對文言文的理解就會十分吃力,也會導致文言文的學習越來越難。到了初中階段,隨著課本中文言文篇幅的加大,語文學習也逐漸變難。
  • 高中文言文固定句式:表示語氣句式
    高中文言文固定句式:表示語氣句式 2012-12-17 14:16 來源:新東方網整理 作者:
  • 中考變化解讀之文言文閱讀詳解
    (2)凡遇不易處之境,皆能掌學問識見。【答案】 (1)愛惜書本是有能力的人家(富貴人家)藏書的人所做的事,我們貧窮人家沒有空閒(餘力)效仿這種做法。(2)凡是遇到逆境(不順的處境),都能增長學問和見識。【解析】 本題考查重點句子翻譯。
  • 高中文言文閱讀訓練60篇精選(21—25)
    上文"敢呼仲尼而兄之"中的"兄",是名詞作動詞用,"兄之"意為做他的兄長。又,上文"李生聞而善"中的"善",本為形容詞,但在句子中要作動詞用,解釋為"認為好"。又,上文"可以破疑網而昭中天矣"中的"昭",本為形容詞,指明朗,在句子中要理解為"照亮"天空。詞類活用是指某些詞的詞性在句子中臨時活用為其他詞性。
  • 學生黨公認「最難背」的文言文,能全背的是學霸,學渣:背到想哭
    文/樺樺育兒經相信在各位的學生時代中,大家都經歷過背文言文的階段,背課文是能夠幫助到學生提升閱讀理解能力、寫作能力等等,所以語文老師們也是經常會讓同學們背誦一篇文章。這樣還可以夯實學生的理解能力,還能幫助學生理解文章考試中也能更加順暢。但是每一篇的文章難度都是不一樣的,語文也充分地體現了中華文化博大精深的一面。學生最難背的課文當屬是文言文了,篇幅較長不說,而且有些字還不叫拗口。所以學生們想把整篇背下來也是很不容易得,下面我們就一起來看一看哪些學生公認最難背的文言文有哪些吧!
  • 臺灣去文言文是文化浩劫
    (記者 林谷隆)長期推動學童讀經的國民黨臺中市議員賴義鍠接受中評社訪問表示,文言文對傳承中華文化相當重要,「教育部」利用課審會刪減文言文比例,根本是蔡當局官員為去中國化,而去文言文。臺灣良好保存中華文化,很多傳統文化連中國大陸都要派人來學習尋根,現在竟然自己要放棄去除,這是不可思議的事。國民黨必須透過宣傳讓民眾知道去中國化對臺灣有多不利,避免讓文化浩劫發生。
  • 【一周一題文言文】嶽飛選自《宋史》
    今天起會每周出一題課外文言文閱讀,難易程度適合小學2年級到初中階段,希望可以幫助到孩子對於文言文的理解,堅持做起來,看看對於文言文閱讀能力有沒有變化吧。   【正文】   嶽飛宇鵬舉,相州湯陰人。世力農。少負氣節,沉厚寡言,家貧力學,尤好《左氏春秋》、孫吳兵法。拾薪為燭,誦習達旦不寐。生有神力,未冠①,挽弓三百斤,弩②八石。學射於周侗③,盡其術,能左右射。
  • 女學霸奧數賽用文言文發言 自己譯成英語再說一遍
    這不是《古文觀止》的名篇,也不是高考滿分作文,而是今年中國西部數學邀請賽開幕式上一位女學霸的開幕發言,不僅如此,她還將生澀難懂的文言文發言翻譯成英語,讓在場外國選手驚嘆不已。作為發言代表,陳穎潔一上臺,先用現代漢語介紹了自己,然後就開始了文言文發言,「山巒嶔崟,霧靄茫茫;兩江匯聚,流水湯湯……」接近300字的發言,幾乎都是文言文,讓現場的選手驚嘆不已,發言還未結束,就響起了掌聲。不光如此,陳穎潔還在發言結束後,將晦澀難懂的文言文翻譯成了英文又說了一遍,讓現場外國選手耳目一新。
  • 網絡流行語及英文歌被翻譯成文言文引熱議
    中新網2月9日電(上官雲) 近日,「古詩版阿黛爾金曲」在網上走紅,網友將英文歌詞譯為文言文,引得不少人點讚,一股「網絡流行語翻譯文言文」熱潮隨之掀起,人們對翻譯結果則褒貶不一。在熱議這股「文言文神翻譯」潮流的同時,「傳承中國傳統文化」的話題再次引起公眾關注。
  • 中考文言文翻譯的十大方法
    2、增補能使語義明了的關聯詞 例:「不治將益深」是一個假設句,譯句:「(如果)不治療就會更加深入」。 二、刪 就是刪除,凡是古漢語中的發語詞、在句子結構上起標誌作用的助詞和湊足音節的助詞等虛詞,因在現代漢語中是沒有詞能代替,故翻譯時無須譯出,可刪去。 例1:「夫戰,勇氣也。」譯句:「戰鬥,靠的是勇氣」。
  • 雁默:文言文是死文字?用「中指點菜」很開心嗎?
    對於文言文等古詩文在教材中的比例問題,坊間有不少議論,看上去正反兩方都有些道理,不妨看看臺灣某些人的言行,或許能有新的思考。】 (文/ 觀察者網專欄作者 雁默) 近期,臺灣這邊的「課審會」正在古詩文上動腦筋。課綱課綱,臺獨掌權,不玩課綱是不行的,要不然「人工獨」會出現斷層。