「中文十級」難題,AI怎樣解讀

2020-12-19 中國搜索

資料圖片 新華社記者 方喆 攝

「中文十級」難題,AI怎樣解讀

產業界

陶玉祥 本報記者 盛 利

在人工智慧領域,「懂語言者得天下」是普遍的共識。其中,可幫助人工智慧識別人類語言的自然語言處理(NLP)被譽為人工智慧語言「皇冠上的明珠」。

當人工智慧自然語言處理技術遇到「要你管和不要你管」「掉地上和掉地下」「我一把把把把住了」等中文「繞口令」,「小意思」「意思意思」等多義詞時,及「俺們那疙」「中不中」等方言時,該怎樣「聽懂」這些「中文十級」語句呢?日前在成都舉辦的科大訊飛未來科棧活動上,記者採訪了相關專家。

能分詞會斷句 機器尚在努力

NLP就是機器讓計算機來理解和處理人類自然語言的技術,它和計算機視覺、語音處理的區別在於信息處理的類型。

「計算機視覺主要處理圖像,語音技術處理聲音,而NLP主要是對文字的理解。」雲浮科技的創始人兼CEO張文斌說,在人工智慧中,語音識別是耳朵,語音合成是嘴巴,計算機視覺是眼睛,而NLP則負責將抽象的文字符號轉化為計算機能理解的語言。

「『中文十級』的某些語句,人類去理解都有很大難度,何況是計算機。」張文斌說,在口語和書寫上,漢字往往沒有詞與詞之間的邊界,即便機器能夠準確識別文字,但理解它的意思卻很難;再比如各種五花八門的地方口音和方言,也是「絆腳石」。

「自然語言處理一般從最小的語意單位『詞』開始,即分詞算法。這最簡單,也最成熟。」張文斌說, NLP的算法分為語法級別、句子級別分析等,其中分詞就是將字詞切開,讓機器明白哪幾個字組成一個詞,哪幾個詞組成一句話,從而理解整句、整段的意思。但在「分詞」實際的應用過程中,仍有各種問題。

張文斌解釋,首先是分詞標準不確定、存在歧義,及新詞和實體詞困擾等問題。如「桌球,拍賣完了」和「桌球拍,賣完了」無論怎麼切分都正確,這就要依賴上下文語境。其次,每年都會湧現出的網絡詞彙,「神馬」「不明覺厲」「佛系」等原來不存在的詞也需要計算機理解。

聽語氣判關係 AI有新招

如何讓機器讀懂上下文語境,從而進一步了解整段話的含義?

「我們會嘗試利用聽人類說話時的停頓信息,作為一種分詞算法的輔助。」訊飛翻譯業務負責人翟吉博說。

對於AI工程師們來說,更重要的是深層次的算法,如實體識別、屬性抽取等。「就是把人名、地名、機構名等實體識別出來後,再抽取實體之間的關係,搞清楚不同實體在句子中的不同屬性。」張文斌說,五花八門的算法還有很多,比如情感分析,分析文本裡面蘊藏了什麼樣的情感,是正面、負面還是中性的;文檔摘要,把長文生成一兩百字簡短的摘要等。而基於這些算法層,又可以做很多NLP的衍生應用,包括自動問答、機器翻譯等。

那如何識別方言呢?在科大訊飛的新款翻譯機設備中,首次推出方言翻譯功能,實現河南話、東北話、粵語等方言互譯,或將之翻譯成外語。翟吉博說,針對不同類型方言,機器採用不同翻譯流程——對同屬北方方言區的河南話、東北話等,可先翻譯成普通話再翻譯成外語;對於粵語等南方語言,則建立獨立的語料庫,直接從粵語到外語進行翻譯。「考慮到方言中帶有許多地方特色的說法、語言、詞彙,『雄起』『中不中』等也可以作為獨立的語料,由機器單獨學習。」他說,人工智慧的優勢是在自然語言處理方面能夠不斷從用戶處積累語料,學習新的詞彙和表達方式,不斷完成自身資料庫和語料庫的更新。來源:科技日報

相關焦點

  • 撒貝寧「中文十級大考驗」,AI翻譯機器人機智應對
    撒貝寧「中文十級大考驗」,AI翻譯機器人機智應對 快看 來源:央視網 發布時間:2018年08月13日 21:49
  • 撒貝寧《機智過人》出"中文十級"聯考 刁難人工智慧
    原標題:撒貝寧《機智過人》出「中文十級」聯考 刁難人工智慧   都說中文博大精深,有「福爾摩撒」之稱的撒貝寧就在央視《機智過人》出了「中文十級」考題,刁難同場競技的中央廣播電視總臺八大頂級雙語主播和翻譯機器人,而從新聞主播跨界首秀綜藝主持的朱廣權,更是不肯放過任何一個跟撒貝寧過招的機會
  • 「中文十級」有哪些有趣的題目
    葉甫蓋尼·扎姆斯科依是阿納斯塔西婭的中文老師,對自己的得意門生,他讚不絕口:「阿納斯塔西婭對中文很感興趣,她是一個很刻苦勤奮的學生,可以說她已經很好地掌握了這門語言。」由於阿納斯塔西婭各科成績都很優秀,俄羅斯人民友誼大學法律系已經向她拋出橄欖枝。阿納斯塔西婭也同時向莫斯科國際關係學院和聖彼得堡國立大學遞交了申請。
  • 撒貝寧《機智過人》出「中文十級」聯考,刁難人工智慧
    都說中文博大精深,有「福爾摩撒」之稱的撒貝寧就在央視《機智過人》出了「中文十級」考題,刁難同場競技的中央廣播電視總臺八大頂級雙語主播和翻譯機器人,而從新聞主播跨界首秀綜藝主持的朱廣權,更是不肯放過任何一個跟撒貝寧過招的機會。同樣在語言上很有天賦的演員趙立新和韓雪也同臺互飆英文,一展配音才華。被稱史上語言水平最高的一期《機智過人》,明晚重磅來襲!
  • 「『中文十級』有哪些有趣的題目!」
    瀏覽器版本過低,暫不支持視頻播放葉甫蓋尼·扎姆斯科依是阿納斯塔西婭的中文老師,對自己的得意門生,他讚不絕口:「阿納斯塔西婭對中文很感興趣,她是一個很刻苦勤奮的學生,可以說她已經很好地掌握了這門語言被英語四六級折磨的你,面對這樣的「語文學霸」,想不想知道外國人眼中的「中文四六級」是什麼樣的題呢?漢語水平考試漢語水平考試(簡稱HSK)為測試母語非漢語者(包括外國人、華僑和中國少數民族考生)的漢語水平而設立的一項國際漢語能力標準化考試。
  • 「'中文十級'有哪些有趣的題目!」
    葉甫蓋尼·扎姆斯科依是阿納斯塔西婭的中文老師,對自己的得意門生,他讚不絕口:「阿納斯塔西婭對中文很感興趣,她是一個很刻苦勤奮的學生,可以說她已經很好地掌握了這門語言。」由於阿納斯塔西婭各科成績都很優秀,俄羅斯人民友誼大學法律系已經向她拋出橄欖枝。阿納斯塔西婭也同時向莫斯科國際關係學院和聖彼得堡國立大學遞交了申請。
  • 亮仔丨中文十級都是怎樣煉成的!
    特別是日語和中文,通常被認為是比其他語言更難的語言。在母語是英語的人看來,5級以上的中文和日語,都是學習起來非常困難的語言。我學中文已經有10多年了,雖然大家都誇我的中文特別好,但我知道仍有很多不足。特別是當見到不認識的成語的時候,尤其感到語言學習相當難。今天想給大家介紹一下,日語學習者和中文學習者們的那些苦惱。
  • 林允兒因為中文不好哭過?粉絲:現在允兒中文十級哦!
    林允兒在中國人心中,是一個特別的韓國女明星,與她的顏值和身材五官,主要是她的中文太好了,達到了十級的水平,普通話說得比很多中國人還好,但是你知道麼,林允兒一開始的中文是很不好的,甚至還為此哭過呢,到底是咋回事呢?我們一起來看看!
  • 【薦讀】「'中文十級'有哪些有趣的題目!」
    葉甫蓋尼·扎姆斯科依是阿納斯塔西婭的中文老師,對自己的得意門生,他讚不絕口:「阿納斯塔西婭對中文很感興趣,她是一個很刻苦勤奮的學生,可以說她已經很好地掌握了這門語言。」  由於阿納斯塔西婭各科成績都很優秀,俄羅斯人民友誼大學法律系已經向她拋出橄欖枝。阿納斯塔西婭也同時向莫斯科國際關係學院和聖彼得堡國立大學遞交了申請。
  • 全世界都在說中國話 中文十級的外國名人大盤點
    全世界都在說中國話 中文十級的外國名人大盤點 原標題:   近年來,外國名人們來中國出席活動時,都不忘秀一把中文。從基礎級別的「你好」、「謝謝」到高手級別的全程無障礙交流,再到大神級別的引經據典、詩詞歌賦……當那些名人們開始秀中文時,就連粉絲們都驚呆了!一起來看看哪些外國名人的中文達到了十級?
  • 「中文十級」的韓國女星,IU李知恩上榜,最後一位讓中國人佩服
    【中文十級」的韓國女星,IU李知恩上榜,最後一位讓中國人佩服】第一名 林允兒。她的中文水平非常可以,在《快樂大本營》中,還能用簡單的中文和主持人還有觀眾朋友們交流,拍攝的電視劇《武神趙子龍》也深受中國觀眾的喜愛。
  • 範丞丞中文十級也比不過13歲的他,justin黃明昊滿分,陳立農搞笑
    (沒有中文十級念不下來)」。雖然範丞丞說這句話是調侃,但是人紅是非多,既然是紅人能站在聚光燈下接受大眾的景仰,就免不了遭到大眾的評價,「範丞丞中文十級」立馬上了熱搜榜,網友們又開啟了互撕模式。有網友讚美:範丞丞中文十級,正能量rap八級,vocal八級,舞蹈八級,情話十級,不是全部十級的優秀,但一直以十級為目標。也有網友挖苦諷刺:沒有姐姐陪著,頂多就是個初級。
  • 這篇文章,中文十級才能看得懂!
    出於對中華漢字的崇拜,詩詞君曾說過神奇的中文,詳見下帖偉大的中文有多神奇,已笑噴!最近,又有人玩起了漢字遊戲,據說要看懂下面這些,必須中文十級!@劍神葡萄來到楊過曾經生活過的地方,小龍女動情地說:「我也想過過兒過過的生活。」
  • 「中文十級」的韓國明星,最後一個誰都討厭她
    秋瓷炫,秋瓷炫因出演《回家的引誘》一夜爆紅,秋瓷炫嫁給了中國明星於曉光,有網友更是大讚秋瓷炫中文十級,看來秋瓷炫的中文程度真的不錯,目前用中文交流,簡直是無障礙。李多海,李多海的英語和漢語都很熟練。她還受到華納兄弟影業公司的邀請,作為唯一一名亞洲演員出席了晚宴。
  • 泰國男星mike中文十級?身材應該超過十級了吧?林允兒也不錯
    最近幾年在中國的事業越來越好,中文已經說得非常好了。2018年4月22日,#Mike 中文十級#上微博熱搜了,不知道這個評級是誰來定的!但我覺得mike的身材,早就應該超過十級了吧?除了mike,還有很多外國明星中文說得非常好,比如秋瓷炫。
  • 撒貝寧《機智過人》出「中文十級」聯考 刁難人工智慧
    都說中文博大精深,有「福爾摩撒」之稱的撒貝寧就在央視《機智過人》出了「中文十級」考題,刁難同場競技的中央廣播電視總臺八大頂級雙語主播和翻譯機器人,而從新聞主播跨界首秀綜藝主持的朱廣權,更是不肯放過任何一個跟撒貝寧過招的機會。
  • 「中文十級」考試難不難?網友:真的難!
    葉甫蓋尼·扎姆斯科依是阿納斯塔西婭的中文老師,對自己的得意門生,他讚不絕口:「阿納斯塔西婭對中文很感興趣,她是一個很刻苦勤奮的學生,可以說她已經很好地掌握了這門語言。」由於阿納斯塔西婭各科成績都很優秀,俄羅斯人民友誼大學法律系已經向她拋出橄欖枝。阿納斯塔西婭也同時向莫斯科國際關係學院和聖彼得堡國立大學遞交了申請。
  • 「中文十級」的「混血網紅」:我是中國文化的粉絲
    「中文十級」的「混血網紅」:我是中國文化的粉絲 2015-12-22 20:48:47 圖為蘭蘭與同學聊天 黃瑞鵬 攝  中新網寧波12月22日電(記者 李佳贇)最近,一名被網友戲稱「中文十級」的外國姑娘在國內多個社交網站走紅。
  • 「中文十級」的混血網紅:在讀大四 是個溫州媳婦
    「中文十級」的混血網紅:在讀大四 是個溫州媳婦 2015-12-23 15:32 來源:錢江晚報   原標題:「中文十級」的混血網紅是個溫州媳婦,在寧大讀大四
  • 「薦讀」「『中文十級』有哪些有趣的題目!」
    瀏覽器版本過低,暫不支持視頻播放葉甫蓋尼·扎姆斯科依是阿納斯塔西婭的中文老師,對自己的得意門生,他讚不絕口:「阿納斯塔西婭對中文很感興趣,她是一個很刻苦勤奮的學生,可以說她已經很好地掌握了這門語言被英語四六級折磨的你,面對這樣的「語文學霸」,想不想知道外國人眼中的「中文四六級」是什麼樣的題呢?漢語水平考試漢語水平考試(簡稱HSK)為測試母語非漢語者(包括外國人、華僑和中國少數民族考生)的漢語水平而設立的一項國際漢語能力標準化考試。