「中國法研杯」相似案例匹配競賽結果出爐,冠軍方案關鍵點詳解

2021-01-12 雷鋒網

雷鋒網 AI 開發者按:2019 年 10 月 19 日,第十八屆中國計算語言學大會「中國法研杯」相似案例匹配評測研討會在雲南昆明完美落幕。會上,清華大學劉知遠副教授、中國科學院軟體研究所韓先培研究員、冪律智能科技有限公司 CEO 塗存超博士等均出席了該會議。

其中,基於大會開展的中國法研杯相似案例匹配評測競賽,由來自支付寶的 AlphaCourt 團隊摘得桂冠,這是一支致力於搭建屬於支付平臺的「網際網路法院」的隊伍。本次大賽中,他們充分運用了數據挖掘、深度學習、神經網絡等方法,實現了對「多篇法律文書的相似度計算與判斷」等任務的多模型融合、優化以及可視化探索,最終以 71.88 的優績,奪下了本次大賽冠軍!

在大賽中,我們也能看到京東、華宇元典、同濟大學等強勁對手的身影,但究竟 AlphaCourt 團隊是在哪些技術與方法上略勝一籌,才從 711 支參賽隊伍中脫穎而出?雷鋒網(公眾號:雷鋒網) AI 開發者有幸採訪到冠軍團隊,並將其冠軍方案解析如下,也許我們可以一起來找到答案。

劉知遠副教授為一等獎隊伍頒獎

比賽任務簡介

本屆法研杯司法人工智慧挑戰賽主要圍繞「相似案例匹配評測」主題展開,比賽任務則涉及到類案的理解與判斷等問題,其中最具代表性的則是:民間借貸相似案例。如果能通過 AI 技術將大量類案進行分類與判斷等,將大大減少重複性的人力成本等實際問題。

因此,本次的任務第一步是針對多篇法律文書進行相似度的計算和判斷;然後對於每份文書提供文書的標題和事實描述,從兩篇候選集文書中找到與詢問文書更為相似的一篇。其中,相似案例匹配的數據限於民間借貸一類文書。

民間借貸相似案例匹配舉例

在數據集方面,本任務所使用的數據集是來自「中國裁判文書網」公開的法律文書,每組數據由三篇法律文書組成。對於每篇法律文書,僅提供事實描述;對於每份數據,用(A,B,C)來代表該組數據;對於訓練數據,保證文書數據 A 與 B 的相似度是大於 A 與 C 的相似度。

在這樣的賽題背景下,各個參賽團隊開始運用他們的技術方法不斷提高 AI 判斷的準確度。

AlphaCourt 團隊

本次冠軍團隊 AlphaCourt 來自支付寶安全實驗室,參賽成員包括:

Kaggle Master 鮑晟霖

KDD 2019 冠軍得主易燦

帝國理工博士劉星

杜克大學碩士葉珩

愛丁堡大學碩士林曉彤

這個小組的日常業務是根據用戶反饋的欺詐等風險信息,通過 AI 算法分析處理從而更好地防控,保護用戶帳戶安全。這也正是他們隊名「AlphaCourt——智能法院」的來歷,因為在他們業務範圍內,大家的職能與法院一樣,旨在分配正義,消除不公。

因此我們可以發現,團隊在本次競賽上有兩大主要優勢:

儘管團隊有著豐富、熟稔的經驗和技巧,但除了面臨法律案件中各種的難題,如:案件文本長、案件複雜度高、案情靈活多變、案件分析數值繁多等之外,他們依舊還有需要克服的其它困難及挑戰。

挑戰一:數據構建及句子相似度判定

在比賽過程中,團隊首先面臨的是賽題數據構建形式較少見這一大挑戰。隊長表示,雖然日常工作中他們很熟悉文本分類問題,但賽題是三段文本之間的對比,所以需要一定的轉換。

因此,一開始他們做了一個簡單的假設,把賽題轉化為了一個絕對相似的問題。假定文書數據 A 和文書數據 B 之間是符合絕對的相似,同時文書數據 A 和文書數據 C 之間是符合絕對的不相似,即原先的三元組數據拆分成兩兩文書數據之間是否絕對相似的問題,這樣就可以使用二分類模型來解決此類問題。

但實際上在第二階段檢查數據時,團隊發現之前的絕對相似假設存在一定問題。雖然數據(A,B,C)保證了文書數據 A 與 B 的相似度是大於 A 與 C 的相似度,但是另一條數據中會出現(A,D,B)的情況;當把這兩條三元組樣例同時拆分成兩兩對比相似的數據時,會發現產生數據的標籤存在衝突。

因此,團隊在第一階段使用二分類模型思路的情況下,重新考慮了三元組的相對相似問題。最終,他們採用了損失函數為 Triplet Loss 的 Rank 模型來解決三元組的相對相似的問題,從兩兩文本間的相似距離來評估兩兩文本之間相似度。

兩種模型的思路框架如下圖所示。

解決相對相似問題的模型

挑戰二:文本形式差異

隊長告訴我們,他們日常處理的是用戶自由填寫的文本,信息稀疏且沒有固定結構,而賽題則是半結構化的法律文書,所以需要構建賽題案由相關的業務抽象特徵。

因此,他們主要參考了合同法、擔保法、婚姻法及相關司法解釋,總結出了原告/被告屬性、擔保類型(一般、連帶)、計息方式、約定借期利率、約定逾期利率、抵押物、借款合意憑據等七個特徵。最終根據可行性以及數據表現,選用了原告被告特徵、擔保特徵、利息特徵等特徵。

原告被告特徵包括原告是否屬於公司、原告人數、被告是否屬於公司和被告人數;

擔保特徵包括文書中是否包含擔保人、擔保人個數、文書中是否包含抵押物和抵押物的個數;

利息特徵包括文書中是否包含利息和對利息金額的轉換。其他業務特徵包括文書中被告間是否存在夫妻關係和被告的死亡情況;

具體提取的結構化特徵如下圖所示:

具體提取的結構化特徵

雖然這些工作與建模關係不大,但在結果上證明了這些業務抽象特徵確實會帶來不錯的增益;同時,從參賽方案來看,這也是其他參賽對手沒有特別重視的細節之處。對於這一點的把控,不禁讓人感嘆:這確實是「細節決定成敗」最有力的說明!

挑戰三:模型優化

本次比賽有 711 支隊伍,共計 1003 位參賽者。激烈的競爭是在所難免的,而且在比賽過程中前幾名之間的分數差距基本都在 5 以內,互相你追我趕,頗有劍拔怒張之勢。因此,AlphaCourt 團隊也在不斷對模型進行優化,其中主要使用了兩個 Trick。

第一個 Trick 是模型融合;團隊嘗試將 Bert 模型作為 Baseline 模型,然後對 Bert 模型進行進一步優化。優化方案包括:

對 Bert 模型內部的網絡層輸出進行提取,通過提取最後二層或三層中每層的第一個狀態輸出向量,嘗試與原先的 Bert 模型的輸出進行拼接,可以得到一個更加全面的特徵向量,如下圖(2)(3)所示;

結合正則表達式提取的業務抽象特徵和 TF-IDF 提取文本數據的詞頻統計等結構化特徵,與 Bert 模型的輸出進行拼接,結合結構化特徵的特徵合理性得到更加優化的特徵向量,如下圖(4)所示;

Bert 模型的除了輸出特徵向量外還提供了模型的狀態信息,該模型狀態信息可連接更深層的網絡模型,如 Bi-LSTM 和 Bi-GRU 網絡模型。通過更深層的網絡模型可以提取文本的更高維度特徵。通過池化和提取隱藏層狀態等操作聚合 Bi-GRU 網絡層的輸出特徵和隱藏層狀態的特徵,如下圖(5)所示。

五種網絡模型

通過以上構造的五種網絡模型,進行多模型離線的多模型融合可以進一步提高相似匹配的準確率,如下圖所示。

多模型離線的多模型融合

另一個 Trick 是 Triple Loss 過擬合的解決;由於樣本按照三元組形式輸入,即默認詢問文書數據 A 與文書數據 B 的相似度大於詢問文書數據 A 與文書數據 C 的相似度。此時在訓練過程中可能會出現一種極端的情況,即模型結果無腦輸出 B,就會出現過擬合問題。

AlphaCourt 團隊在這裡使用的解決方案是部分修改文本數據 B 和文本數據 C 的順序,使一半的數據變成(A,C,B)形式的三元組數據,即可以同時存在 B 和 C 的標籤。具體的操作流程如下所示。

解決 Triple Loss 過擬合方案

在構建訓練和驗證數據集 Datasets 時,在第奇數個三元組樣本附帶一個變量 op,值為 1。將第偶數個三元組樣本的文書數據 B 和文書數據 C 進行交換,並附帶一個變量 op,值為-1。構建的數據集經過數據加載器 Data Loader 會默認將數據集進行打亂,因此不會學習到數據的標籤規律。

最後學習到特徵向量經過 Triplet Loss 計算時,只要計算過程中附帶了變量 op,調整兩者歐式距離的正負結果,就可以保證 Triplet Loss 的計算結果保持正確。

以上則為本次冠軍方案最核心部分的解讀,除此之外,關於編碼層、特徵交互層、數據增廣、模型預訓練等細節內容詳情,可參考——

GitHub 開原始碼:

https://github.com/GuidoPaul/CAIL2019 

AI 更廣泛的應用

從這個大賽我們可以看到,曾經局限於網際網路領域的 AI 技術,現在也在金融、法律甚至是礦工等領域開始漸漸發光發熱,起到實際作用。而且這也並非唯一一個舉辦法律 AI 大賽的會議,像這樣的比賽還有很多,比如:

Artificial Intelligence for Legal Assistance (AILA)

詳情查看:https://sites.google.com/view/fire-2019-aila/ 

Competition on Legal Information Extraction/Entailment

詳情查看:https://sites.ualberta.ca/~rabelo/COLIEE2019/ 

這些比賽都是聚焦於通過 AI 技術來解決法律案由中數據量大、數據繁雜、檢索力誤差等實際問題,我們也通過比賽得到了很多實用的優秀算法,幫助我們的生活變得更便利與幸福。

之前,我們很容易在網際網路、大數據等領域看到 AI 的身影;而現在,諸如法律、金融、醫療、交通、教育、零售以及文娛等各行各業中,也注入了強勁有力的 AI 實力。這或許也印證到,我們離全民 AI 又更近了一步。

雷鋒網 AI 開發者

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 京東AI Fashion-Challenge 挑戰賽冠軍方案詳解(風格識別+時尚單品...
    據京東 AI 平臺與研究部叶韻博士介紹,本次比賽共有 212 支隊伍報名,52 支隊伍提交結果,共收到 12 份技術報告,參賽人員來自 6 個不同國家和地區,涵蓋 196 所大學和研究所,包含 31 家公司。最終,「西天取京」隊以 0.6834 F2 Score 獲得時尚風格識別子賽道冠軍,「Fashion_First」隊以 0.5886 mAP 獲得時尚單品搜索子賽道冠軍。
  • 科學有效的學習方法:「費曼學習法」案例
    本人是個費曼迷,發現費曼不是因為他的費曼學習法,而且因為他的費曼物理學講義,他的教學方式讓我著迷,然後突然間發現原來到處都流傳著的這個「費曼學習法」,多翻研究後,才知道原來自己一直就在踐行這個學習法。我從來沒有今天這麼肯定,自己已經找到一個核武器,就是「費曼學習法」,這毫不誇張,說他是世界公認最好的學習方法,一點都不為過。前些天寫了一篇介紹這個方法的原理《「費曼學習法」的精髓在哪?》,今天來補充一個實戰例子,希望對大家有用。
  • CIKM 2019 挑戰杯「用戶行為預測」冠軍方案:層次GNN模型在推薦中...
    ,在中國北京舉辦 CIKM 2019 AnalytiCup 中,由來自浙江大學、中央財經大學、阿里巴巴等機構組成的團隊 WWG 摘得「用戶行為預測」賽道的桂冠。CIKM 是中國計算機學會(CCF)推薦的資料庫/數據挖掘/內容檢索領域的 B 類會議。
  • 百度的CVPR2020高光時刻——22篇論文 8項冠軍 2場Workshop
    國際計算機視覺和模式識別大會(CVPR)一直有計算機視覺領域的「奧斯卡」之稱,憑藉著嚴苛的論文錄取標準,躋身全球AI頂會之流。實際上,CVPR是全球參與者檢驗自身AI「基本功」的試金石。受到全球疫情影響,CVPR 2020改為6月14-19日舉行線上大會;讓人喜出望外的是,華人學者及團隊大放異彩,組成「中國軍團」向全球展示AI實力。
  • 百度大腦奪CVPR2020智能交通頂賽4項世界冠軍,助攻Apollo更強大
    近日,堪稱計算機視覺領域「奧斯卡」的國際頂會CVPR 2020首次以線上形式拉開帷幕。在本屆大會與智能交通關係最緊密的AI CITY Challenge和MOTS Challenge兩大挑戰賽中,百度一舉擊敗阿里、滴滴、卡內基梅隆大學等參賽者,斬獲4項世界冠軍及1個榜單冠軍,並成功衛冕1項冠軍,再度彰顯了百度在「新基建」的大潮下,在智能交通和智慧城市領域領先的技術實力。此外,百度本次奪冠也與飛槳的強力支撐密不可分。
  • AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlue...
    雷鋒網 AI 科技評論按,近日,IEEE ISI 2019 國際大數據分析競賽結果出爐,今年的競賽包括企業投資價值評估和法律訴訟類型預測兩個賽題,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊分別取得了一項冠軍和一項季軍的優異成績,本文作者羅志鵬(深蘭科技北京 AI 研發中心),他為雷鋒網 AI 科技評論獨家撰寫了該團隊在企業投資價值評估賽題中的算法思路與技術細節分享
  • AI 競賽沒有意義,模型實際不可用,冠軍全憑運氣?
    有人認為「既然有一個不變的測試集,你怎麼能過度適合?」,也有人認為「所提出的解決方案決並不打算直接應用」。即使某些模型在某種意義上比其他模型要好,除非你真的相信贏家是唯一能夠使用 ML-wizard 的,否則你必須接受,至少其他一些參與者會取得類似的結果,因此冠軍能夠獲勝只是因為他們運氣好。真正的「最佳表現」將在某個地方重新出現,可能高於平均水平,但低於勝利者。
  • 清華最強本科畢業生Top10出爐,「從來沒有什麼天才學霸」
    木易 魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一年一度,清華園裡的「神仙打架」,投票結果已經出爐。根據清華大學官方消息,2020年清華大學特等獎學金(本科生)答辯會在11月12日下午舉行。15位候選人完成答辯後,現場評委投票,選出了前10名單。
  • 清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結
    為了得到一個良好的折中方案,在少量迭代之後(如40次),重複運行專門的優化算法以快速得到結果。一種快速設計優化算法的策略是,使用 FGSM(通常可以在一個很大的步長裡得到可接受的結果),但是使用較小的步長運行幾次。這是因為 FGSM 每步都被設計為一直走到以該步驟起始點的小範圍球的邊緣,所以即使在梯度很小的情況下,該方法也能有較快的進展。
  • 不只是智能投研,「超對稱技術」想成為所有B端用戶的「外腦」
    據中國證券基金協會統計,截至2018年3月31日,中國共擁有公募基金5085隻和私募基金21675隻。自2015年開始,量化基金在中國進入爆發式增長,行業的難點集中體現在:不同基金的數量模型中的因子過於同質化。對於每一隻基金來說,要想在投資組合裡尋找到更多的超額收益 - alpha,就要找到新的因子,或者擁有更強的處理因子的能力。
  • KDD Cup 2018 冠軍「 first floor to eat latiao」:為什麼取這個...
    作為目前數據挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup 至今已舉辦 21 屆,每年都會吸引世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽,被外界譽為大數據領域的「奧運會」。今年的 KDD Cup 從空氣問題入手,組委會在比賽中提供中國北京和英國倫敦的相關數據,比賽選手需要預測未來 48 小時內 PM2.5, PM10 和 O3 的濃度(倫敦只需要預測 PM2.5 和 PM10)。在 48 小時後,選手提交的結果將通過真實的天氣數據評分。
  • AI+醫療「最佳掘金案例」榜單出爐,致敬寒冬中的「持炬者」
    從「替代醫生」到「輔助醫生」,從「單點突破」到「全病種理念」,從「技術研發」到「商業落地」。短短三年時間裡,AI醫療經歷了一個急劇變化的過程。2017年11月,雷鋒網聯合數十家風險投資公司、傳統上市企業、機關單位領導以及海內外高校,啟動了業內首個人工智慧商業案例評選活動:「AI最佳掘金案例年度榜單」,從商業維度出發,尋找各個行業用戶/客戶問題解決能力強的最佳產品和解決方案。
  • 專注蛋白質分離純化填料,「匯研生物」完成千萬級A輪融資
    「匯研生物」是一家集生物分離純化介質研發、生產、銷售於一體的高科技企業。該公司產品線包括分子篩、離子交換、親和、疏水等4大類一百餘種蛋白質分離純化填料。其中,「匯研生物」1000L微球反應釜已經連續生產超過4年,在多家生物製藥企業生產線上實現了國產替代。
  • 當CV碰上無人機:ICCV 2019 VisDrone挑戰賽冠軍解決方案解讀
    機器之心發布作者:羅志鵬近日,在 ICCV 2019 Workshop 舉辦的 Vision Meets Drone: A Challenge(簡稱:VisDrone2019) 挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了「視頻目標檢測」和「多目標追蹤」兩項冠軍。
  • 紐西蘭新國旗公投初步結果出爐 備選方案竟如此相似
    西蘭民眾選出的「最受歡迎的新國旗」方案竟如此相似【環球網綜合報導】據英國《獨立報》12月14日報導,紐西蘭新國旗設計公投的初步結果已於日前正式出爐,最終鎖定的兩個方案竟然「出奇地相似」,這讓熱衷於創造新國旗的紐西蘭人驚呼「好難選吶」。據悉,紐西蘭將於明年3月再次公投決定是否要用新方案取代舊國旗。
  • 李凱團隊獲2020貝爾實驗室競賽二等獎,但卻遭質疑論文只為「炫技」
    【導讀】近日,2020貝爾實驗室獎出爐,該競賽旨在表彰將定義下一場工業革命的顛覆性創新,其中,二等獎獲得者是華人教授李凱所在的團隊,獎項公布後,Reddit上有人質疑了其論文的實用性。 貝爾實驗室,位於美國新澤西州莫瑞山。
  • IND申報階段CMC工作的關鍵風險點及解決方案| 直播回顧
    ▎醫藥觀瀾/報導  近日,和記黃埔醫藥資深副總裁吳振平博士、合全藥業製劑業務副總裁陳金玲博士以及合全藥業製劑業務執行主任尹學強博士做客合全CMC系列課程直播間,為觀眾帶來以「IND申報階段CMC工作的關鍵風險點及解決方案
  • 長城C50:車輛感應不到智能鑰匙,車輛無法啟動「維修案例」
    解決方案更換點火鎖總成。注意:點火鎖總成包含電磁閥模塊,更換後需要使用電腦設備執行「更換電磁閥」,匹配步驟如下(不同品牌設備有所區別):本文由汽修蝦原創,歡迎關注,為你分享更多汽車維修實戰案例!奔馳C200L:往出風口噴空調清潔劑後,按鍵燈不亮「維修案例」奔馳AMG:車輛無法啟動,放一晚上後又可以啟動「維修案例」豐田凱美瑞:C1380 剎車燈控制繼電器故障「維修案例」
  • 2020-2021「AI中國」機器之心年度獎項揭榜(上)
    本屆「AI 中國」機器之心 2020 年度評選,為順應產業變化,體現產業趨勢,在傳統的六大榜單之外,新增設「新基建領軍企業」、「產業數智化領軍企業」、「最強技術生態」及「智能國民應用」四大分榜,共計形成十大榜單200個獎項。經過市場環境的大浪淘沙,更多優秀的企業和項目成為了成就時代的智能勢力,「智在實業 慧及平常」是機器之心對2020年我國人工智慧產業發展的總結。
  • 北京中、高考時間確定;QQ 搜索「網課」匹配交友直播,騰訊立即下線...
    回購期限自公司董事會審議通過本次回購方案之日起不超過 12 個月,回購股份將用於員工持股計劃或者股權激勵。(來源:中國新聞網)軟銀將與比亞迪合作生產口罩,每月免費派發 3 億個4 月 11 日消息,孫正義稱,軟銀和比亞迪達成協議,為軟銀設立專用的口罩生產線。每月生產 3 億隻口罩(N95 口罩 1 億隻,醫用口罩 2 億隻)5 月開始向日本無利潤銷售。