CCKS 2020「基於標題的大規模商品實體檢索」競賽冠軍,DeepBlueAI...

2020-12-28 澎湃新聞

原創 Synced 機器之心

機器之心發布

作者:羅志鵬(深蘭北京 AI 研發中心)

這篇文章介紹了 DeepBlueAI 團隊在第十四屆全國知識圖譜與語義計算大會(CCKS 2020)中「基於標題的大規模商品實體檢索」任務中的冠軍解決方案,詳細描述了任務解決過程中的數據處理以及模型選擇和使用等細節問題。

第十四屆全國知識圖譜與語義計算大會(CCKS 2020) 11 月 12 日至 15 日在江西南昌舉行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中國中文信息學會語言與知識計算專委會定期舉辦的全國年度學術會議。CCKS 已經成為國內知識圖譜、語義技術、語言理解和知識計算等領域的核心會議。CCKS 2020 舉辦的各項挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了 3 項冠軍和 1 項亞軍,並獲得了一項技術創新獎。

一、任務介紹

CCKS 2020:基於標題的大規模商品實體檢索,任務為對於給定的一個商品標題,參賽系統需要匹配到該標題在給定商品庫中的對應商品實體。

輸入:輸入文件包括若干行商品標題。

輸出:輸出文本每一行包括此標題對應的商品實體,即給定知識庫中商品 ID,只返回最相關的 1 個結果。

團隊成績:評價方式採用準確率,最終成績排名如下,DeepBlueAI 團隊獲得了本任務的冠軍以及技術創新獎。

比賽難點:基於標題的大規模商品實體檢索存在如下幾點挑戰:

(1)輸入文本中可能無法識別出實體指代詞;

(2)商品標題中存在很多變異指代,沒有給定的指代映射表;

(3)商品標題一般較短,上下文語境不豐富,須對上下文語境進行精準理解。

二、引言

基於標題的大規模商品實體檢索與實體連結任務類似,都需要找到知識庫中對應實體,因為部分標題文本不能識別出實體指代詞,並且存在很多變異指代詞,所以沒有辦法使用實體連結那種實體識別 -> 候選實體生成 ->實體消歧的方案。

所以如標題描述一樣,DeepBlueAI 團隊將該任務定義為信息檢索任務,針對檢索任務採用了召回 -> 粗排序 -> 精排序的方案。具體而言,首先採用 Triplet BERT 召回模型,召回前 100 最相關實體,然後採用 BERT[1]二分類模型進行粗排序得到前 10 個最相關實體,最後經過精排序得到 1 個最相關實體。

三、數據處理

數據分為 8.3w 訓練集文本和包含 text_id,text,implicit_entity 等欄位,具體格式如下:

{ "text_id": 81228, "text": "四盒粉,寶寶痱子粉", "implicit_entity": [{"subject": "硼酸氧化鋅散", "subject_id": 23813}] }

知識庫數據 27.7w 商品實體,其中藥品類 4.4k 個和書籍類 27.3w 個,知識庫商品實體包含實體類型、實體 ID、實體 predicate 和 object 項,具體格式如下:

{ "type": "Medical", "subject_id": 23813, "subject": "硼酸氧化鋅散", "data": [ {"predicate": "生產企業", "object": "中國醫科大學附屬盛京醫院"}, {"predicate": "主要成分", "object": "本品為複方製劑。其組分為:每盒含氧化鋅 12.5g、硼酸 12.5g"}, {"predicate": "症狀", "object": "本品具有收斂、止癢、吸溼、殺菌作用。用於預防和治療成人和嬰幼 兒各種原因引起的痱子。"}, {"predicate": "規格", "object": "50g"}, {"predicate": "產地", "object": "中國"}]}

因為官方提供的數據是從實際業務場景得到,並沒有進行清洗,所以原始數據存在太多的噪音,其中影響模型性能的情況如下:

圖書類別太多

因為訓練集中圖書類別的標題佔比很少,幾乎可以忽略不計,但是在知識庫中卻佔據了 98%,經過試驗分析後去掉了訓練集和知識庫數據中圖書類別的數據。

訓練集中 text_id 不唯一

在多數情況下大家會默認 text_id 是唯一的,但是發現官方提供的 text_id 並不是唯一的,如果利用 text_id 唯一性去實現相關代碼則會導致標註錯誤等情況。

相同標題文本對應多個實體 ID

訓練集存在一些數據,標題文本相同但是對應的實體 ID 卻不同,這類數據分為三種情況:

標題文本不包含任何實體信息

{"text_id": 22473, "text": "藥品", "implicit_entity": [{"subject": "丁苯羥酸乳膏", "subject_id": 268655}]}{"text_id": 105526, "text": "藥品", "implicit_entity": [{"subject": "腫節風軟膠囊", "subject_id": 53176}]}

標題文本對應的兩個實體都具有關係

{"text_id": 134542, "text": "正品米菲司同片銅片", "implicit_entity": [{"subject": "米菲司酮片", "subject_id": 140181}]}{"text_id": 21246, "text": "正品米菲司同片銅片", "implicit_entity": [{"subject": "司米安米非司酮片", "subject_id": 134662}]}

標題文本對應的兩個實體一個為正確標註另一個為錯誤標註

{"text_id": 132115, "text": "阿達帕林", "implicit_entity": [{"subject": "福牌阿膠阿膠片", "subject_id": 216530}]}{"text_id": 45692, "text": "阿達帕林", "implicit_entity": [{"subject": "維 A 酸乳膏", "subject_id": 230257}]}

上述相同標題文本對應多個實體 ID 的情況會在最後的排序階段影響模型的收斂,導致最後的性能下降,所以直接刪除了這部分數據。

相似實體

知識庫中存在一些極其相似的實體,例如下面的兩個實體只有生成企業不同,其他完全相同。針對這種相似的實體,團隊會保留在訓練集中出現的那一個,其他的全部刪除。

{"type": "Medical", "subject_id": 172360, "subject": "腎石通顆粒", "data": [{"predicate": "生產企業", "object": "河北萬歲藥業有限公司"}, {"predicate": "主要成分", "object": "金錢草、王不留行(炒)、萹蓄、延胡索(醋制)、雞內金(燙)、丹參、木香、瞿麥、牛膝、海金沙。"}, {"predicate": "症狀", "object": null}, {"predicate": "規格", "object": ["15g*10 袋(萬歲)"]}, {"predicate": "功能", "object": null}]}

{"type": "Medical", "subject_id": 31946, "subject": "腎石通顆粒", "data": [{"predicate": "生產企業", "object": "修正藥業集團股份有限公司"}, {"predicate": "主要成分", "object": "金錢草、王不留行(炒)、萹蓄、延胡索(醋制)、雞內金(燙)、丹參、木香、瞿麥、牛膝、海金沙。"}, {"predicate": "症狀", "object": null}, {"predicate": "規格", "object": ["15g*10 袋(修正)"]}, {"predicate": "功能", "object": null}]}

實體描述文本構建

知識庫中的數據為結構化數據,需要將結構化數據變成文本,所以按照 ['產地', '功能', '症狀', '主要成分', '生產企業', '規格'] 的順序對知識庫中的結構化文本相連得到商品實體的描述文本。經實驗分析,「產地」、「功能」對結果影響較大,放在了前面,而 「生產企業」、「規格」 影響較少,放在了後面。對於上述 「硼酸氧化鋅散」 的例子構建的描述文本為:

硼酸氧化鋅散的產地為中國,症狀為本品具有收斂、止癢、吸溼、殺菌作用。用於預防和治療成人和嬰幼 兒各種原因引起的痱子。主要成分為本品為複方製劑。其組分為:每盒含氧化鋅 12.5g、硼酸 12.5g,生產企業為中國醫科大學附屬盛京醫院,規格為 50g

四、召回模型

針對每個標題文本需要從知識庫找到對應的那一個商品實體,雖然經過上述的處理剩了 4000 左右的實體,但是如果直接採用 Interaction-Based(交互型,即標題和實體描述文本在模型中存在信息交互) 類型的網絡,計算量將巨大。對於 8w 的訓練集,則過一遍有 3.2 億的計算量,因此交互型網絡在召回階段無法使用,可以在後續排序階段使用。

因此傳統的文本召回方式如 TF-IDF、BM25 等基於傳統特徵的召回方式不適用於當前數據集,而基於深度學習的召回網絡如 DSSM[2]、CLSM[3]等僅僅使用了靜態的詞向量,而商品標題一般較短,上下文語境不豐富,必須對上下文語境進行精準理解,所以此類模型效果依舊不行。

最終團隊決定採用基於預訓練模型 BERT 的排序模型進行召回,模型依據 Sentence-Bert[4],採用 triplet network[5]形式,loss 為 Triplet loss,模型共用同一個 BERT 層。

Triplet loss

Triplet loss 輸入樣本對是一個三元組,這個三元組

由一個錨點樣本

、一個正樣本

和一個負樣本

組成。其目標是錨點樣本與負樣本之間的距離

與錨點樣本和正樣本之間的距離

之差大於一個閾值

,可以表示為:

對於簡單容易學習的樣本

,這種對比起正樣本來說,負樣本和錨點樣本已經有足夠的距離了(即是大於 m ),此時 loss 為 0,網絡參數將不會繼續更新,對於其他樣本 loss>0 網絡參數可以正常更新。

針對此任務,如下圖 1 所示,錨點(Anchor)樣本為標題文本,正樣本(Positive)為標題對應的實體描述文本,負樣本(Negative)為其他隨機選擇與正樣本不同的實體描述文本,團隊採用了 Pytorch 中 TripletMarginLoss 類作為實驗方式,為了讓模型達到最優效果,將 margin 參數設置為 3(默認為 1)。

圖 1:Triplet loss

具體的召回模型圖如下圖 2 所示,Anchor 為商品標題,Positive 為正樣本的實體描述文本,Negative 為負樣本的實體描述文本,其中這三個輸入共享一套 BERT 模型參數。訓練時將上述三個文本輸入到 BERT 模型中,選取 BERT 模型的所有 Token 向量平均作為輸出,將三個輸入向量經過 TripletMarginLoss 得到損失值完成模型的訓練。負樣本選擇上採用動態負採樣,在訓練中的每個批次(batch)中,都對三元組進行動態的採樣樣本。

圖 2:Triplet BERT

模型推理

推理階段如下圖 3 所示,將所有標題文本和所有實體描述文本都經過 BERT 模型得到向量表徵,然後對於某一個標題文本的向量和所有實體描述文本的向量進行距離度量,其中採用歐式距離作為度量方式,選擇距離最近的 Top100,得到了該標題文本的前 100 個召回實體。

通過交叉驗證對訓練集進行預測,得到訓練集每個標題的前 100 個召回實體。對於測試集則採用了概率求平均進行模型的融合。其中 BERT 模型採用了兩種預訓練,分別是 ernie-1.0[6]和 roberta-wwm[7] 。對於兩個模型預測的結果也是採用了取平均的方式,在訓練集上召回覆蓋率達到 98.6%。

圖 3:召回推理

五、排序模型

排序分為兩個階段,分別是由 top100 排序得到 top10,再由 top10 排序得到 top1。每個標題的對應實體的 top100 由前面召回模型得到,在 top100 的基礎上構建粗排序模型,由粗排序模型得到 top10,然後在 top10 的基礎上構建精排序模型。

圖 4:排序模型圖

排序模型採用了基於二分類的排序方法,模型如上圖 4 所示,模型將標題文本和實體描述文本連在一起輸入到模型中,最後選取 CLS 位置的向量輸出進行二分類,然後對輸出的概率排序,完成實體的排序。

模型輸入有標題文本和實體描述文本構成,如:

標題文本:虎鏢肩頸舒

實體描述文本:虎標頸肩舒產地為新加坡,症狀為舒壓按摩,緩解肌肉緊繃,僵硬,酸痛等,主要成分為薄荷腦, 水楊酸甲酯

將上述兩段文本連在一起為:

[CLS]虎鏢肩頸舒 [SEP] 虎標頸肩舒產地為新加坡,症狀為舒壓按摩,緩解肌肉緊繃,僵硬,酸痛等,主要成分為薄荷腦, 水楊酸甲酯[SEP]

將上述文本輸入到 BERT 模型進行二分類,得到該標題與該實體的概率。

top100 -> top10

根據前面召回模型得到 top100,在此基礎上構建排序模型,負樣本選擇依舊採用動態負採樣。每個 Batch 在 top100 中選取 3 個與正樣本不同的樣本作為負樣本,也就是當前 Batch 內每個標題文本都對應有一個正樣本和 3 個負樣本。

預訓練模型依然採用了 ernie-1.0 和 roberta-wwm 這兩個模型,然後採用交叉驗證得到訓練集中每個標題對應的 top10 文本,對於測試集則採用對概率求平均的方式融合。在劃分的驗證集上 top100 -> top10 的覆蓋率達到 93% 左右。

top10 -> top1

top10 -> top1 和 top100 -> top10 訓練方式一樣,負採樣格式改成 2,對測試集採用了 ernie-1.0、roberta-wwm 和 bert-wwt 三個模型並進行了融合。在劃分的驗證集上最後的準確率達到 83% 左右。

六、結果與總結

採用上述方案,DeepBlueAI 團隊在最終的測試集上達到了 88.489 的準確率,對比後幾名有著很大的領先,證明了方案的有效性。

上述模型採用 bert-base 版本,速度較慢,所以也在 bert-tiny(3 層的 roberta)上進行過實驗,比 base 大概低 2 分左右,但是速度提升很快。在實際應用中可以嘗試使用 bert-tiny,這樣也能達到一個很好的效果。或者針對數據蒸餾出一個比 bert-tiny 效果更好的小模型,這也是一種可行的方案。

參考文獻

[1] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.

[2] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2013.

[3] Shen, Yelong, et al. "A latent semantic model with convolutional-pooling structure for information retrieval." Proceedings of the 23rd ACM international conference on conference on information and knowledge management. 2014.

[4] Reimers, Nils, and Iryna Gurevych. "Sentence-bert: Sentence embeddings using siamese bert-networks." arXiv preprint arXiv:1908.10084 (2019).

[5] Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

[6] Sun, Yu, et al. "Ernie: Enhanced representation through knowledge integration." arXiv preprint arXiv:1904.09223 (2019).

[7] Cui, Yiming, et al. "Revisiting Pre-Trained Models for Chinese Natural Language Processing." arXiv preprint arXiv:2004.13922 (2020).

Amazon SageMaker實戰教程(視頻回顧)

Amazon SageMaker 是一項完全託管的服務,可以幫助機器學習開發者和數據科學家快速構建、訓練和部署模型。Amazon SageMaker 完全消除了機器學習過程中各個步驟的繁重工作,讓開發高質量模型變得更加輕鬆。

10月15日-10月22日,機器之心聯合AWS舉辦3次線上分享,全程回顧如下,複製連結到瀏覽器即可觀看。

另外,我們準備了Amazon SageMaker 1000元服務抵扣券,幫助開發者體驗各項功能。點擊閱讀原文,即可領取。

第一講:Amazon SageMaker Studio詳解

主要介紹相關組件,如studio、autopilot等,並通過在線演示展示這些核心組件對AI模型開發效率的提升。

視頻回顧地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715443e4b005221d8ea8e3

第二講:使用Amazon SageMaker 構建一個情感分析「機器人」

主要介紹情感分析任務背景、進行基於Bert的情感分析模型訓練、利用AWS數字資產盤活解決方案進行基於容器的模型部署。

視頻回顧地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d38e4b0e95a89c1713f

第三講:DGL圖神經網絡及其在Amazon SageMaker上的實踐

主要介紹圖神經網絡、DGL在圖神經網絡中的作用、圖神經網絡和DGL在欺詐檢測中的應用和使用Amazon SageMaker部署和管理圖神經網絡模型的實時推斷。

視頻回顧地址:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_5f715d6fe4b005221d8eac5d

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

喜歡此內容的人還喜歡

原標題:《CCKS 2020「基於標題的大規模商品實體檢索」競賽冠軍,DeepBlueAI團隊技術分享》

閱讀原文

相關焦點

  • 騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍
    近日,第十四屆全國知識圖譜與語義計算大會(CCKS2020)舉辦的知識圖譜與語義計算技術評測競賽結果公布,騰訊天衍實驗室從213支參賽隊伍中脫穎而出,斬獲試驗裝備鑑定領域實體抽取(NER)任務冠軍,體現了在實體抽取和知識圖譜領域的技術實力。
  • ...PPT詳解基於分布式向量檢索系統Vearch的大規模圖像搜索附PPT下載
    在本次講解中,邸志惠老師從大規模圖像檢索任務所面臨的挑戰入手,詳細解析了Vearch的原理,最後通過三個案例展示Vearch如何在實踐場景中助力深度學習應用落地。本文為此次課程主講環節的圖文整理:正文:大家好,我是邸志惠,今天我要分享的主題為《大規模圖像檢索系統的挑戰與實踐》,我們會分為3個部分:1、大規模圖像檢索任務所面臨的挑戰2、Vearch原理解析
  • 中芯國際正式被美列入「實體清單」;美政府遭遇黑客大規模襲擊...
    中芯國際被美國商務部列入「實體清單」北京時間 12 月 18 日晚,美國商務部正式公告稱,商務部工業和安全局(BIS)將中芯國際添加到實體清單中。「用於生產先進工藝節點(10 納米或以下)的半導體產品所需的物品出口將採取『推定拒絕』(presumption of denial) 的審查政策(即原則上不會批准許可申請)。」
  • 媒體檢索排序與哈希索引簡介
    為了捕獲數據中所具有的隱性結構,研究人員相繼提出了一些基於主題詞袋(bag of topics)、排序的最大間隔約束學習和基於社區關係約束學習等方法,用於進行相似度度量。但是,這種基於人工構造特徵的跨媒體檢索方法會受到不同特徵提取方法的影響而導致排序結果差別較大。
  • 阿里推出區域檢索算法
    機器之心發布 機器之心編輯部 近日,計算機視覺頂會 CVPR 2020 接收論文結果公布,從 6656 篇有效投稿中錄取了 1470 篇論文,錄取率約為 22%。本文介紹了阿里安全全新的「盜版服裝圖像」檢索算法。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。然而相對大規模的單語語料,雙語語料需要專業標註,獲取成本大,難以大規模收集。這使得多語言語義理解模型的效果受限。
  • 2020銷量三冠王!BP獲GAON統計數位、實體、整體銷量冠軍
    BP獲GAON統計數位、實體、整體銷量冠軍韓國漢陽大學網絡大學1+3留學課程Gaon Chart 釋出2020年度數位歌曲、實體專輯,以及整體銷量排行榜,並在27日釋出了「2020女團回顧」,BLACKPINK 一舉拿下了數位、實體及整體銷量排行榜冠軍!
  • 為什麼我們對deepfake技術又愛又恨?| 有機社會·Post
    用AI打假AI,成為一場「軍備競賽」。而我們會獲勝嗎?  ■ 近來的一項研究表明,目前網上有14678個DeepFake視頻,其中96%是色情視頻。大部分都是著名女演員的臉,被轉移到色情明星的身體上。」 (機器之心)對於普通人或知名度較低的女性而言,deepfake技術讓造假色情視頻變得十分容易,基於報復或其他目的的色情視頻,可能讓女性面臨更高的名譽風險而難以自辯。  ■ 技術的革新也讓「欺詐產業」不斷改頭換面。
  • 「臺灣商品中心」
    五丶臺灣同胞輿論獲得臺灣民心,全世界行銷逐年逐省設立「臺灣商品中心」,逐年逐步擴大市場,逐年擴大臺灣農漁民與中小企業群聚效應。六丶臺灣民進黨只能對外宣稱:包著糖衣的毒藥,又能怎麼辦?大陸「臺灣商品中心」未來8年國際輿論1.網軍依據事實大力宣傳,連續8年用視頻大力報導引述,6省2市「臺灣商品中心」。
  • 「標題舞蹈」創始節目《舞者》的熱望
    熟悉音樂史的朋友都知道,「標題音樂」是與「純音樂」相對應的一組概念,生自浪漫主義時代的標題音樂,將音樂與文學、戲劇、繪畫等姐妹藝術相結合而產生的綜合性音樂形式。而筆者之所以用「標題舞蹈」來概括東方衛視《舞者》複賽階段的創新,便是在於二者之間、本質相通。所謂「標題舞蹈」,就是一段舞蹈的創作,始於「標題」。
  • 李凱團隊獲2020貝爾實驗室競賽二等獎,卻遭質疑論文只為「炫技」
    【新智元導讀】近日,2020貝爾實驗室獎出爐,該競賽旨在表彰將定義下一場工業革命的顛覆性創新,其中,二等獎獲得者是華人教授李凱所在的團隊,獎項公布後,Reddit上有人質疑了其論文的實用性。貝爾實驗室,位於美國新澤西州莫瑞山。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    在AAAI 2020 舉辦之際,他也曾對發表在AAAI 2020上知識圖譜相關的文章做了全方位的分析,具體可見「知識圖譜@AAAI2020」。註:文中涉及論文,可關注「AI科技評論」微信公眾號,並後臺回復「知識圖譜@ICLR2020」打包下載。一、在複雜QA中利用知識圖譜進行神經推理今年ICLR2020中,在複雜QA和推理任務中看到越來越多的研究和數據集,very good。
  • 淘寶發布的「2020 年度十大商品」榜單裡竟然有 TA
    淘寶今日發布了「2020 年度十大商品」榜單,十款今年在淘寶上賣得最好的商品裡,除了口罩、頭盔、熱乾麵、5G 手機等緊繞時事的品類,還包括打蛋器、JK 制服、上門餵貓、盲盒等網友討論度較高的產品。具體到榜單內的商品,因為疫情的影響,口罩當之無愧地奪得今年淘寶最熱賣單品的稱號,一年裡有 75 億人次在淘寶上搜索了口罩。此外,宅家戰「疫」的日子裡,不少人開啟了廚藝速成之路,打蛋器也登上了 2020 年度十大商品的榜單。值得一提的是,電商平臺拼多多在今年第一季度發布的「宅家十大熱銷商品」榜單中也有打蛋器的身影。
  • 楊冪「下海」、黑寡婦抗議,史上最嚴重「豔照門」失控了
    楊冪「無碼片」流出,Angelababy「床照」曝光,林志玲「下海」拍片……乍一看還以為又一個娛樂圈「豔照門」曝光了,正當宅男們搬好小板凳準備好好清潔一下屏幕時,可能就會發現有什麼不妥。因為這都是視頻通過 AI 技術合成的,事情的開始要從去年國外論壇 Reddit 上一位叫「 deepfakes」 的用戶說起,他利用 AI 工具將這些好萊塢女星的臉「換」到了色情影片的演員身上。
  • 演出行業已經進入下一個「競賽周期」
    對於現場演出行業來說,又是一場新的競賽。轉載:由你音樂研究院2020年截至目前,全球現場音樂門票及贊助收入已經較年初降低了64%,全球演唱會產業則已損失了大約180億美元(約合人民幣1221億元)。這項統計出自普華永道會計師事務所最新發布的《2020-2024年全球娛樂及媒體產業展望》報告(簡稱「報告」),這份報告首次計算了今年疫情及其後續影響給現場音樂產業帶來的經濟創傷。
  • 武漢農博會首次大規模「雲」上辦
    原標題:武漢農博會首次大規模「雲」上辦   12月16日,第17屆中國武漢農業博覽會在中國光谷科技會展中心開幕,該展會依託
  • 【有片】《請輸入檢索詞WWW》李多熙怒踹「電梯鹹豬手」!面對「性騷擾」毫不示弱地反擊
    李多熙此次在tvN水木劇(周三、四播出)《請輸入檢索詞WWW》中飾演Barro網站社交部長「車賢」。她擁有發達的運動神經、健康的體魄,冰冷的外表下有著隨時可能噴發的「憤怒熔巖」。車賢的人物設定裡有「愛看狗血劇」,本周也公開相關片段啦!看到她憤怒的模樣,宛如看到正在看電視劇的自己!(大笑)因為電視劇裡的「薛智煥」實在是太可惡了,車賢還去搜尋他。怪了,居然沒有相關檢索詞?「薛智煥」這個角色由李在旭飾演,從先前公開的人物關係圖可以得知,他將與車賢有著Loveline。
  • 賽爾原創 | EMNLP 2019基於知識庫檢索器的實體一致性端到端任務型對話系統
    Eric [1] 等人第一次構建了InCar數據集,並提出了對於整個知識庫進行注意力操作,然後將對知識庫中的實體注意分值增廣到最終的生成概率分布中,從而使得整個模型能夠生成實體。Madotto [2] 等人第一次將記憶網絡引入到端到端任務型對話中,用它來存儲知識庫和歷史對話,來增強生成過程中與實體的交互。Wen[3]等人提出使用隱式的對話狀態來檢索相應的知識庫,從而在生成過程中複製選擇實體。
  • 為什麼網站搜索全標題,檢索不到結果?
    定期審查網站關鍵詞的排名情況,是每個SEO人員,常作的一件事,偶爾我們也會遇到一種情況:在某個特定時期,我們發現搜索網站首頁的全標題,沒有任何結果,及時有結果也排名在600名以後。 如果沒有得到合適的處理,那麼它可能導致網站任何一個頁面,都搜索無標題。
  • 「最全」新版PubMed檢索攻略
    1.3 限定詞限定檢索通過將檢索詞限定在一個或多個特定欄位中,來減少搜索結果。常用的限定檢索符號為:雙引號"",其表示強制檢索,這個跟谷歌、百度等搜尋引擎中的強制檢索是一樣的。1.4 檢索欄位標識符可以在檢索詞後面加上欄位標識符來指定檢索詞的含義,從而實現精確檢索。常用的檢索欄位標識符如下:2.