日前,信息檢索領域的頂級國際會議SIGIR在法國巴黎成功舉辦,深蘭科技再奪一冠!在SIGIR2019電子商務研討會中,DeepBlue AI團隊榮獲高精度召回任務挑戰賽第一名。
SIGIR(ACM International Conference on Research and Development in Information Retrieval)國際計算機協會信息檢索大會是一個展示信息檢索領域中各種新技術和新成果的重要國際論壇,專注於信息存儲、檢索和傳播的各個方面,包括研究戰略、輸出方案和系統評估等。國際信息檢索大會的歷史可以追溯到1971年,當年召開了ACM SIGIR的信息存儲和檢索研討會。而第一次正式的SIGIR大會於1978年在美國紐約州的羅徹斯特召開,每三年在美國以外舉辦一次,2019年落地法國巴黎。亞馬遜、eBay、 Google等電商及搜尋引擎國際巨頭,歷年來均深度參與了SIGIR。
SIGIR2019電子商務研討會聚焦信息檢索和自然語言處理研究及其在電子商務領域的應用,並具體討論了在電子商務領域中產品搜索和推薦的方法。而其重頭戲,則是由eBay組織的「高精度召回任務」數據挑戰賽,吸引了多個來自全球近20個團隊參賽。
本次挑戰賽針對的是電子商務搜索中的常見問題:標識使用非相關性排序時要顯示的內容。比賽數據集包括大約90萬條來自eBay收藏類別中的特定欄位,以及與收藏類別相關的150個熱門搜索查詢關鍵詞,每條數據帶有商品標題、價格、分類目錄和相應圖像網址的URL。參賽選手要合理運用數據集,來判斷查詢短語和文檔是否相關。
通常,用戶在電商平臺搜索的結果是按維度而非相關性進行排序的,例如流行度、評論得分、價格、距離等,這與傳統的、面向信息的搜索有諸多差異。在這種搜索中,文檔以相關順序出現,許多搜索方法都利用了這一點,但非相關性排序順序的研究則較少。而本次挑戰賽的重點在正是使用非相關性排序時找到應該召回的內容,這是一個相當困難的問題,包括典型的搜索挑戰,如歧義,多重查詢意圖等。
深蘭科技DeepBlue AI團隊基於挑戰賽數據集構造了一些有意義的手工特徵,並在實踐效果較好的文本相似度計算模型ESIM的基礎上,疊加了門限機制,設計生成了的Gate-ESIM網絡。同時團隊還基於訓練集採用10折交叉驗證,結合多種子平均來搜索得到每個搜索關鍵詞的的標籤劃分閾值。結果證明,這套方案大大提高了用戶非相關性搜索的匹配指標,在Ave-F1指標上取得了非常好的效果。該方案不僅可以應用在電子商務的召回任務中,也可以應用在智能客服,文章推薦等需要做文本匹配的場景中。
DeepBlueAI團隊坦言,每次競賽都是驗證深蘭科技基礎算法和技術實力的機會,該模型也將被用於深蘭科技的quiXmart快貓智能零售平臺,提高搜索場景的匹配率。深蘭科技始終致力於基礎研究和應用開發雙落地,數據挖掘分析作為最底層的技術之一,對後期的應用起著至關重要的作用。通過不斷改進和完善,這些技術有望在深蘭科技的產品和方案上得以應用,更多地服務於民生。
來源:中國網