科學網—信息檢索:在融合中尋求「新」自我

2020-12-26 科學網

據SIGIR2020大會今年詞頻統計,推薦系統和機器學習佔到前兩名。圖片來源:Unsplash

 

■本報記者 鄭金武

近日,第43屆國際計算機協會信息檢索大會(SIGIR2020)落下帷幕。原計劃在陝西西安舉行的SIGIR2020大會,受疫情影響改為線上舉行。

「根據今年詞頻統計,推薦系統和機器學習佔到前兩名。」SIGIR2020大會共同主席、吉林大學人工智慧學院院長常毅在接受《中國科學報》採訪時,對信息檢索領域的研究方向進行了分析。

然而,從今年的SIGIR大會錄取論文內容看,信息檢索與人工智慧、自然語言處理、數據挖掘等技術融合創新,是大會的重要特點。而阿里巴巴、百度等公司團隊多篇論文的入選,又彰顯了信息檢索領域技術創新與工業界結合的緊密性。

在常毅看來,「交叉融合,與工業界結合緊密」,也正是SIGIR成為信息檢索領域頂級會議的重要法寶。

交叉融合促進技術創新應用

「會議開幕式上近十年關鍵詞的動態演化,顯示推薦系統與機器學習是近期SIGIR會議最熱門的方向。機器學習最新方法和模型在信息檢索領域的創新性應用,也是學者們關注的焦點。」常毅介紹。

機器學習是中國科學院院士、西安交通大學教授徐宗本此次大會報告的關鍵詞。「機器學習是在一系列前提條件的基礎上運行和應用,有助於人工智慧的巨大成功,而人工智慧也有助於機器學習進一步發展和突破瓶頸。」

機器學習需要大量用於訓練的數據集。「研究人員從一個不完整的數據集中逐步進行機器學習,並由易到難,為處理非常複雜的不完備數據集提供可行的方法。」徐宗本表示,類似由易到難的進階式訓練,有利於突破機器學習的瓶頸,並取得進展。

自2008年至今,天津大學智能與計算學部副教授張鵬一直致力於開拓量子人工智慧與自然語言理解這一交叉領域的研究工作。其入選今年SIGIR會議的論文,是基於量子幹涉的檢索神經匹配模型研究。

「在人類認知和人類相關性判斷過程中,研究表明存在量子幹涉現象的大量證據。在此基礎上,我們將量子幹涉的理論建模在神經匹配模型中,將神經匹配模型擴展到量子概率詮釋。」張鵬說,這一神經匹配模型在信息檢索任務中應用時,表現出不錯的檢索效果。

類似的交叉融合研究,在本屆SIGIR大會論文中比比皆是。常毅表示,信息檢索與人工智慧、自然語言處理、數據挖掘等技術融合創新,既促進了信息檢索領域的長足發展,也帶動了相關技術的創新應用。

與工業界結合緊密

常毅說,隨著算法、算力的不斷提升,SIGIR會議成果在現代學術界、工業界都顯示出重要的研究與應用價值,推動信息檢索成為大學和企業都非常關注的專業領域,吸引了更多相關領域的頂級科學家和頂級信息技術公司科研人員加入。

「近十年來,學術團體的研究方向與工業界的實際應用,與機器學習的關係越來越緊密。」常毅說,這樣的緊密結合,也有利於學術的不斷發展。

在今年的SIGIR大會上,阿里巴巴的研究團隊表現突出,共有20多項研究成果入選,是全球論文數量最多的科技公司。有專家表示,阿里巴巴在多個成果中,都展現了人工智慧在理解文本信息任務上的突破。

在其中一篇論文中,阿里巴巴研究團隊提出了一種能夠理解文本言外之意的方法,通過推敲給定隱晦文本的全局語義、局部語義,以及可能存在的噪聲,有效提高了模型識別隱晦文本是否包含色情、暴力等內容的精確率。

據統計,百度、華為、騰訊、平安科技等科技公司,在今年的SIGIR會議上的論文投稿量都很可觀,這些論文都來自於信息檢索相關技術在實際場景中的應用,而應用又促進技術創新的案例。例如,平安科技公司團隊的論文,是平安科技人工智慧前沿技術與壽險線上營銷業務深度融合的一項創新成果。

信息檢索和自然語言處理是人工智慧的基礎技術,要實現突破,不僅需要全新的模型,還需要結合實際應用提出更創新的訓練和推理方法。而阿里巴巴、騰訊等經濟體豐富的場景,恰為自然語言處理等技術的研究提供了良好條件。

中國青年學者唱主角

在今年的SIGIR會議上,中國和美國學者論文在投稿率錄用率排名中,分別名列第一、第二。

據介紹,SIGIR 2020會議上華人學者的表現十分突出。入選的論文中共有317位華人學者,其中有1人發表9篇論文。另外,第一作者華人學生共有55人,以一作身份發表2篇論文的學生有7人。

本屆會議最佳論文獎由康奈爾大學Thorsten Joachims團隊獲得。而清華大學本次獲得了多個獎項,包括最佳論文榮譽提名獎和兩個最佳短論文獎。其中,兩個最佳短論文獎的第一作者分別是常健新和於是。值得一提的是,於是目前是清華大學大三學生。

「這些成績,都顯示了中國學者在信息檢索相關領域的創新與貢獻。」常毅說,「今年SIGIR會議的一大亮點,是有更多非論文作者尤其是青年學生加入到信息檢索社群中來。」

常毅介紹,假如青年學者定義為青年學生、青年博士、青年教師,則今年SIGIR會議上青年學者的參與比例超過了75%。

常毅表示,青年學者積極參加國際學術會議,多學習、多交流,將有助於他們打開視野、開拓思路,結識海內外、業內外資深而優秀的研究者、業內同行和同學。

「青年學者應通過交換計劃、訪問計劃,積極開展國際合作。」常毅說。

 

《中國科學報》 (2020-08-06 第3版 信息技術)

相關焦點

  • 融合交互:圖書館界發展新理念
    融合交互:圖書館界發展新理念 2018年03月02日 08:30 來源:中國社會科學網-中國社會科學報 作者:龍朝陽 胡燦 字號 關鍵詞:學習;融合圖書館;實體圖書館;檢索
  • 百度研發新搜尋引擎 抓取和檢索"暗網"信息
    百度研發新搜尋引擎 抓取和檢索"暗網"信息 2008年12月23日 11:19 來源:廣州日報 發表評論   日前,百度宣布在上海成立研發中心,並首次對外界公布了正在推進的新一代搜尋引擎
  • 自我的尋求:中國教育哲學的自我認同
    徐州 221116   自近代以降,中國教育哲學主要面臨著如何尋求自我、確立自我的問題。  一、自我尋求的維度:歷史·比較·實踐  中國教育哲學在發展中前行是一個歷史事實。這些歷史事實必須在其所嵌入的解釋框架中才能顯示出意義來。
  • ...論文寫作、信息檢索、抄襲檢測……人工智慧延伸科學交流觸角
    據介紹,運用自然語言處理技術,小柯以英文論文摘要為基礎,能夠快速寫出中文科學新聞底稿,然後由專業人士和報社的編輯進行把關和信息完善,幫助科學家以中文方式快速獲取全球高水平英文論文中的最新科研進展。  目前小柯的作品已經上線。人工智慧的觸角,也在伸向各個領域。
  • 智能視頻檢索技術在安防監控領域的作用
    隨著視頻監控的高速發展,監控畫面的海量信息已經遠遠超越人力的有效處理範圍,智能視頻檢索技術成為視頻監控系統越來越不可或缺的部分。   科達智能視頻檢索技術融合了視頻處理、計算機視覺和人工智慧,極大的提高了監控的效率和監控系統的準確度和聯動性。促使視頻監控系統從傳統安全向現代安防理念轉化,為大數據應用提供全面的技術支撐。那麼,我們的智能視頻檢索技術在安防領域到底有哪些應用呢?
  • 科學家發現蛇類屬級新紀錄—新聞—科學網
    2019年9月,中國科學院成都生物研究所副研究員丁利等人在雲南省江城縣爬行動物本底調查中,發現一蛇類標本與國內已知蛇類形態差別較大。科研人員綜合其形態特徵和DNA分子數據,將該號標本確認為國內蛇類閃皮蛇科新紀錄屬新紀錄種,為:擬須唇蛇屬(Parafimbrios) 寮國擬須唇蛇(Parafimbrios lao)。至此,中國蛇類閃皮蛇科增加到了2屬10種。
  • 中國新農科水產聯盟在青島成立—新聞—科學網
    中國新農科水產聯盟在青島成立
  • 法律檢索及盡職調查實用網站
    司法案例1、中國裁判文書網網址:https://wenshu.court.gov.cn/升級後的無限次在結果中檢索、智能提取裁判文書目錄和概要、裁判文書關聯查看這些功能非常好用7、OpenLaw 裁判文書檢索網址:http://openlaw.cn/三大默認的檢索模式:按分類檢索、按當事人檢索、按法院檢索。在高級檢索模式中可根據系統提供的關鍵詞、案件類型、案由、當事人、當事人原告、當事人被告等17個檢索條件進行自由交叉檢索。
  • ICAICA 2020會議論文EI檢索
    2020 IEEE人工智慧與計算機應用國際會議(ICAICA2020)論文集已於10月26日完成EI資料庫檢索,請相關作者注意查收論文檢索通知郵件,並及時到當地科技查新工作站開具檢索報告。檢索歷程6月28日:會議線上召開9月8日:論文集上線10月26日:EI資料庫檢索IAAST系列會議檢索一覽自2012
  • 新版BBC官網:媒體網站在媒介融合中的角色作用
    2007年12月25日,英國廣播公司BBCiplayer播放器正式上線,至此,BBC首次從技術層面實現了其廣播、電視、網站、移動終端等傳輸渠道的大融合。同時, BBC還根據Web2.0時代受眾需求的新變化,進行了整個公司的機構重組和新聞生產機制的改革。在這場改革中,BBC網站起到了重要的協調溝通作用。
  • Linux文本檢索命令grep筆記
    grep是在Linux系統中基於行文本非常實用檢索工具,通過該命令可以將匹配到的結果信息輸出到終端控制臺。語法格式:grep [-ivnc] '需要匹配的內容' 文件名常用參數說明:-i 檢索的時候不區分大小寫-c 檢索到的匹配行數
  • 百度網事通支持清華大學建校內網站檢索系統
    東方網4月19日消息:清華大學網站(tsinghua.edu.cn)日前全面改版後,選用了百度網事通網頁檢索系統,有效提高了網絡信息資源的利用率與獲取速度。這種檢索系統不但可以幫助訪問者以最快速度和準確度找到目標信息,還為網站提供了一條整合網站信息資源,最大化利用信息的途徑。
  • PubMed快速檢索文獻,學學這些技巧!
    對於文獻列表中顯示的PMC Full text 圖標的文章,可以直接到PMC 中去閱讀網頁版的全文,或者在網頁版全文閱讀頁面找到PDF 下載連結進行下載。另外,LinkOut-more resources這裡也可以連結到資料庫,若資料庫中的有全文連結,也可直接點擊PDF進行下載。
  • 稻米蛋白品質形成分子機制獲揭示—新聞—科學網
    該研究克隆了水稻蛋白品質形成新基因GPA5,並從細胞、遺傳和生化層面闡明了GPA5在水稻貯藏蛋白後高爾基體轉運中的關鍵作用,對稻米蛋白品質改良具有重要指導意義。 論文第一作者、農科院作科所副研究員任玉龍介紹,稻米中含有大量貯藏蛋白,它是稻米中僅次於澱粉的第二大類營養物質。谷蛋白是稻米中含量最高的貯藏蛋白,佔稻米總蛋白含量的60%以上,因此,谷蛋白是稻米蛋白品質改良的首選目標。
  • 新算法可快速選出最優子集—新聞—科學網
    發現事物間的關係是大部分科學研究的目的,這在統計學中稱之為回歸分析。其中,線性回歸模型由於其簡潔性和可解釋性,成為最有用的科學研究工具之一。最優子集算法泛指多元回歸分析中自變量選擇時旨在尋找為數不多的,根據指定準則是「最優」回歸模型的計算方法。儘管線性回歸模型被如此廣泛使用,但其中一個很基本的問題——如何在一組變量中選擇最優的子模型,尚未解決。
  • 史上最全的中外文獻檢索網站!
    >(各類網盤,外鏈網站檢索)2.讀秀:http://www.duxiu.com/ (唯一檢索到書的內容的強大引擎!)港臺文獻檢索(一)圖書1.香港公共圖書館檢索:https://webcat.hkpl.gov.hk/search/query
  • 爐石傳說:德魯伊新法術定向檢索野獸,鍊金師翻轉出24血泰拉圖斯
    爐石傳說剛剛由國服主播墨澤公布了德魯伊的新法術,繼香甜的靈力瓜後德魯伊再次獲得四費定向檢索法術。掠食本能德魯伊四費新法術掠食本能,從你的牌庫中抽一張野獸牌,將其生命值翻倍。乍看之下這張法術似乎不知所謂,但仔細考慮一下,和靈力瓜同為四費的定向檢索法術真是垃圾嗎?
  • 泰安校區舉辦圖書館電子資源檢索培訓系列講座
    近日,泰安校區圖書館2019年度面向大三本科生舉辦以班為單位的電子資源檢索培訓系列講座。該講座旨在切實幫助廣大學生讀者深入了解數字資源,樹立信息意識,遵守信息道德,掌握檢索數字資源的技巧與方法,增強信息檢索與利用技能的該系列講座。
  • 照片和視頻怎麼檢索?請使用屬性查詢
    關鍵詞檢索,是我們日常最常用到的文件檢索方式。無論是在網際網路的搜尋引擎裡,還是在多可系統裡,只要在搜索框輸入文章標題或內容中的關鍵詞,就能快速搜索到相關文件。不過顯然,關鍵詞檢索只適用於有關鍵詞的文件。
  • 評《蘇菲的世界》:於荒誕中尋求出路
    No.125評《蘇菲的世界》: 於荒誕中尋求出路文/尹璐 圖/網絡《蘇菲的世界》作為一部通俗哲理性小說,將哲理性與通俗化融於一體「鏡子」意象在表徵「自我」與「他者」、「現實」與「虛幻」關係中一直起到很重要的作用。以拉康的「鏡像理論」看來,鏡前的自我與鏡中的形象不可能完全同一,「鏡像」不過是一個虛幻的自我,一個通過想像的疊加而構建起來的虛假自我。