發力智能信息檢索與挖掘 頂尖研究團隊打造「超級助手」

2021-01-07 人民網

有了「賈維斯」,「鋼鐵俠」可以毫無後顧之憂地穿梭地面、天空,遠程指揮機甲,攻擊敵人,拯救世界……

有了「大白」,小宏臉色微紅、肢體微痛,就會得到全身健康掃描,獲得多個健康建議……

還有《流浪地球》中被賦予重任的「莫斯」……

幾乎所有超級英雄的身邊,都有一位能精確感知甚至預知主人需求的「管家」,毫釐不爽地匹配主人想要的信息資料、行動建議等資源,使主人變得更強……

「其實這樣的『管家』,每個人都有,這就是另一個『自己』。」文繼榮說。8月底,這位中國人民大學信息學院院長,剛剛榮膺北京智源人工智慧研究院「智能信息檢索與挖掘方向」首席科學家,他與來自中國科學院、清華大學、北京大學等高校和科研院所的10位科學家組成頂尖研究團隊,全力打造「善解人意、無所不能」的個人智能信息助手。

也許,在不遠的將來,科幻就將變成現實。

圖書館裡的小卡片

1990年,文繼榮考入中國人民大學,就讀經濟信息管理專業。

上大學的時候,圖書館是文繼榮最愛去的地方,也是他最憷的地方。

上世紀90年代初,計算機、網絡都處於起步階段,找書只能靠一張張小小的索引卡。

想要查資料,往往需要耗費一整天的時間。

那時候,文繼榮常常一大早就騎上自行車從學校出發,趕去國家圖書館借書前臺,埋頭尋找所借圖書的索引卡片。

卡片上,有一串長長的編號,可以指向某本書在哪個書庫,哪個書架,哪一排。找到卡片,就要開始填寫借書單,一定要寫詳細、寫準確。工作人員接過書單後,通常會告訴文繼榮「先去吃個飯」,因為他們也得進書庫「按單索驥」……

匆匆吃完飯,文繼榮再趕回國圖,才會看到想借的幾本書。然後是辦理借閱手續,或者複印其中的一些資料……等一切忙完,抱著心愛的書走出圖書館,往往已是夕陽餘暉。

「現在的年輕人都覺得不可思議。」文繼榮說著,笑了,「他們在宿舍、教室,打開筆記本電腦上網,可以隨時搜索、借閱學校圖書館裡的幾百萬冊書籍,查詢全世界幾乎所有主流的文獻資料庫。」

「索引卡,早就過時了。」年輕的學生曾經這樣說。文繼榮點點頭,又搖搖頭。

的確,在現代圖書館中很難再見到索引卡,也不會有人再翻索引卡找書。但這張3×5英寸的小卡片不該被人類忘記。

從最初用於整理動植物和礦物信息,再到後來用於圖書館系統目錄索引,這張小卡片曾經幫助人類分類所有的知識。

更重要的是,正是這張小卡片,以及後來不斷發展的分類索引、圖書館編目革命,催生出一個又一個獲取信息的創意,並最終孵化出網際網路的原型,給了我們快速獲取信息的無限可能。

文繼榮說,藉助高速網際網路、信息化技術,全世界的學術資料連接成了一個龐大的「圖書館」,「我們要做的,就是找到那張能快速抵達所需信息的『小卡片』。」

辦公室裡的「大白」

文繼榮的辦公室裡,一塊約1.5米長、1米高的白板豎在辦公桌背後。

白板上寫著一堆技術研究符號、公式,最下方畫著5個形態各異、憨態可掬的「大白」。「這是我女兒上小學時候畫的,她特別喜歡《超能陸戰隊》裡的機器人『大白』。」文繼榮凝視著「大白」,臉上有幸福,也有得意,「現在女兒都上初中了,我一直捨不得擦掉。」

也許給女兒製造一個「大白」,也是文繼榮不斷探索的動力。

無論是在中國人民大學讀本科、讀碩士,還是在中國科學院完成博士學業,抑或是作為首批研究人員加入微軟亞洲研究院,看科幻電影一直是文繼榮喜歡的休閒方式,「不僅能放鬆,好多電影情節,還能給我的研究帶來靈感。」文繼榮說。

比如《鋼鐵俠》裡的「賈維斯」,能獨立思考,幫助主人處理各種事務,計算各種信息;《超能陸戰隊》裡的「大白」是私人健康顧問,能掃描生命指數,存儲多達一萬種醫療知識,隨時為主人提供醫療幫助……

文繼榮說,這都是典型的智能化個人信息助手,這才是未來智能搜索技術應該發展的方向和目標。

博士畢業之後,文繼榮一直在朝著這個目標努力。他專注於信息檢索、數據挖掘等領域,獲得多項專利,成為搜索領域專家。他所領導的研究團隊在網際網路搜索和數據挖掘領域做出了一系列開創性工作,開發出的「微軟學術搜索」「人立方」等產品,名噪一時。

2013年,文繼榮回到母校中國人民大學任教。為支持信息學科建設,人民大學專門建立了大數據中心,文繼榮和團隊如魚得水。

目前的搜尋引擎不夠聰明

我們常用「學富五車」來形容一個人學識淵博。「其實,五車的知識也挺有限的。」文繼榮笑著說。「學富五車」這個成語誕生的時候,中國人是在竹簡上寫字,五輛大車所裝的竹簡,知識信息含量並非遙不可及,依靠網際網路和現代搜索技術,可以輕鬆擁有。

8月底,在「智能信息檢索與挖掘方向」智源學者候選人發布會上,文繼榮做了一場報告,深入淺出地講述「智能信息檢索與挖掘」。

文繼榮提到了每個人都很熟悉的搜尋引擎。他說,搜尋引擎如今已成為人們主動獲取信息的主要手段,也是迄今為止最成功的一項大規模人工智慧應用。在過去20多年裡,搜尋引擎極大地方便了我們的工作與生活。可以說,搜尋引擎提升了人類獲取信息的能力,拓展了人的記憶查找能力。同時搜索組件開源化,也已經潛入各種網際網路應用,「我們瀏覽的各種網頁,使用的各種手機APP幾乎都具有搜索功能。」文繼榮說。

「但是,現在的搜尋引擎還不夠聰明。」文繼榮說。

「不夠聰明?我覺得找信息,足夠用了!」記者說。

「那是你們要求太低了!」文繼榮笑道,「大家已經習慣搜尋引擎返回不相關的結果,然後靠自己不斷變換輸入關鍵詞、遍歷多個網頁來尋找信息。但搜尋引擎本應做得更好!」

文繼榮說,事實上搜索技術的架構和交互界面已經30年未變,搜索的核心技術已經10年沒有重大進步。因為用關鍵詞檢索的方式表達能力有限,在使用過程中,通常和搜索工具的信息交互都是採用「一問一答」的方式,無法完整描述整個信息需求,搜索系統也不會主動交互和引導,只是高度依賴用戶的表達能力,獲得的信息也是千人一面。

「超級助手」未來五年將有雛形

智能信息助手,就是文繼榮認為的「聰明的搜索」。在他看來,智能信息助手將取代搜尋引擎成為連接人與信息的新工具,用存儲、計算和智能拓展人的能力,構建具有超級記憶力、知識能力和分析能力的「超級助手」。

如果再深入一步,這個信息助手還應具備個性化特點,通過不斷的深度學習,與每一個人的行為習慣、愛好相匹配,如同配置了一個加強版的自己來當「助手」或「管家」,「這遠遠不是現在我們在市面上見到的那些數字助手所能比擬的。」文繼榮說。

文繼榮舉了個例子——如果我們想和朋友聚餐,但又不確定去吃點兒什麼。當你提出聚餐成員時,這個信息助手會自動根據聚餐成員的喜好,安排餐廳。比如都是浙江朋友,那麼在這個時節,應該更願意來一壺黃酒,嘗幾隻大閘蟹,於是「信息助手」推薦了北京很有特色的紹興菜館,還幫你訂了位,叫了車。「舒心吧,這就是個性化的智能信息助手,是我們正在研究,力求打造的目標產品。」文繼榮說,它善解人意,無所不能,就像你身邊的「賈維斯」或者「大白」。

「智能信息檢索與挖掘方向」研究,遠非僅限於高質量地服務個人。文繼榮說,它所帶來的成果價值將在全社會生產力提升、生產方式變革的方方面面得到體現。

統計數據顯示,截至2018年12月,我國網絡域名總數達3792.8萬個,網站數目523萬個,網頁數目2816億個,我國在「貨架」上可供下載的行動應用程式也已經達449萬款。這些數字實實在在地反映著社會運行、生產建設和百姓生活。如果能通過一系列人工智慧技術,整合、優化這海量的數據信息,就可以有效服務生產與生活。

例如在生活中,我們習慣了網購,也誕生了一批「選擇困難戶」。如果在網購中,系統嵌入的智能檢索信息能精準找到消費者所愛的產品,提供直達內心、令人無法拒絕的理由,網購的效率就會大幅提升。

在生產領域,智能數據檢索與挖掘有助於企業不斷優化產品,調整自己的發展方向,精準對接市場。

智能信息檢索甚至可以使新聞媒體從業者如虎添翼。比如,記者突然接到了新聞採訪任務,智能信息檢索與發掘技術可以快速、精準地提供所需要的資料背景和該新聞事件的最新進展,讓記者後續的採訪有的放矢,提供高質量的新聞產品。

作為團隊首席科學家,文繼榮直言,「交出怎樣的成果」是他最大的壓力。

智能信息助手本質上是個軟體,它的外觀形式可以是單獨成形的硬體,也可以與我們日常使用的手機等設備深度整合綁定,但功能一定是最強大的。

文繼榮告訴記者,今年起將全面迎接5G時代的到來,物物相連的速度將大大加快。「如果順利的話,未來五年,這個『超級助手』將初具雛形。」

研究團隊

「北京學派」即將登上舞臺

1998年年底,還在中國科學院計算所讀博士的文繼榮,被一家新的研究機構所吸引——新成立的微軟中國研究院。後來,文繼榮成了研究院裡的一員,一扇神奇的大門,就此打開,他第一次接觸到了「搜索」技術。

20年過去了,又一扇大門在文繼榮的面前打開——去年底科技部與北京市委市政府支持成立北京智源人工智慧研究院,「這使跨界成為可能。」文繼榮說。

如果想打造一個最懂自己的管家,這要求智能信息助手必須具備自然語言對話、高精準知識融合、場景感知、網際網路數據與個人數據高效整合等能力。需要攻克數學與認知基礎、基於自然語言的交互信息獲取、信息的深度挖掘與表達等一系列難題,「這些幾乎都是人工智慧的精髓。」文繼榮說,他需要一個超級精英團隊,跨學校,跨領域。

「智源學者」使文繼榮有機會打造最強戰隊。

今年8月底,北京智源人工智慧研究院發布「智能信息檢索與挖掘方向」智源學者候選人名單,這是該研究院啟動「智源學者」計劃以來發布的第三批重大方向支持學者,共有來自中國科學院、清華大學、北京大學、中國人民大學等單位的10位科學家名列其中。

入選的10位學者平均年齡在40歲左右,正處於學術研究的黃金時期,他們在信息檢索、數據挖掘領域都已經成就頗豐。如44歲的北京大學教授崔斌,是資料庫與數據挖掘領域的傑出學者,長江學者特聘教授;42歲的清華大學教授唐傑,從事社交網絡挖掘與知識圖譜的研究,國家傑出青年科學基金資助者。此外,來自清華大學的王建勇和劉奕群、中科院計算機所的郭嘉豐、中國人民大學的徐君等一批學者,都是相關領域全球頂級科學家。

文繼榮自豪地說,在智能信息檢索與數據挖掘領域,這個團隊的實力絕對是國內第一,放眼全球任何一個科研機構也是頂尖的,「國外最頂級的高校,能集合起三四個人就非常不易,我們一下子集合了10位。」每位科學家各自還有一支學術團隊,因此整合起來,這是一支實力驚人的學術團隊。

文繼榮很清醒,團隊必須直奔解決實際應用需求,而不是「各自為政」,發一堆論文了事。他說,團隊每個人的學術分工已經確定,未來會定期研討,及時交流進展,共同解決一系列「卡脖子」問題。團隊有一個共同的目標——期待以這支團隊為基礎,未來能形成智能信息檢索與數據挖掘領域的「北京學派」。

焦點回應

人工智慧是否會失控

不少科幻電影中,機器人甚至計算機系統越來越聰明,某一天突然「覺醒」失控,危害人類社會。我們的智能信息助手會不會突然失控帶來危險?比如瘋狂下單購物、自動支付,對身邊人發起網絡攻擊等。

文繼榮表示,大可不必擔心。人工智慧是沒有意識的,它靠人類設定的方向發展,即使自主學習,也有設置的既定方向和目標。比如自動駕駛汽車,它再聰明,也要事先設定「路口要轉彎」「遇到人或者障礙物要繞行」等指令,基於此再通過深度學習不斷優化行駛能力,而不是橫衝直撞。

未來的智能信息助手的確會非常聰明,但每一個聰明的層級,其控制權限架構都是由人在更高一個層級設定,不會也無法超越。即使系統出了故障或者漏洞,人也可以在更高層級對它進行修正,或者中止運行。不會出現科幻電影中的那種「覺醒」。

相關焦點

  • 定義「下一代智能搜索」看夸克如何修煉AI黑科技
    為了打造更萬能的搜尋引擎,夸克團隊首先在多模內容理解上,不斷結合圖像、文本、語音的能力,構建了領先業界的多模內容理解技術方案。夸克搜索技術負責人介紹,現在市面上的多模更多還是由語音、圖片最終歸結到文本檢索,但這並不是真正的多模。夸克在做的,正是通過後端檢索運用多模技術實現真正的多模搜索。
  • ...音樂數據開放項目與信息檢索:從IMSLP到字節跳動GiantMIDI-Piano
    但是音樂資源並不囿於音頻形式,在作學習或研究之用時,樂譜是和音頻同樣重要的信息資源。2020年10月,字節跳動發布信息檢索領域論文《GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music》,介紹了其團隊成果——全球最大的古典鋼琴數據集GiantMIDI-Piano。
  • 百度手機助手引領產業鏈升級 AI賦能打造「智能分發助手」
    百度手機助手引領產業鏈升級 AI賦能打造「智能分發助手」 1 月 24 日,百度手機助手中國好應用頒獎盛典在北京舉辦,百度移動分發業務部副總經理段湧彤出席並發表演講, 100 多位開發者代表匯聚一堂
  • 遠程輔導聯動智能作業助手,大力智能作業燈盡顯神通
    這是字節跳動進入教育領域的銳意嘗試,也是」大力教育「啟航成就科技教育的新起點,大眾期待已久的大力智能作業燈也與之一同亮相。據出任「大力教育」CEO的陳林介紹,大力智能作業燈可實現雙端聯動、遠程輔導、AI教學等前沿功能,是幫助萬千家庭跳出教輔困局的優勝法寶,在這個「談及作業,親子色變」的時代,大力智能作業燈會如何盡顯神通呢?
  • 搜狗輸入法PC版智能助手來了 雙擊喚起 輸入效率超級加倍
    此前,以機械狗「汪仔」為展示形象的智能助手在手機用戶群體中就已積累出色口碑,這也讓外界對於PC版本的更新抱以更多期待。此次PC新版,便通過將多種便捷互動設計與AI技術深度結合,為PC智能助手賦予了更多智慧功能與場景服務能力。其中,既有熱門功能的保留,又跳出手機端固有使用思維,為PC用戶提供了更智能、高效、便捷的表達與信息獲取體驗。
  • 構建新一代智能汽車,小度助手解鎖全新智能駕乘體驗
    在體驗方面,小度助手具備新交互、新智能、新場景和新商業四大亮點。同時,小度助手的業務賦能持續升級,打造「會呼吸、有⽣命、可進化」的車載體驗成為百度Apollo和車企夥伴們的共同目標。在能力方面,小度助手搭建了車載個⼈智能助手、全新Feed流式交互框架、全雙⼯多模融合交互、Smlta離在線語⾳模型等多種交互方式,讓用戶得以更好地表達需求;在智能上,小度助手新增TOP1問答、歸宗推薦引擎和情感引擎,為用戶提供更多智能選擇。小度助手還創造了多個車內新場景,如隨車輕體檢、圈子社交、基於LBS的直播等,完美適配車主的個人興趣和用車習慣。
  • E時代的文史研究④︱學術檢索與知識管理
    因疫情影響,近半年來高校等研究單位的師生大都避疫在家,無法正常利用圖書館資源。自2020年4月起,由北京大學、南開大學等高校青年學者發起的「文獻挖掘整理研究會」決定在線舉辦第三次文獻沙龍,以助力文史學者更好運用線上資源以推進研究。
  • 手機助手引領產業鏈證書辦理黃石升級 AI賦能打造「智能分發助手
    近來手機助手中國好應用頒獎盛典隆重舉辦,移動分發業務部經理出席並發表演講,100多位開發者代表匯聚一堂,共同見證度移動應用分發行業的成績,探尋未來發展方向。作為安卓應用分發市場的領先者,手機助手首次透露了其未來規劃——打造基於AI能力的智能化分發助手,攜手開發者邁向AI時代。
  • 掃地機器人開口說話了 人工智慧助手正向家居六大領域發力
    科沃斯產品規劃總監Eric介紹,現在引入人工智慧(AI)助手後,掃地機器人開口說話了,早上可以提醒主人不要忘記出門的時間,甚至報天氣預報,不要忘了帶傘;主人下班回到家裡,它還可以給主人播報新聞。近日,在浙江省杭州市舉行的一場「雙11」媒體溝通會上,來自國內一些領先的家電智能企業,展示了AI助手正向家居六大領域發力的最新成果。
  • 智能助手推動語音革命
    sX1ednc目前,計算機、智慧型手機和智能音箱等都採用內置語音助手,使用基於雲的深度學習系統來支持用戶提問和設定操作。人們日常使用的其他設備很快也將實現這樣的功能。根據市場研究機構Statistica的數據,預計到2021年,將有多達18億人在隨身攜帶的設備上,以及在家中甚或商業環境中其他類型的平臺上,使用語音助手(圖1)。
  • 青大附院攜手海信走向頂尖醫學科技舞臺,聯合研發的手術機器人被...
    他領銜的數字醫學團隊與海信醫療合作開發的海信計算機輔助手術系統和海信外科智能顯示系統已被引進該實驗室。 SITL實驗室作為全球最頂尖的達文西手術機器人培訓中心,承擔著國際前沿臨床手術機器人的科研創新以及外科手術人才的培訓。
  • 玖富布局AI公司「九狐智能」發力T.E科技賦能持牌機構
    人工智慧正加速各行業的融合創新,深耕技術成為當下科技企業的發力重點。九狐智能作為玖富集團旗下專注於為持牌金融機構以及實體行業提供人工智慧解決方案的科技企業,主攻智能算法、智能語音、人臉識別、知識圖譜以及智能對話機器人技術,已經在多個行業產生具體應用,並研發了新一代的「小狐」智能模擬機器人!
  • 騰訊雲與三一合作打造智慧服務中臺,敏捷智能應對重工業客服需求
    三一集團與騰訊合作,藉助騰訊雲企點客服的能力,將聯手打造工程機械行業首個智慧服務中臺,助推三一集團數位化升級。      據介紹,在此次合作中,雙方會發揮各自經驗和優勢,從最基礎的「人工接打電話」入手,進而探索裝備製造業數位化升級。      阿里中臺理念深入人心,企業對中臺建設充滿熱情。
  • 北郵石川教授:「異質信息網絡」研究現狀及未來發展
    石川,北京郵電大學計算機學院教授、博士研究生導師、智能通信軟體與多媒體北京市重點實驗室副主任。主要研究方向: 數據挖掘、機器學習、人工智慧和大數據分析。近五年來,發表高水平學術論文 40 餘篇,包括數據挖掘領域的頂級期刊和會議 IEEE TKDE、ACM TIST、KAIS、DKE、KDD、SDM、EDBT、ECML、CIKM 等。
  • 「智齒樂銷機器人」重磅上線——打造銷冠團隊的AI智能語音助手!
    導語:智齒科技全新的AI智能語音助手——智齒樂銷機器人,重磅上線!智齒科技全新的AI智能語音助手——智齒樂銷機器人,重磅上線!作為語音場景「機器+人工高度協作」的全新產品,智齒樂銷機器人將加速客服行業交互方式的升級,為電話營銷場景的應用提供更多可能。
  • 微鯨海報驚現神秘唱麥人 發力智能語音引外界猜想
    微鯨早在2015年就實現了藍牙語音遙控操控,這得益於它強大的工程師團隊,不僅能死磕前沿科技,更能專注縱深研究,自主研發能力永遠是不可動搖的核心要素,此外,微鯨特別善於開放合作,總能在第一時間找到業內頂級的合作夥伴,進行優勢互補。
  • 搜狗輸入法PC版更新:雙擊ALT,召喚你的得力智能助手
    此前,以機械狗「汪仔」為展示形象的智能助手在手機用戶群體中就已積累出色口碑,這也讓外界對於PC版本的更新抱以更多期待。此次PC新版,便通過將多種便捷互動設計與AI技術深度結合,為PC智能助手賦予了更多智慧功能與場景服務能力。其中,既有熱門功能的保留,又跳出手機端固有使用思維,為PC用戶提供了更智能、高效、便捷的表達與信息獲取體驗。
  • 微博核心傳播者挖掘與傳播規模預測研究
    一、引言作為一種基於用戶關係信息分享、傳播以及獲取的社交平臺,當前微博已成為中國最重要的公共空間,而微博的核心傳播者起著輿論引導甚至改變輿情發展方向的重要作用。微博核心傳播者的挖掘對信息的傳播與演化的深度分析、輿情監控和引導都具有重要意義。另一方面,也為提供個性化服務以及差異廣告的投遞提供便利。如何挖掘微博核心傳播者,成為我們關注的議題。
  • 騰訊小微聯手惠普推出「惠小微」語音助手,升級PC場景智能交互體驗
    活動現場,惠普與騰訊小微聯合宣布,以惠普PC產品搭載騰訊小微智能語音技術解決方案,推出全新的PC端智能語音助手,並命名為「惠小微」。這也是騰訊小微首次進入PC平臺,通過微信AI技術的智能交互能力為用戶打造更智慧的PC使用體驗。
  • 宜賓市翠屏區攜手功夫動漫,打造哪吒超級IP
    站在「兩個一百年」奮鬥目標的歷史交匯點上,宜賓市翠屏區積極響應國家彰顯文化自信的號召,提出了以文化傳承、創新為核心的翠屏哪吒超級IP打造方向。翠屏區歷史悠久,素有「萬裡長江第一城」「西南半壁古戎州」之譽,是哪吒文化的發祥地,擁有哪吒行宮、南廣鎮陳塘關、龍脊石、金光洞、還生閣等20餘處遺蹟遺存。