原創 關注前沿科技 量子位 收錄於話題#知識圖譜1#騰訊1#AI10
金磊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
雲吸貓這個詞,最近太火了!
火到有拿「雲吸貓」開始變現的,還有用「雲吸貓」來寫畢業論文的……
喵星人可以說打出了一套「可愛組合拳」,攻佔了大片網際網路江山。
最近,這種流行趨勢似乎有了升級——雲擼國家一級保護動物「雪豹」,你敢信?
這是一款由騰訊聯合WWF打造、名為「神秘雪豹在哪裡」的微信小程序。而且上線2天,便有超過10萬人在使用。
打開後便有一隻活靈活現的雪豹映入眼帘:
搖晃著小腦袋,無辜的眼神四處打量,還有那柔順的毛髮(愛了愛了,好想舔屏吸上一口)……
咳咳,言歸正傳。
通過首頁下方文字的介紹,了解到雪豹是唯一一種分布在中國的大型貓科動物(大貓),也是分布海拔最高的一種。
點擊雪豹身上的四個白色點點,還對其「頭部結構」、「毛髮」、「整體外形」以及「尾巴」等,都有了非常詳盡的了解。
看到這裡,讓人不禁有了想要更深入了解它的衝動。
在第二個模塊便對它的成長過程做詳盡的描述,包括「幼崽發育」、「亞成體」、「成年」以及「孕期生產」。
看著雪豹從小小的一隻,到長大成年,再到孕育誕生新的小生命,仿佛在短短的幾分鐘便經歷了它的「完整生命過程」。
那它的生存環境如何?是否有天敵?別急,在第三和第四個版塊中也有所介紹。
在第三個版塊「同域」中,展示了與雪豹相關的同域物種生物鏈圖譜:
點擊物種的名稱,發亮的連線兩端聯繫著食物鏈中的獵物與捕食者。
與連接線相同顏色的物種,是鏈中的捕食者;物種顏色一致,表示是同類物種。
同樣,在第四個版塊「環境」中,也對雪豹生存的環境做了相應的介紹。
不僅如此,在界面下方的「進化與科學發現」以及「研究和保護」版塊,對雪豹的起源、研究做了更深入的介紹。
短短的幾分鐘時間,通過這樣一個小程序,不僅僅是對雪豹這種生物有了非常詳盡的科普,更像是伴隨著經歷了它的「前世今生」。
而在這背後,便是來自騰訊雲小微AI知識圖譜的硬核技術。
知識圖譜的「前世今生」
在體驗過「神秘雪豹在哪裡」這款小程序之後,一個非常直觀的感受就是:
它能夠圍繞著雪豹這個主體,將與它相關的形形色色的資料,都能非常有序地關聯到一起。不僅邏輯清晰,而且還一目了然。
而這就是知識圖譜的力量。
那麼,知識圖譜的能力為什麼如此強悍?這就要從它的起源講起。
知識圖譜的概念並不是非常新,其思路可以追溯到上世紀五六十年代的「知識表示形式」——語義網絡 (Semantic Network)。
語義網絡是由相互連接的「節點」和「邊」組成:
節點表示概念或者對象。
邊表示他們之間的關係。
知識圖譜和語義網絡較為類似,但語義網絡更側重於表示概念與概念之間的關係,而知識圖譜更側重於表示實體之間的關係。
再通俗一點的去說,知識圖譜其實就是不斷挖掘、建立實體之間的關係,而且這種關係必須是客觀現實存在的。
那我們熟知的籃球選手姚明來舉個例子��。
姚明的「隊友」是易建聯;他的「妻子」是葉莉……知識圖譜便將現實世界中的「隊友」和「妻子」等關係,變成語義網絡中的「邊」,憑藉關係連接起姚明、易建聯、葉莉等代表著人物實體的「節點」。
當然,除此之外,物理世界中還存在很多隱性或複雜的關係。通過不同關係的挖掘,每一個與姚明相關的實體,都能連接更多實體,整個語義網絡便得以成倍延伸,知識圖譜也愈發豐富龐大。
總結來看,知識圖譜具有以下特點:
知識圖譜是一種特殊的圖數據:是帶標記的有向屬性圖。
知識圖譜是一種人類可識別且對機器友好的知識表示:採用了人類容易識別的字符串來標識各元素;同時,可以很容易地被計算機識別和處理。
知識圖譜自帶語義、蘊涵邏輯含義和規則:結點對應現實世界中的實體或者概念,每條邊或屬性也對應現實中的一條知識;可以根據人類定義的規則,推導出知識圖譜數據中沒有明確給出的知識。
那麼回到「神秘雪豹在哪裡」,知識圖譜是如何具體實現其功能的呢?
騰訊雲小微的「AI知識大腦」
能夠讓這款小程序展現的知識,如此一目了然、深入人心,離不開騰訊雲小微AI知識圖譜的強大能力。
但其實,這種能力在「神秘雪豹在哪裡」的展現知識冰山一角。
以今年騰訊全球數字生態大會中與真人一起同臺亮相的「AI助手」那笙為例,便可對其更加了解。
通過視頻可以看到,AI助手即便面對「可令怕」這般新型流行詞,都能夠迅速「猜到」是killing part。
而後再以「夏令營活動」為「中心」,順著中代表著「可令怕」關係的「邊」,找到「回歸大自然」、「享受冒險與挑戰」、「露營看星星」等「節點」。
就像是賦予了AI助手真正的知識大腦一般。
在這個過程中,體現了騰訊雲小微AI知識圖譜的三方面能力。
首先,是知識抽取。
知識抽取,是指從半結構/非結構化的文件中,通過自然語言理解(NLP)的技術,能夠抽取出:
這段話裡所描述的實體是什麼?實體的關係是什麼?實體的屬性是什麼?
最後,將抽取出的知識要素,以SPO三元組的形式展現出來。
(註:SPO三元組,即主語-謂語-賓語三元組,是用來表示事物的一種方法和形式。)
騰訊雲小微知識圖譜平臺,支持從豐富的行業數據中抽取出行業信息,助力行業夥伴構建行業專屬的知識圖譜。
其次,是知識融合。
經歷上一個「知識抽取」過程後,實體、關係以及各類屬性信息就像是一些雜亂無章的拼圖;此外,由於知識的質量不一、來源不同,會存在一些幹擾拼圖。
在實際應用中,來自各行各業的數據、知識,更是存在這樣的問題。
知識融合的作用,就是將這些良莠不齊的知識,分類規整好——將來自不同知識庫的同一實體融合在一起。
為了打破各行業間的知識孤島,騰訊雲小微以自有的海量通用知識為中心,通過實體連結、屬性融合等多種「知識融合」技術,連接各行業的知識圖譜。
最後,是關聯多源異構的行業數據。
在經過上述的兩個步驟之後,要想實現形成更靈活的知識大腦,還需要經歷一個關聯的過程。
這全靠騰訊雲小微將多源異構的行業數據,諸如不同行業的文件、表格、音頻、視頻,全連結到「知識圖譜」中,從而賦予AI助手更豐富的能力,例如深度問答、主動推薦等。
此外,大規模知識庫的構建與應用,還少不了「知識更新」等技術的支持。
……
這便是騰訊雲小微AI知識圖譜體現的強悍技術硬實力。
而通過這樣的技術,讓「神秘雪豹在哪裡」和「那笙」在科普和AI助手上應用,也不難看出知識圖譜所擁有的潛在且廣泛的應用價值。
AI知識圖譜的價值與未來
進入網際網路時代以來,人類世界所產生的數據量呈現爆炸式增長。
如何將海量、異構、動態的大數據,加以表達、組織、管理、利用,是一個急需且必須解決的問題。
知識圖譜,便是一種非常有效的方式,可以讓網絡的智能化水平更高,更加接近於人類的認知思維。
因此,它的應用前景十分的廣泛。
例如在智能搜索中,搜尋引擎在面對用戶輸入的查詢時,不僅僅是查找關鍵詞這麼簡單,而是對查詢內容做一個語義理解。
而後進行歸一化、知識庫匹配等一系列操作後,再將結果返回給用戶。
在此基礎上,更加深入的應用就是語音助手,像蘋果Siri、谷歌Assistant等,能夠以準確簡潔的自然語言為用戶提供問題的解答。
在社交網絡平臺也是如此,例如Facebook在2013年推出的Graph Search,可以通過知識圖譜,將人、地點、事件等聯繫在一起,並在海量的社交網絡中,尋找和自己有相關性其他事物。
由此再展開,推薦系統也是知識圖譜的應用之一。我們在網購、刷短視頻等時,經常遇到的「你可能感興趣的產品」、「你可能認識的人」,都離不開知識圖譜的應用。
更垂直於行業來講,知識圖譜應用於金融、醫療、教育等領域,也可以帶來更好的領域知識、更低金融風險等益處。
科技除了要硬核,更應該「向善」
其實,在開頭介紹「神秘雪豹在哪裡」時,故意留下了一個伏筆,就是小程序頂部的第四個版塊——環境。
在這個界面的文字介紹中可以了解到,雪豹所生存的家園,正式支撐著我們每個人日常生活的大江大河的源頭。
例如長江、黃河,華夏文明的母親河;湄公河,東南亞的母親河;雅魯藏布江,中國西藏和印度東部的母親河……
因此,雪豹作為我國一級稀有保護動物,我們去守護的它們的同時,也是在守護著我們自己的家園、生態。
利用AI知識圖譜,騰訊取代了傳統的科普方式,把枯燥、零散的知識以專業的數據結構連接起來,讓我們更直觀生動的了解各類知識。這是騰訊科技公益互助計劃在生態領域公益保護的全新探索。
此外,小程序還提供了體驗四川臥龍國家級自然保護區的雪豹「巡護員」工作的功能,可以讓我們為保護稀有動物、保護自然生態獻一份力。
而這背後,便是騰訊「科技向善」的價值觀。
目前,騰訊雲小微AI團隊已經通過與行業專家合作(如中科院昆明植物所)、公司內數據資源整合、線上資源積累等多種方式,建設了數十個通用領域知識圖譜,包含億級實體及十億級關係。
相信在不就的未來,騰訊雲小微可以讓公益變得更加生動、有趣,也可以讓吸引更多人參與其中。
最後,要問科技的魅力到底是什麼?
或許答案正如騰訊所體現的——造福社會、造福人類。
你說呢?
參考連結:
https://zhuanlan.zhihu.com/p/71128505
— 完 —
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
量子位 QbitAI · 頭條號籤約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
原標題:《AI知識圖譜,讓我擼到了一隻「天山上的雪豹」》
閱讀原文