知乎:源自社區又服務於社區的 AI 技術

2021-01-09 機器之心Pro

機器之心原創

作者:邱陸陸

「知乎希望利用 AI 技術打造一個智能社區。」

每次知乎的技術負責人公開談及人工智慧技術,「智能社區」都是一個繞不開的詞彙。然而「智能社區」也是一個相對陌生的概念:如今研究者與工程師們明確了深度神經網絡在語音、圖像和自然語言數據上的作用,並將它們進行逐一的細化和延展成了種種「智能應用」。然而「智能社區」是什麼?

「每個人來到知乎,都能快速看到他感興趣的人和內容,他的疑問可以被極速送達到有意願和能力回答的人,他也會快速遇到讓他拍案的好問題,分享只有他最懂的信息,收穫最令他滿足和愉悅的認同,與他希望遇到的人產生有價值的交流、討論,甚至爭執。這一切會是這個時代的思考和總結。我們會以從未有過的效率,創造思維的連接。讓每個個體的思考和經驗,被分享,被篩選,被總結,被轉化成為這個時代的知識。知識的生產方式和迭代效率會因為這樣的連接發生質的改變。」這是知乎合伙人、高級副總裁李大海對智能社區的定義。

然而為什麼選擇 AI 技術實現這一目標?AI 技術為社區帶來了哪些變化?五月,機器之心來到知乎,希望找到這些問題的答案。

不是「哪裡有 AI」而是「處處皆 AI」

知乎誕生的初心是認為「在信息爆炸的網際網路海洋中,有價值的信息仍然是稀缺的」。而其中最有價值的部分,是那些深藏在某些特定用戶的腦海中的知識、經驗與見解。平臺需要對這些內容進行大量的挖掘與沉澱工作,才能讓它們被真正需要的用戶利用起來。完成這樣的工作需要龐大的用戶基數——這一點知乎已經通過成為最大的中文知識分享平臺做到了。而規模也帶來了問題多樣性的指數級增長,讓原有的產品機制開始「失效」,對排序、推薦算法都提出了更高的需求,這就是 AI 技術引入的必要性。

這個過程與深度學習本身的興起邏輯是一致的:當數據的數量超出一定範圍,人類就很難從大量數據中找到規律,需要在自己設置設計模型結構的基礎上,引入可訓練的模型,讓機器幫助研究者完成參數的選擇。而當數據的維度也超過一定範圍時,進行特徵提取變成了需要消耗大量人力物力進行試驗的工作,因此研究者進一步引入可訓練的特徵提取器。

「AI 技術的引入讓每一個人持有的信息都能高效地被發掘、得到交流、並且通過大家評價的過程進行過濾。換言之,整個知識生產的方式、節奏和效率都得到了質的變化,知識的生產與消費、社區的建立與管理,都變成了一個不一樣的過程。」李大海總結道。

在這樣的一個智能社區裡,對 AI 技術的應用情況是十分驚人的。當我們試圖從業務邏輯對知乎對 AI 的應用進行梳理,會發現從內容生產、消費到用戶連接與社區管理,每一個過程都涉及不同的機器學習問題,放眼望去,與其說「哪裡有 AI」,不如說「處處皆 AI」。

內容生產部分,可以分為問題提出與問題路由。問題提出是一個從用戶的查詢中識別出意圖,發現知乎現在還無法滿足的意圖,引導用戶進行提問,並根據用戶的意圖生成合理的問題的過程,得到提問和描述後,後臺的卷積神經網絡模型會從知乎超過二十五萬個話題中選擇出最匹配的話題,進行話題的推薦和綁定。問題路由則是如何分發問題以讓合適的用戶看到問題、激發他們的創作欲望。這就是一個典型的機器學習排序(learning to rank)問題。先在眾多用戶中通過召回定位合適的範圍,然後通過 pointwise/pairwise/listwise 等排序方法,找出最有可能接受邀請以及最有可能產生優質回答的用戶,進行推薦,或讓用戶選擇委託系統進行邀請。

內容的分發和消費部分,按照情景可以分為首頁信息流、搜索和相關推薦等。在信息流部分,李大海特別強調,「知乎的信息流設計與其他平臺有所不同的地方在於,知乎希望用戶來探索更大的世界而不是進入信息繭房,因此我們特別注重在信息流裡拓展用戶的興趣邊界。」除此之外,搜索是典型的文本與問題之間相關性回歸問題,而相關推薦則既可以基於用戶進行,也可以基於問答文本進行,可以用協同過濾(Collaborative Filtering)的方法進行,也可以用深度表示的方法進行。

連接和治理則是社區特有的需求,知乎在連接方向的追求是「讓人發現更多有趣的靈魂」,本質上是理解用戶價值觀、興趣,然後進行推薦的過程。而治理則是甄別不同類別的低質行為(如答非所問、軟文)和不友善行為(陰陽怪氣、貼標籤),以針對不同情況進行不同處理,降低對討論氛圍的影響。

而除了業務邏輯主線的各個部分外,AI 技術也幫助進行了眾多的細節優化,比如如何對不同呈現形式的信息流進行針對性渲染:如何挑選封面圖、挑選後如何進行

裁剪操作,以在首頁的卡片中呈現更多信息量,幫助用戶判斷是否要進行消費。

「知乎從 16 年起進行開始引入機器學習相關算法,最開始從經典機器學習方法開始(例如梯度提升決策樹(GBDT)),再逐步替換成深度神經網絡(DNN)的新方法。」李大海也提到了在業界的深度學習方法迭代之迅速,「一、兩年前,帶注意力機制的雙向 LSTM 模型還是一個『新方法』,如今已經是一個『經典方法』了。」

內容消費裡的 AI 技術:從首頁信息流說起

當你打開知乎,你看到的是什麼?

知乎的「推薦」信息流是首頁裡十分重要的一欄。用戶在這裡可以看到符合自己興趣的內容,當下的一些熱點討論,也有知乎幫助你拓展興趣邊界的探索。然而知乎上僅問題與回答就超過 1 億條,其中還有類目繁多的 live、電子書等付費內容。這道擁有超過一億個選項的多選題,沒有任何一個排序算法能獨立給出令人滿意的答案。因此龐大的內容體系決定了,只有分層級的排序系統才能勝任這個任務。

知乎的首頁負責人張瑞用一張架構圖為機器之心詳細地描述了這個名為「水晶球」的推薦系統的組成。

首頁上出現的內容經歷過兩次排序。第一次是從數十個推薦隊列裡被「召回」,第二次是在合併後經過深層神經網絡(DNN)的「排序」。

「召回」的第一個步驟是,召回模塊根據用戶的歷史行為表現(用戶畫像),確定數十個推薦隊列,或者說數十個「召回源」的召回比例和召回數量。

推薦隊列是一個個含有特定標籤的內容合集。有些隊列裡內容性質相似,比如熱點新聞隊列、視頻隊列。還有的隊列與用戶行為緊密相關,比如關注的人隊列、搜索關鍵詞隊列。

「召回」過程的第二個步驟是各召回源根據用戶的需求分別將自己的隊列中的內容做排序後,按召回數量返回內容。

整個「召回」過程都是以用戶為中心的、高度個性化的:

比如一個初來乍到的新用戶還沒有「關注的人」,召回模塊就不會從關注的人隊列拉取內容,而是轉向興趣探測隊列,幫助算法更好地了解用戶。

再比如今天的視頻類內容非常豐富,但是根據用戶畫像,這位用戶極少消費視頻內容,那麼召回模塊仍然只會從視頻隊列請求三條內容,視頻隊列也只推薦三條最符合用戶需求的內容。

而不同的推薦隊列長度從幾千到數十萬各有不同、召回過程中採用的排序方法也各有不同。有的召回源會對用戶和內容都做嵌入式表示 (embedding),進而通過內積的方式確定召回的對象;還有的召回源,比如關鍵詞隊列,會採用倒排索引的方式,用自然語言處理的方式把內容打上標籤,然後針對用戶的關鍵詞需求,組建倒排索引,進行召回。

「召回」過程會選出數百條候選內容進入「排序」過程,最後,DNN 可以在一百毫秒內對這數百條完成打分和排序過程,決定推送給用戶的內容。

「我們把系統命名為『水晶球』,是希望能夠通過這個系統得以一窺用戶想要看到什麼內容,然後推薦給他。」

排序算法進化史:從 edgerank 到深度神經網絡

張瑞也為我們講述了首頁信息流的「算法進化史」。

「首頁一開始是基於 edgerank 算法進行簡單的算法排序,後來逐漸引入了以 GBDT 為主的機器學習排序技術,現在這個階段會把深度神經網絡技術(DNN)應用在召回和排序的各個階段,現在的大部分推薦結果都是通過神經網絡推薦的。」

現在的 DNN 模型本質上是一個用於預測的回歸模型,預測的對象是用戶是否對一條內容感興趣。回歸的目標是一個與興趣相關的用戶行為的綜合打分:用戶是否有點擊、是否進行閱讀、閱讀了多長時間、是否收藏、是否有正面或負面的評論等等。

預測所使用的特徵主要可以分為三類:用戶相關、內容相關以及上下文相關。用戶相關的特徵包括用戶畫像、用戶一段時間內的閱讀歷史等等,內容相關的特徵包括內容的標籤、贊數、歷史點擊率等,上下文特徵則是可能影響用戶行為的時間空間特徵。例如用戶在早上可能會偏好閱讀與成長相關的內容,晚上則更多閱讀泛興趣類內容。

預測模型主體是一個多路徑網絡結構:一個四層的神經網絡把用戶特徵都表達為一個 256 個浮點數輸出單元的向量,另一個神經網絡把內容特徵提取為另一個 256 維的向量,兩個向量與代表上下文的向量一起,經過一個兩層的全連接神經網絡,輸出最後的預測結果,即用戶感興趣的程度。

DNN 排序模型的前身是 GBDT 模型。「GBDT 模型的缺點來自它能接受的數據規模。」張瑞介紹道,「我們曾經做過實驗,分別用 2000 萬和 2 億條數據訓練同樣的 GBDT 模型,得到的模型效果沒有太大區別,換言之,數千萬的數據量,已經達到了 GBDT 的容量極限。而這正是深度學習模型的優勢所在:更大規模的數據、更多的特徵會進一步增加深度學習模型的效力。如今在線上對排序階段的內容進行打分的就是我們使用數億條樣本訓練的一個 DNN 模型。」

張瑞也展示了兩張 DNN 模型的引入在用戶數據上得到的體現:

「在半年的時間裡,用戶在線時長取得了 50% 的增長。用戶人均在線時長是每個用戶每天使用信息流的平均時間長度,是一個代表了用戶興趣的良好指標,1 月開始的第一波增長來自於召回逐漸開始使用 DNN 技術,3 月開始的增長主要對應排序開始使用 DNN 模型的過程。」

他還格外興奮地講述了點擊率「下降」背後的故事:

「我們發現,完全基於用戶反饋進行推薦後,用戶的表現會表現出趨同性——大家都去看熱門的、吸引眼球的內容。我們覺得這雖然增加了點擊率,但給用戶帶來的整體體驗是不好的。所以我們通過產品策略等手段對這部分內容進行了比例上的調整,控制吸引眼球但是對用戶成長作用不大的內容的比例,提高知識型內容的推送比例。」

這樣的產品策略變動必然引起了點擊率的下降,「但是在線時長仍然在穩定的增長,說明用戶對我們的改進是認可的。我們希望大家不只是刷知乎的時候很開心,之後也能獲得成長。新聞是有時效性的,但知識是不會隨著時間貶值的。我們希望算法能夠挖掘到長效的優質內容,把這部分內容傳遞給用戶。」

知乎的獨一無二:以社區為基礎的 AI

作為一個獨一無二的社區,知乎在利用 AI 技術方面有著明確的優勢:

「知乎的特長在於我們擁有非常多附帶用戶行為的語料。我們很少去進行人工數據標註,而是更多地利用語料與行為數據之間天然的相關關係。」李大海說。

在擁有大量評論的基礎上,還有大量用戶對評論的反饋:哪些用戶點了贊成、哪些用戶點了反對,又有哪些用戶進行了舉報,進行每一種操作的用戶都是什麼樣的用戶;在擁有大量問題及描述的基礎上,還有非常多邀請數據:邀請了哪些用戶,他們是否接受了邀請,是否產生了優質回答。

這些數據都可以轉化為大量的高質量標註數據。尤其是對於自然語言領域這類主觀性更強、不容易獲得「標準答案」的問題而言,用戶反饋是最高質量的標籤。

知乎的另一個特長在於明確的落地場景和非常願意表達的用戶群體。

張瑞也談及了知乎的「推薦算法成長」與「用戶成長」之間密不可分的關係。

「我們用成熟穩定的內容幫助新用戶完成興趣探測,也向成熟穩定的用戶群體投放新內容判定內容的質量。」張瑞說。

一個用戶畫像尚不完備、亟需補充的新用戶會收到許多來自「興趣探測」隊列的內容,這部分隊列的內容相對穩定,能夠保證產品體驗,用戶在這部分內容上進行的點讚、收藏等行為都能夠幫助算法更好地了解用戶。

而另一方面,知乎的算法初步判定可能為「優質」的新內容則會被隨機分發給在相關話題下表達出強烈興趣的老用戶,由他們給出反饋來判斷一條內容是否真的優質,是否值得進行更大範圍的分發。

知乎明確的場景意味著算法與用戶可以有針對性地快速迭代、優化,形成閉環,而願意明確表達的用戶則在閉環中提供最重要的一環:及時的反饋。

現在,知乎也在致力於將自己的優勢以數據集與數據競賽的形式開放向學術界與業界。

今年,知乎和中國信息檢索學術會議(CCIR)、清華大學計算機系信息檢索課題組(THUIR)一起舉辦了「移動環境下知識分享平臺上的內容推薦」比賽。拿出了來自超過七百萬名用戶的兩千四百餘萬條知乎移動端信息流推薦數據,讓選手從一個約六萬條的內容候選集合中產生推薦給用戶的內容列表。

「我們希望以這種形式回饋學術界一些真實的問題和一些真實的數據,讓他們能夠做一些更有意思的研究。」李大海提到,「有非常多的實驗室找到知乎,說『你們的數據太好了,我們能不能和你們合作。』如果大家都有這種需求,我們不如以數據集和數據競賽的形式把資源開放給大家。」

除了學術界以外,業界的交流以及人才的引入也是知乎格外看重的方面,「知乎一直在紮實地做事情,我們也希望業界能夠知道,也希望有更多機會和同行進行交流。另外也希望能夠在這個過程中發現人才。以智能社區為目標的話,我們的人才需求仍然在日益擴大,仍然需要非常多新鮮血液加入進來。」

相關焦點

  • 知乎十年,內容社區的鏡與燈
    直到2011年初,知乎出現在我們面前。在這之前,網際網路即使做內容產品也帶有很重的功能屬性,大家著眼點在技術,而非用戶,但隨著社交媒體平臺的初步誕生,網際網路作為媒體和傳播的整體調性,開始轉向「人」本身。也就是說,關注個體發聲、分享和互動,成為這個時代網際網路內容產品的底色,而從業者也開始更加關注作為主體的「人」。
  • 知乎CTO李大海:謝邀,來分享下內容社區的AI架構搭建與應用
    知乎 CTO 來分享下內容社區的 AI 架構搭建與應用。「在信息爆炸的網際網路海洋中,有價值的信息仍然是稀缺的」。知乎的誕生源於這樣一個非常簡單的初心。而在挖掘真正有價值的信息過程中,知乎很好地利用了 AI 技術。
  • 社區迷途:小紅書、虎撲、知乎們左右為難
    文 | Tech星球 李曉蕾如何破解商業化難題,是內容社區的集體困境。以小紅書、虎撲、知乎為代表的內容社區,在維持社區生態、氛圍和商業變現之間,往往會陷入兩難境地。作為平臺,小紅書的策略是建立消費者(內容生產者)、品牌方、MCN機構及自身電商業務的服務閉環,而實際上,電商業務的到來使小紅書背上了更多罵名。完全自營的小紅書難以提供足夠完備的電商服務體系,供應鏈體系不完備導致的假貨問題,物流體系未建立導致的發貨、配送慢,包括售後體驗差成為小紅書的電商「槽點」。小紅書必須揚長避短。
  • 社區迷途:左右為難的小紅書、虎撲、知乎們
    如何破解商業化難題,是內容社區的集體困境。以小紅書、虎撲、知乎為代表的內容社區,在維持社區生態、氛圍和商業變現之間,往往會陷入兩難境地。11 月 28 日,在小紅書創作者開放日上,除將此前的品牌合作平臺、好物推薦平臺升級迭代外,小紅書還宣布將推出服務小紅書達人的創作者中心及互動直播平臺。互動直播平臺的到來意味著,小紅書真正挺進電商直播領域,瓜分這一領域的紅利。過去,小紅書始終面臨一個尷尬局面,作為生活方式分享社區,小紅書具有極強的「種草」屬性,女性用戶的聚合則使得它成為美妝、時尚的內容集結地。
  • 知乎產品分析:問答社區的領頭羊,知識付費的初入者
    「問答社區+知識付費」知乎如何利用問答社區的巨大流量服務知識付費業務?作為知識付費的初入者,知乎該如何提供用戶轉化及留存?與得到、千聊、喜馬拉雅等平臺,知乎的知識付費有何不同,該如何走出獨具知乎特色的知識付費路線?
  • @知乎,精英社區走下神壇是一種什麼體驗
    曾經的高端社區知乎就漸漸脫去了「精英」這個核心標籤,慢慢走下神壇,成為了一款知名度逐漸擴散的娛樂化app。而且令人擔憂的是,在深度內容領域已經好幾年都沒有新的明星產品出現了,我們不禁有些擔心,下一個精英社區在哪裡?或者悲觀一點說,精英社區還會出現嗎?想要搞清楚這個問題,翻一翻歷史是很有必要的。
  • 三類社區的運營對比:虎撲vs小紅書vs知乎
    2.1.1 虎撲的定位嚴格來說,虎撲是一個為體育愛好者提供專業的新聞資訊、賽事直播、論壇、電商等服務的體育平臺,這裡我們主要討論虎撲的論壇這段時間,是知乎高速擴展的幾年,知乎開始走「下沉」路線,一方面擴大回答者的多樣性,一方面降低普通用戶的使用門檻。所有內容社區在發展的時候,必然逃不了對原有的社區氛圍的衝擊,知乎也不例外。但得力於1.0時期的積累和知乎的運營策略,知乎裡「專業、認真、公平」的社區精神並沒有太過淡化,「逼乎」一詞足以見得知乎的社區文化氛圍。
  • 與百度知道同是問答起家,為何是知乎做成了知識社區這事兒
    而創立知乎的想法,則是在雜誌社時就已經埋下的。周源在做記者時,機緣巧合進入了一個線上俱樂部apple4us.com——一個圍繞蘋果新產品、技術、設計以及一切和年輕人有關的一個輕博客。周源驚訝的發現:apple4us裡產生的文章比他這個專業記者寫的還要好,而且這些文章的作者都是一些非專業作家。
  • 知乎圈子:精英社區的降維和自我救贖
    二、知乎圈子的布局為什麼在10年代末端20年代初的時間節點推出圈子?知乎圈子是平臺的產物,還是用戶的需求?可以從以下關鍵點來分析:1. 年輕態圈層的產物早期貼上「高知經營社區」社區標籤的知乎在運營幾年後,為了吸引流量和活躍用戶,犧牲內容的專業度換取來了用戶。
  • 知乎「瓦力」挑戰AI技術世界難題
    這些話不違反法律,但當因為文化背景、生活經歷的不同導致的看法不同,通過破壞性的方式表達時,損害了網絡社區文明秩序,降低公共討論的質量和體驗。如今,網際網路企業也已經行動了起來,比如知乎就通過AI技術嘗試處理陰陽怪氣的言論,以創新思路引導文明新風。
  • 實地集團發布首個OTA智能社區 社區大腦成就無感服務
    實地集團在北京發布了首個OTA智能社區人居領域進入OTA時代實現三大升級OTA即OvertheAir,意為空中無線升級,是一種雲端下載技術。這項技術最早在2000年應用於手機,2007年蘋果發布iPhone,將手機從功能機時代推向智能機時代,並大規模使用了OTA技術。
  • 知乎「瓦力」挑戰AI技術世界難題 啟迪內容平臺價值觀
    這些話不違反法律,但當因為文化背景、生活經歷的不同導致的看法不同,通過破壞性的方式表達時,損害了網絡社區文明秩序,降低公共討論的質量和體驗。如今,網際網路企業也已經行動了起來,比如知乎就通過AI技術嘗試處理陰陽怪氣的言論,以創新思路引導文明新風。
  • 庫倫社區服務中心組織人大代表走進社區開展調研
    11月18日,庫倫社區服務中心組織轄區旗人大代表對社區服務管理工作進行走訪調研。調研組一行深入福緣寺社區,採取實地查看、聽取匯報、翻閱資料、與居民交流等多種方式,詳細了解社區各項工作進展情況、存在問題及下一步工作計劃。
  • 房地產+AI智慧社區,怎麼看?
    在智慧社區建設方面,結合RobotZero推出的房地產AI智慧社區解決方案進行了經驗交流。RobotZero房地產AI智慧社區解決方案由智慧物聯雲平臺、建築智能化集成系統、建築公共安全系統、建築能耗分析管理系統、物業運維管理系統、O2O應用接入管理系統、AI人機互動及服務機器人系統等組成,能夠滿足房地產企業智能化升級需求,廣泛適用於房地產企業投資開發和運營的智慧城市、智慧社區、智能產業園區、智慧酒店。
  • ...社區服務平臺「小丫社區」獲奇虎360青睞,已完成千萬級天使輪...
    據了解,中國城鎮住宅擁有量約為4億套,其中70%的小區樓宇可視對講不能正常使用或已經無法使用,這一部分市場的改造存在巨大的市場商機,小丫衛士網際網路門禁可視對講用網際網路技術對傳統物業門禁改造,企業自身短期內可以實現企業的快速盈利,在王瑞看來這或許是小丫社區被奇虎360相中的最大的原因。小丫社區能做什麼?
  • 世茂服務助力提升用戶體驗 構建社區服務新生態
    世茂多元服務體系  世茂服務整合世茂優勢資源,與行業頭部企業合作,組建專業團隊獨立運營,孵化了一系列自主品牌,包括能夠為世茂業主和用戶提供從新房到交付、入住以後全維度的不動產增值服務的不動產服務品牌——「UHOUSE優家+」和「世茂美凱龍」;以人文美學為中心的社區生活空間,新生活服務平臺——「世集」;全齡化社區教育品牌——「茂YUE島」;以及面向不同人群的社區健康服務
  • 知乎完成D輪融資,社區做大的下一步必然是做平臺?
    知乎完成D輪融資,社區做大的下一步必然是做平臺? iwangshang / 朱玥怡 / 2017-01-12 摘要:過去一年動作不斷的知乎,終於在新年伊始搞了個大新聞。
  • 世茂服務打造深藍服務系統,成就幸福和諧社區生活
    在消費升級大趨勢下,人們對品質生活有了更高追求,圍繞全生活品質、全生命周期提供物業服務成為增強服務內容吸引力的重要一環。在此背景下,物業管理企業擁抱變化,從搭建管理和服務模式入手,提升服務效率和品質,打造出健康、安心、活力的宜居社區。
  • 社區產品的兩個思考方向、十點特徵
    ,也關注知乎、小紅書、甚至一對淘寶、京東在社交方面的舉動保持高度關注。人們不寫博客了,會在微博上寫內容,微信火了之後,會在微信上寫文章,寫朋友圈,特定的需求會在一些社區裡面做記錄,比如回答問題方式記錄的知乎、圖片方式記錄的LOFTER,這兩種形式會聚集不同類似的用戶。
  • 這些個人、志願服務組織、項目及社區上榜!
    經自下而上、層層評選推薦、主辦部門審核,現公布全市「最美志願者、最佳志願服務組織、最佳志願服務項目、最美志願服務社區」先進典型名單。陳文迪 濰坊濱海經濟技術開發區志願者協會 張慧良 壽光市正大公益服務中心 王宗平 濰坊濱海經濟開發區志願者協會 袁建青 濰坊市濱海開發區央子街道濱城綠洲社區服務中心 王夢宇 濰坊市濱海開發區央子街道濱城綠洲社區服務中心