導語
當你打開某個視頻App時可能會出現幾個場景,比如,你可能會根據標籤/分類瀏覽是否有自己感興趣的內容,在此同時也會根據你以往的瀏覽習慣推薦給你感興趣的內容,又或者直接在搜索欄中輸入腦海中的關鍵詞查找……別看這些都是很常見的小動作,背後卻有很多人為之努力著,其中用到的一項重要的技術就是自然語言處理(NLP)。
NLP能有效實現自然語言通信計算機系統,仿佛學會了「讀心術」,理解人類的語言邏輯,能使海量視頻個性化推薦給用戶,又或者快速理解和精準的匹配用戶輸入的關鍵字並快速湧現出來,努力為用戶創造便捷和提供更加精細化的體驗。
淺談NLP:讓機器讀懂人類語言成為使命
到底什麼是NLP呢?
它是非常複雜的因為它涉及到人類的認知層面,比如知識、語言、思考、行為等,NLP會和文本、語音、圖像、視頻等多模態的信息融合學習,其實最難的核心問題有兩個:就是語義的歧義和語法的變化,因為人類的語言每天都在發生變化,新詞總在源源不斷的產生,人類也會因為個體的語音習慣不同產生差異,無法精準統一,而計算機語言是精確的、可枚舉的、無歧義的。所以人的語言與計算機語言是不可完全調和的。
當我們遇到不認識的字時,比如「丼」,就會去搜索欄輸入類似「井字裡面加一點讀什麼?」這樣的問題。如果計算機僅根據字面加以解讀,那可能就會顯示含有「井」或者「點」的內容,如「井點降水」「井點系統」。
但是我們真正目的是讓計算機幫我們找到「丼」這個字。為了避免這樣的誤解,就需要計算機在字面理解的基礎上,更深一層的明白搜索者的想法和意圖,也就是NLP團隊所研究的內容和方向。
現如今NLP的應用領域十分廣泛,包括語音識別 、內容理解、信息檢索、信息抽取、問答系統、機器翻譯、對話系統等,幾乎只要涉及到文本的領域都有NLP的身影。
愛奇藝NLP團隊幾乎都會涉及到這些技術,目前團隊自主研發了詞法分析(分詞、詞性分析、實體識別、詞權重計算等)、內容標籤、機器翻譯、輿情分析等系統,給公司各個業務線提供NLP基礎服務。目前已有80個以上的業務線對接了NLP的服務。另一方面,由於NLP團隊誕生於搜索團隊,他們利用NLP技術不斷提升愛奇藝App搜索結果的精準度,優化搜索的使用體驗。
目前,愛奇藝在NLP技術領域尤其是在分詞、實體識別、內容標籤等算法方面,短視頻標題上的評測效果都優於學術界和工業界,NLP技術團隊因其注重細節、精益求精的工作精神被稱為楷模團隊。
匠心源於追求極致,奮戰90個日夜只為「奇搜」
早期愛奇藝還沒有一個完整的搜索團隊,「當時是搜索、推薦等多個業務整合在一起成立了一個數據組。那時候,搜索用的還是Lucene,(Lucene是早期使用的一種搜尋引擎開源工具),對於處於起步階段的業務,可以快速實現搜索功能。
但是隨著公司業務的發展,索引量和搜索量快速的增長,這時候使用開源工具局限性就很明顯了,服務的性能、穩定性、可擴展性等都比較差,所以必須要重新開發一套新的搜索系統,來滿足公司業務的發展需求。
於是搜索團隊僅有的4個人天天擠在一個小會議室裡一起,不分白天黑夜的連續奮戰了90天封閉開發,他們獨立開發了一套愛奇藝的搜索系統「奇搜」終於上線,就這樣他們的「奇搜」從無到有,為現今的愛奇藝搜索系統造就了穩健的根基,搜索量也從當時的百萬量級,發展到現今日均搜索量數億的搜尋引擎。
於此同時,NLP的基礎模塊也在這個時候從無到有逐步的被開發出來。第一個模塊是中文分詞系統,因為分詞系統是搜尋引擎的基礎性模塊,對於搜尋引擎的效果發揮著重要的影響。
通過不斷的進行效果和功能完善,到現在已經發展成為了一個包含分詞、詞性標註、實體識別、實體連結、詞權重計算等功能的詞法分析系統,在較好地滿足了搜索系統的同時,也進行了技術輸出,目前已經給公司超過40個業務線提供了服務,日接口調用量高峰超過了10億,在公開數據集上的評測效果優於結巴分詞、ICTCLAS、哈工大LTP分詞等第三方開源工具。
做思想和行為的踐行者,不斷突破技術難關
近年來短視頻目前已經成為了一種主流的媒介形態,為了提升短視頻的分發效率,NLP團隊開始負責短視頻的「內容標籤」,內容標籤作為短視頻內容理解的重要手段,其中內容標籤需根據不同的短視頻內容生成關鍵詞或短語,用來表徵短視頻的內容,其操作難度很大。「內容標籤」的主要應用在個性化推薦、搜索、長短視頻關聯等等。
「內容標籤我們一直在持續優化,如何將業務模型抽象出來匹配到一個合適的算法模型,是我們面對的第一個問題。」NLP團隊同事回憶道「在整個技術優化和迭代的過程中,愛奇藝NLP團隊從文本模型——文本+封面圖模型——文本+封面圖+視頻理解模型這三個階段不斷提升和迭代,從單一形態的文本模型到多模態的融合方式,首先他們會根據實際應用的需要,使用一種較為適用的模型來解決現有問題。
但在嘗試某個模型的過程中,可能會遇到的一些新的難點。他們會就再次出擊去突破現有模型的問題。通過不斷的進行技術迭代,內容標籤的效果得到了明顯的提升,目前已經有20個以上的業務使用了NLP內容標籤服務。「我們會繼續持續關注行業進展,並結合業務方的反饋,持續迭代短視頻內容標籤模型,以便更好的服務於業務方」。
神奇讀心術的秘密,Query理解有妙招
經歷過算法的瓶頸,經歷過封閉開發的煎熬,作為NLP技術開發人員的苦與樂,箇中滋味他們早已知曉。NLP在愛奇藝的業務應用當中,很大一部分是要同搜索相結合,這其中最為核心的模塊就是Query理解。
理解用戶輸入的Query就是理解用戶真正的搜索意圖,在搜索的時候更準確地匹配到合適的信息條目。從最初的Query糾錯、同義詞擴展,到意圖識別、語義搜索、知識圖譜構建等,每個模塊都帶來了搜索指標和體驗的大幅提升。
到現在NLP團隊依然在Query理解上面投入了較多的人力,因為只有Query理解做好了,後面的搜索相關性才有可能取得較好的效果。「Query理解更像是人的大腦,一方面它會理解用戶的搜索意圖,另一方面根據用戶不同的搜索意圖,在排序的時候做不同的處理」。
Query的引導在搜索系統中也發揮著重要的作用,它一方面能輔助用戶的輸入,提升用戶的使用體驗,另一方面可以對用戶做一些引導,把愛奇藝最好的並且符合用戶興趣的內容個性化推薦給用戶。
目前NLP團隊負責的搜索Suggest、個性化默認搜索詞、搜索發現、語音助手等搜索入口,搜索Query的來源佔比已經達到了50%以上。將NLP和個性化推薦算法進行結合,不但能發揮NLP團隊的特長,還能拓展NLP團隊的技能,能更好的滿足搜索的業務需求。
助攻、領跑是技術專家和技術Leader的必備素養
提到作為技術專家也是團隊的Leader時兩個角色怎麼轉換時,團隊從事NLP技術研發多年的同事分享道,「兩個角色不能脫離需要相互補充相互融合,要自己以身作則,也給團隊的同事們起到良好的榜樣這樣同事才會真正信任你。」
提到對於同行者的建議說道:「技術發展日新月異,要保持一顆持續的學習熱情,只有通過不斷的學習才能將行業最新的進展應用到項目中;在優化項目效果的同時提升自己的能力,在項目中多嘗試,找出現在的問題並進行持續改進。注意思考和總結,把項目的經驗變成自己的方法論。」
帶領技術團隊時,將最大化發揮團隊價值、對業務方產生幫助掛在心上。作為專家時,要著重注重團隊夥伴的業務提升,與團隊小夥伴建立信任關係,幫助他們的成長。對於團隊成員,儘量保持公平,多給大家一些機會,以及公平的評價大家的工作成果。無論你是團隊中的專家、還是團隊的Leader要做到助攻、領跑兩不誤。
後記:匠心源於熱愛,源於專注
在愛奇藝簡單想,簡單做的企業文化中,因為熱愛,追求探索;因為簡單,所以專注是當前NLP團隊堅持的原則。沒有哪一份工作是真正輕鬆的,想要做好一份工作必然需要我們投入大量的時間和精力,去打磨、積累和研究。
在忙碌中,不斷挑戰新的難題,努力擴展自己的「技能樹」,鼓勵同事自發驅動各種創新,在提升自己的能力同時,為團隊、為他人創造出更大的價值,是工作帶給我們最大的滿足。
寫在最後
生命原本就是一個追尋的過程,學會擔當,學會原諒,學會扛起責任和義務,哼一支小曲,悠然前行。