騰訊雲副總裁吳祖榕:一個為5萬日活設計的系統,兩個月內如何扛下千萬日活
2020-12-20 17:44 騰訊雲
「作為原來只為5萬DAU設計的系統,短短兩個月時間內快速擴容、調整架構,快速支撐超過千萬日活躍用戶」, 12月19日,在騰訊2020 Techo Park開發者大會上,騰訊雲副總裁、騰訊會議負責人吳祖榕表示。
作為一款去年底剛發布的視頻會議產品,騰訊會議誕生2個月日活躍用戶就超過1000萬,發布245天用戶數突破1億,成為中國最多人使用的專業視頻會議產品,這背後是整個騰訊雲提供的技術演進和保障。
(騰訊雲副總裁、騰訊會議負責人吳祖榕)
吳祖榕表示,過去20年時間裡騰訊一直非常堅定的在通信技術上做了大量的投入,背後技術演進的路線最早可以追溯到QQ時代,早期的QQ音視頻技術到後來推到騰訊雲上,在雲端提供各種各樣的視頻解決方案,基於這種視頻解決方案才推出了騰訊會議。
談及騰訊會議的演進路徑,吳祖榕透露在產品孵化期只投了1.5個後臺開發,花了兩個月時間完成了整個騰訊會議的後臺體系搭建,背後的核心技術就來自於騰訊雲原生一系列的技術組件,包括基礎設施、比如存儲層、邏輯層、接入層,大量快速的使用這些基礎設施,極大的降低了後端的開銷,使得我們後臺開發人員只需要關注我們的業務邏輯,保障整個業務的推出,正因為我們在早期充分使用了一系列雲原生的組件,後續的擴容方便就得益於此。
「先扛住,再優化」,面對疫情期間龐大的用戶基數和並發量,騰訊會議迎來了日以繼夜的擴容,背後涉及到非常複雜的調度,因為騰訊雲儲存了大量的彈性資源,使得騰訊會議可以使用到騰訊雲的IP資源、技術資源、帶寬資源,一系列的資源都在為業務給予足夠的保障。於是,才有了騰訊會議8天擴容10萬臺雲主機,創造了中國雲計算的歷史記錄。
如今,隨著騰訊會議的業務步入穩定期,功能、安全、迭代升級變得越來越重要。騰訊會議也到了可以反哺開發者的時候,提供API和SDK,未來所有開發者可以在官網上申請使用,快速構建起多人通信的能力。同時騰訊會議已經和多家硬體廠商合作,推出會議室連接器和騰訊會議Rooms,希望提供更好的軟硬一體的解決方案。
以下為騰訊雲副總裁、騰訊會議負責人吳祖榕演講全文:
各位開發者,大家好!我是來自騰訊會議的吳祖榕,很高興在這裡跟大家分享騰訊會議在過去一年的研發歷程以及我們所經歷的整個過程,我的題目是叫做「生於雲、成長於雲」,這是騰訊會議一年時間裡迅速成長的原因,但回顧以往,我覺得更是得益於多年以前我們最堅定的投入,在今天換來的回報。
騰訊會議是在去年12月25日發布的,那個時候我們給自己定小小的目標是,希望年底的時候我們的DAU可以到5萬,就是一天有5萬個活躍用戶,我們覺得這是我們今年最好的成績,但是一場突如其來的疫情使得我們在不到兩個月的時間裡這個目標翻了幾百倍,作為原來只為5萬DAU設計的系統,我們怎麼保證短短兩個月時間內快速的擴容、調整整個架構,才能配合我們的客戶端,快速地支撐過千萬的用戶。
大家覺得說騰訊會議是去年年底才推出的,但騰訊會議的積累絕不是剛剛起步。過去20多年時間裡,騰訊一直非常堅定的在通信技術上做了大量的投入,所以背後技術演進的路線最早可以追溯到QQ時代,早期的QQ音視頻技術,到後來QQ的音視頻技術推到騰訊雲上,在雲端提供了各種各樣的視頻解決方案,基於這種視頻解決方案我們推出了騰訊會議,沿著實時音視頻的技術鏈路,騰訊耕耘了超過20年的時間。
我們大概看一看整個騰訊會議在過去一段時間的歷程,簡單的分成三個階段:
第一個階段,來自孵化期。那時候我們要把最小的功能單元做出來,最大的壓力可能來自於團隊規模很小,最早的一個版本,整個騰訊會議的開發團隊加起來可能就7.5個人,到了真正的爆發期我們發現用戶海量的增長,如何提供最穩定的服務是最重要的事情。等到疫情受到控制的時候,我們如何結合用戶的實際需求提升我們的服務質量,把安全相關的工作做到極致,這就是我們在這個階段上面臨的挑戰,我簡單的闡述一下每個階段我們重點的工作。
我們可以看到在孵化期只投了1.5個後臺開發,花了兩個月時間就完成了整個騰訊會議的後臺體系搭建,背後的核心技術就來自於騰訊雲原生一系列的技術組件,包括我們的基礎設施、比如存儲層、邏輯層、接入層,大量快速的使用這些基礎設施,極大的降低了我們後端的開銷,使得我們後臺開發人員只需要關注我們的業務邏輯,保障整個業務的推出,正因為我們在早期充分使用了一系列雲原生的組件,後續的擴容方便就得益於此。
第二階段,等到疫情來的時候我們可以看到,1月23日的時候武漢開始封城,看到這個消息,當時整個團隊聚在一起說我們做點什麼,於是我們跟公司做一個請示,能不能快速地將面向全行業收費的會議能力放開,於是得到公司快速的肯定馬上放,1月24日的時候就在全網放開了,不到3天時間裡收到更多的反饋,就覺得100方遠遠不夠,開一個普通內部溝通會議都要兩三百人,於是這個時候我們做了另外一個重要的決定,我們春節前一個月時間裡研發了300方的視頻會議能力,我們果斷把這個功能也放開了。隨著通訊容量的增長,也來了大量用戶的湧入,所以短短的時間我們迎來了海量用戶的增長。
真正的挑戰發生在2月3日,是我們春節假期回來之後第一天,大家開始復工復學的第一天,我們就迎來了日以繼夜的擴容,背後涉及到非常複雜的調度,因為騰訊雲儲存了大量的彈性資源,使得我們大量時間裡可以使用到騰訊雲的IP資源、技術資源、帶寬資源,一系列的資源都在為我們的業務給予足夠的保障。也充分體現了我們在擴容過程中基礎設施層面提供了大量的保障,這段時間我印象最深得是,騰訊過去講海量服務「先扛住,再優化」,過去往往周期是一個月、兩個月,到了疫情的時候,這個時間縮短到了24小時,白天的時間裡我們在做大量的擴容,到了夜裡就開始對產品性能、部署中的跟蹤等問題,做大量的部署、開發,凌晨的時候我們可能開始對今天所做的所有變更、代碼優化做壓力測試,這樣日以繼夜循環了一兩周,我們完成了擴容、穩定了後臺服務,創造了整個中國雲計算的歷史。
第三階段,隨著我們的穩定性得到基礎保證之後,功能變得越來越重要,我們不僅在後端使用了騰訊雲自帶的雲原生的組件,我們客戶端也大量使用了雲端的SDK和雲PaaS,早期給我們帶來非常大便捷性的微信小程序的互通,是基於視頻雲的解決方案在提供服務,同時我們的直播,使得我們無需在軟體中設計IM系統,這樣的背景下我們100天時間裡迭代20多個版本,快速滿足行業需要。
隨著國內疫情慢慢得到控制,海外疫情又重新開始發酵、爆發,這個過程中我們又積極部署了我們國際版VooV Meeting,這個過程我們可以看到,也正是基於騰訊雲全球的部署,我們通過在全球各個關鍵節點部署我們的伺服器跟我們的服務進程,來保障了整個全球的通信,因為我們知道兩點之間直線最短,但是在網絡的世界裡兩點之間並不意味著直線最短,我們希望非常大的調度,比如一個歐洲的客戶,他直聯中國並不是很好,也許我們中轉新加坡、再轉香港,這樣的調動策略可能使得丟包、抖動大幅度降低,騰訊雲部署了非常多節點的大網,這個當中部署充分的路由和調度,使得我們得到極大的體驗優化。今天可以看到,我們每天有大量的全球會議在進行,也正是依託於我們這樣的全球部署。
於是等到所有的前期的基礎建設完成之後,我們也進入了整個產品迭代的穩定期了,整個過程中我想舉兩個例子跟大家分享,左邊是我們一直做的人像分割,疫情期間很多人在家裡開會的時候打開攝像頭,背後很多實際的畫面可能並不適合被攝像頭採集掉,所以我們會做虛擬背景,這個虛擬背景最常遇到的問題是什麼,
如果你坐個椅子,椅子後面有個靠枕,經常會發現靠枕會時不時的從腦袋後面凸出來,這個感受是非常難受的,所以我們做了大量的採集,同步一個數據給大家,我們大概採集了6萬張椅子的數據,6萬張帶著頭枕椅子的數據,通過6萬張椅子數據做標註,能夠逐步的去影響我們在做虛擬背景的時候後腦部頭枕的露出。
在語音方面也依然是會議領域很重要的通信能力,前面還跟大家去講過,在我們今天騰訊會議還採集了很多噪聲,其中有的噪聲可能很多人都沒想到,我們花了很多力氣去採集,雨點打到玻璃窗上的採集,什麼樣的背景呢?因為有一天我們開會外邊下雨,遠端的人聽著非常嘈雜,他們說發生了什麼事情,我們意識到雨點的噪聲,隨後我們採集了公交車、開門的聲音,我們採集了餐桌上吃盒飯的聲音、我們採集了關門的聲音,幾百種噪聲我們都在做採集,目的是讓我們能夠在整個環境中安靜地把聲音傳輸給對方,提升我們整體的溝通效率。所以整個階段,我們圍繞「聽得清、看得清、聽得真、看得真」做了大量的努力。
安全對於通信產品的重要性,便捷性和安全性往往是兩個很難彼此平衡的事情,我們如何保持簡潔產品體驗過程中,依然提供很好的安全體驗,就依賴於我們騰訊雲整體的智慧安全的體系,每天有非常多的人嘗試破解會議號,希望能夠闖入別人的會議或者爆破我們的會議連結,一系列爆破過程肯定有特徵,我們怎麼找到特徵攔截用戶,這是我們整套體系要做的不僅有業務安全,還有我們的設施安全、線路安全,在兩點之間通信的時候整個鏈路上如何保證他是安全的、不被竊聽的,也是依然需要我們投入很大精力努力做的事情。
與此同時,在穩定之後我們要提升我們的產品質量,我們需要非常細化的能夠看到每個節點中遇到了什麼問題,這張圖使用了雲原生的組件,今年5月份我們經過這個分析快速找到某個節點中MTU設置有問題,使得我們在通信質量中能夠做到實時的跟蹤、實時的優化,這對於我們多維分析能力是非常重要的。
前面看到基於騰訊雲提供的基礎組件做了非常多的雲原生的開發、使用,到今天我們覺得騰訊會議也到了可以反哺開發者的時候,我們提供整個API和SDK,未來所有開發者可以在我們官網上申請使用,可以快速構建起多人通信的能力。同時我們和廠商合作,我們推出了騰訊會議的Rooms,希望提供更好的軟硬一體的解決方案。
最後我還是特別想感慨的一點就是,我們騰訊會議在最早非常堅定的選擇了雲原生的開發,才能保證在整個用戶大量增長、請求快速增長的時候我們能夠真正做到頻繁擴容,而整個疫情期間騰訊會議的背後最堅實的力量就來自騰訊雲的全力支持。
我的分享就是這些。謝謝大家!
[本文作者阿薩,i黑馬原創。如需轉載請聯繫微信公眾號(ID:iheima)授權,未經授權,轉載必究。]