音視頻技術開發周刊

2021-01-10 騰訊網

每周一期,縱覽音視頻技術領域的乾貨和新聞投稿:contribute@livevideostack.com。

活動推薦

一切為了高清——金山雲魔鏡平臺助推5G高清應用

5G時代是超高清的時代,然而,冰凍三尺非一日之寒,在超高清視頻直播點播等業務研發過程中,總會遇到很多令人抓狂的難題。本次LiveVideoStackCon 2020線上峰會我們邀請到了金山雲高級技術總監蔡媛,她將從金山雲魔鏡平臺本身出發,講解平臺如何幫助使用者提升畫質評測效率,保障評測質量,一站式解決用戶畫質評測的難點。

https://mp.weixin.qq.com/s/Dq7SihY4CA6Oq0MAZvXH-g

架構

Kurento 6.14.0 發布

修復 bugs 為主。

https://www.kurento.org/blog/kurento-6140-june-2020

WebRTC系列之音頻的那些事

WebRTC由語音引擎,視頻引擎和網絡傳輸三大模塊組成,其中語音引擎是WebRTC中最具價值的技術之一,實現了音頻數據的採集、前處理、編碼、發送、接受、解碼、混音、後處理、播放等一系列處理流程。

https://juejin.im/post/5efafe405188252e7a1c5819

傳輸網絡

如何使用開源SFU構建RTC雲服務

本文由百度智能雲RTC產品技術負責人 李永興LiveVideoStack線上分享的內容整理而成,從系統架構角度,分析了常見的開源SFU在分布式部署以及高可用、高並發方面的不足,並提出相應的解決方案。

https://mp.weixin.qq.com/s/1ttedzc7VTO2hVg2s0qZIw

使用 Rust 實現:3K,60fps,130ms

如今幾乎所有視頻通話服務,最終結果似乎都是以一種或另一種方式使用了 WebRTC 庫。

https://blog.tonari.no/why-we-love-rust

關於傳輸層協議UDP、TCP

在本系列課程我會為大家講述傳輸層協議UDP、TCP和應用層協議HTTP、HTTPS以及Android中優秀的網絡框架的基本使用和源碼解析。

https://www.jianshu.com/p/271b1c57bb0b

編解碼

視頻編解碼器 2020-比賽開始!

目前已有不少可應用於視頻流媒體服務的視頻編解碼器,而且今年還將發布更多。諸多的方案給視頻服務商帶來了選擇困難症,因為他們需要為自己選擇合適的編解碼器,以確保為用戶傳送的音畫內容能具備儘可能好的質量和最低的比特率,同時還要考慮到編碼器對計算資源的要求。

https://mp.weixin.qq.com/s/ODOIv72pZxDEWDGOEZBWYA

音視頻前沿:新一代 AV1 視頻標準究竟是怎樣一種存在?

AV1是開放媒體聯盟Alliance for Open Media (AOM) 開發的第一代視頻編碼標準,自推出以來獲得了產業界巨大關注和支持。騰訊多媒體實驗室也加入進來和其他公司團隊一同積極推動AV1編碼器的優化和落地,為客戶提供高性能和高效率的雲端編碼服務。

https://mp.weixin.qq.com/s/9QvF_qjdKPswH4YdizKKow

編碼器對決:VP9 vs HEVC

本文是來自Bitmovin’s Tech Talks的演講,講者是Bitmovin的編碼團隊領導Christian Feldmann。主要內容是對比VP9和HEVC這兩個編碼器。

https://mp.weixin.qq.com/s/p6kDAzSoxkLVp4VQTSBaMA

MPEG新標準介紹及視頻啟播優化討論

本文是來自於Bitmovin Vienna Video Tech Meetup的演講,講者是來自於Bitmovin的編碼團隊領導Christian Feldmann和產品經理Christoph Prager。主要內容是即將發布的三個MPEG標準以及流媒體啟動時間優化。

https://mp.weixin.qq.com/s/T4pcNaBYshg9ILSsXXcyjw

對未來編解碼器前景的深入探討

本文來自Bitmovin APAC EDITION 2020的一篇演講,演講者是來自bitmovin視頻編碼團隊的Christian Feldmann,他主要探討了現有的和即將到來的視頻編解碼器。

https://mp.weixin.qq.com/s/u-JugYdCijLbHuWq6COVqQ

音視頻技術

騰訊天籟:基於上下文的語音丟包補償算法

騰訊天籟,「天籟之音,溝通無界」,作為騰訊多媒體實驗室提供的端到端實時音頻解決方案,專注於持續提升人們的溝通體驗,給用戶提供高音質,低延時,強抗性的音頻通信服務。

https://mp.weixin.qq.com/s/POv_lN4V8OUTLY67F0BLpQ

通過新的 Twilio 會議抖動緩衝區控制技術(Jitter Buffer Controls)改善通話體驗

Twilio 現在支持開發人員確定其通道的抖動大小。

https://www.twilio.com/blog/improve-call-experience-new-twilio-conference-jitter-buffer-controls

Android 音視頻學習:MediaCodec錄製MP4文件

在Android 4.1版本提供了MediaCodec來訪問設備的編解碼器,它採用的是硬體編解碼,所以在速度上比軟解碼更有優勢。

https://juejin.im/post/5ef982e45188252e5f37b50d

AI智能

高文、張鈸、楊強隔空論道:AI精度與隱私的博弈

AI時代,如何保護大眾的隱私?以聯邦學習為代表的AI技術能否實現AI協作,提升模型精度的同時,實現數據隱私的保護?中國如何搶佔人工智慧安全發展的制高點?下一個十年,人工智慧又將何去何從?

https://mp.weixin.qq.com/s/hAioNIGNAom70f5Zmik9eQ

清華大學計算機系教授胡事民:自研深度學習框架「計圖」2大創新、6大特性詳解

演講中,胡事民談到了深度學習框架「計圖」研發的初衷。他表示,回溯深度學習框架在過去十年間的演進,國外的 TensorFlow 、PyTorch 、caffe 等主流深度學習框架發展迅速,國產深度學習框架的發展相對慢一些。

https://mp.weixin.qq.com/s/luEC1JpITPKUY1C31kxUxg

SimulSpeech: 端到端同聲傳譯系統(論文)

同聲傳譯是指在不打斷講話者的情況下,同步地將源語言的語音翻譯成目標語言的文字或語音,這種翻譯方式被廣泛應用於大型國際會議等場景。隨著機器翻譯技術的發展,基於機器的同聲傳譯準確率有了極大的提高,並逐漸投入到實際使用中。

https://www.aclweb.org/anthology/2020.acl-main.350.pdf

圖像

牛!Python 也能實現圖像姿態識別溺水行為了!

眾所周知隨著人工智慧智能的發展,人工智慧的落地項目也在變得越來越多,尤其是計算機視覺方面。

所以今天我們也是做一個計算機視覺方面的訓練,用python來判斷用戶溺水行為,結合姿態識別和圖像識別得到結果。其中包括姿態識別和圖像分類。

https://mp.weixin.qq.com/s/x1S0Mlx1pk3t7c848LOsTA

資源推薦

啟用 WebRTC simulcast 以提高使用 Amazon Chime SDK 構建的應用程式的視頻性能

AWS 將 simulcast 功能添加到其 Chime SDK 中了。

https://aws.amazon.com/about-aws/whats-new/2020/06/enable-webrtc-simulcast-to-improve-video-performance-for-applications-built-with-amazon-chime-sdk/

相關焦點

  • 音視頻技術開發周刊|172
    音視頻技術 關於主動降噪耳機,你想知道的一切 本文主要介紹反饋降噪(FB ANC) 的原理。 OTT/短視頻/線上教育/遠程協作/雲遊戲... 雲剪輯/線上視頻製作/AI視頻製作...... 當新的標準被應用到新領域、新的應用配備了新的標準、新的領域衍生了新的應用......音視頻技術人會帶來怎樣的技術革新,多媒體行業的後疫情時代又會催生出怎樣的新創?
  • 音視頻技術開發周刊|169
    在5G時代,視頻得益於網絡帶寬的提升,未來將成為主流的傳播媒介。越來越多的業務和應用將視頻化,直播化。大量互動的內容將通過5G以低延時的方式以視頻的形式傳輸。 在線視頻的基礎知識和實時流媒體入門 這篇演講來自於MUX,主要介紹了在線視頻的基礎知識介紹和實時流媒體入門,主持人為Phil,是MUX的多媒體流工程師。
  • iOS開發-音視頻開發
    當然,隨著5G技術的誕生,用在智能終端分享3D電影,遊戲或者超高畫質節目的時代已經毫無懸念的向我們走來. 想必大家也逐步了解,國內外的網際網路公司也已經布局音視頻,3D技術方面的開發者招聘和相關產品研發.目前落地推廣最普遍的就是直播類項目和小視頻類的項目.當然未來的方向肯定不止如此.
  • 零基礎入門:實時音視頻技術基礎知識全面盤點
    1、引言隨著行動網路速度越來越快、質量越來越來,實時音視頻技術已經在各種應用場景下全面開花,語音通話、視頻通話、視頻會議、遠程白板、遠程監控等等。實時音視頻技術的開發也越來越受到重視,但是由於音視頻開發涉及知識面比較廣,入門門檻相對較高,讓許許多多開發者望而生畏。
  • 中國音視頻產業技術與應用趨勢論壇圓滿落幕
    【IT168資訊】第十三屆中國音視頻產業技術與應用趨勢論壇(AVF)在北京召開。本屆論壇圍繞以「人工智慧風口下的突破與創新」為主題,涵蓋國內外音視頻產業核心技術、產品、應用與新興市場領域。最大的亮點則是人工智慧、虛擬實境、增強現實等視聽體驗加速走進人們的日常生活,產業鏈上下遊企業緊抓智能終端入口契機,全面提升用戶的產品交互體驗和與真實/虛擬世界的連接體驗。
  • 聲網Agora趙德奎:以實時音視頻技術 賦能教育行業
    趙德奎:聲網Agora成立於2013年,是為全球實時互動音視頻提供雲服務。我們在2020年6月26日成功登陸納斯達克,成為全球實時互動雲服務的第一股。我們為廣大開發者提供互動實時音視頻的直播,實時消息、實時錄製,全球碼流加速等多種API產品,方便開發者通過簡單的調用,能夠在自己的應用裡構建多種實時互動的音視頻場景。
  • 2020第十六屆中國音視頻產業大會在北京召開
    特別是今年以來,全球遭遇新冠肺炎疫情的嚴重衝擊,極大激發了包括音視頻產業在內的非接觸式經濟發展。隨著5G時代來臨,音視頻產業將在更廣範圍、更深程度、更高水平上實現融合,加快實體經濟數位化、網絡化、智能化升級。
  • 音視頻開發之旅(15) OpenGL ES粒子系統 - 噴泉
    OpenGL提供了累加混合技術 GL_BLEND_,公式如下把點修改為紋理圖片下面我們就通過紋理圖片來把每個點繪製為一個點精靈關於紋理的使用如果不熟悉,請先閱讀[音視頻開發之旅(12) OpenGL ES之紋理]首先 修改片元著色器,添加2D紋理
  • 45小時音視頻直播,上海廣播「進寶FM」全景呈現進博會
    平臺通過45小時音視頻直播進播會盛況,收穫不錯效果,也彰顯出上海廣播全媒體平臺的傳播力量。  「音視圖文」等融合產品多輪式、立體化傳遞開幕式風採。第三屆進博會開幕當天,上海廣播全媒體平臺第一時間音視頻同步轉播開幕式實況和習近平主席視頻發表主旨演講。會後,新媒體平臺接力推送習近平主席主旨演講金句,通過長圖海報、短視頻拆條等形式傳遞習近平主席主旨演講核心內容、重要精神。
  • 訊飛聽見智慧系列產品全面亮相上海音視頻行業年會
    1月9日下午,第八屆上海音視頻行業年會在上海市召開,活動以「創新、融合、提升」為主題,作為一年一度音視頻+智能化行業交流活動,旨在共同學習了解行業特色,推廣優秀的產品和公司,促進音視頻產業的健康發展。此次活動分為外場展區和內場嘉賓區,華為,MAXHUB,海康,創維等眾多老牌大屏廠家紛紛亮相。
  • 音視頻圖像處理技術高光聚焦:深維科技隨賽靈思亮相深圳LiveVideo...
    2019年12月13日,專業的音視頻技術大會LiveVideoStackCon 2019第二場如期在深圳舉行,賽靈思聯合眾多視頻處理領域的合作夥伴共同為業界帶來了精彩的演講和實例演示。
  • 建設音視頻行業健康內容生態,比心陪練呼籲各方聯手共建共治
    建設音視頻行業健康內容生態,比心陪練呼籲各方聯手共建共治 2020年12月2日,「2020音視頻直播行業綠色內容生態共建峰會」在北京舉辦,峰會聚焦「音視頻行業內容健康安全、保護未成年人」的話題,來自政府主管部門
  • 東阿縣訴非聯調中心音視頻調解室上線啦!
    東阿縣訴非聯調中心音視頻調解室上線啦!訴非聯調中心音視頻調解室裡傳來調解員張雲紅的聲音,音視頻調解設備上線第一天,張雲紅便利用它調解成功一起身體權糾紛案件。
  • 佳能開發出高準確度人群計數視頻分析技術
    集微網消息(文/Yuna),據Impress Watch網站報導,12月19日,佳能宣布開發了一種視頻分析技術,利用深度學習技術通過網絡攝像機對數千人的人群進行了實時人數統計。此前利用圖像解析技術統計人群數量時,由於人員密集混雜,鏡頭中人和人之間的重合以及面部朝向不同,很難正確計算出畫面中的人數。佳能新開發的圖像分析技術能夠檢測人的頭部,在人群擁擠的情況下依然能準確計算出人數,從而統計某一區域內人員數量及流動情況。
  • 購買VIP仍無法屏蔽廣告,音視頻「會員套路」知多少?
    酷我音樂被罰事件持續發酵,在微博上引發網友熱議,2020年4月11家音視頻網站被約談,音視頻網站隨著時代的發展受到歡迎,會員標榜權益良多,付費過後發現竟還要付費。音視頻平臺會員被當韭菜割的年代,到底過去了嗎?
  • 一套完整的直播系統開發的流程是怎麼樣的?
    直播熱潮尚未褪去,而直播系統開發究竟是如何實現的?那麼,一套完整的直播系統開發的流程是怎麼樣的?1、音視頻採集採集是播放環節中的第一環,iOS 系統因為軟硬體種類不多,硬體適配性較好,所以比較簡單。Android 則不同,市面上硬體機型非常多,難以做到一個庫適配所有硬體。2、音視頻處理美顏系統是現在直播系統中所必需的一項。
  • 高性能銅基/銀基絲線材關鍵製備加工技術
    集成電路封裝、電子通訊、連接器、音視頻傳輸等領域用銅基/銀基絲線材,是保障系統電流和信號穩定傳輸的關鍵材料。隨著電子器件向高度集成化和微型化方向發展,信號傳輸密度和安全可靠性要求越來越高,對銅基/銀基絲線材的綜合性能提出更高要求。2020年(第十屆)中國壓鑄、擠壓鑄造、半固態加工年會上,河南科技大學副校長宋克興教授將作題為「高性能銅基/銀基絲線材關鍵製備加工技術」的報告。
  • 飛書上線音視頻實時字幕功能支持中英文互譯
    中新網4月14日電4月13日,飛書在新版本中對音視頻功能進行了升級,新增實時字幕、中英文翻譯等。視頻時,用戶可選擇開啟字幕,並設置顯示語言。據了解,飛書是行業內首個支持音視頻字幕翻譯的產品。  據悉,飛書音視頻功能目前可支持百人會議需求,用戶選擇「開啟字幕」後,系統即可進行語音識別,並滾動顯示在屏幕下方或右側,參會人實時可見並能查看歷史記錄
  • 淺談視頻傳輸電纜的選擇與技術應用
    淺談視頻傳輸電纜的選擇與技術應用1、電纜的類型電纜由於應用在很多不同的環境,以致在外形上看起來由很大的區別。但不論任何的電纜類型,都是作為信號傳輸的一種導體。這些不同類型的電纜,在傳輸不同信號的質量表現也有區別,除了部分特殊的應用,目前應用於音視頻傳輸的電纜大致以單根導線、雙絞線、同軸線和光纖為主。
  • 微信發布2018數據報告:音視頻通話次數達4.1億次,較去年增長100%
    報告顯示,2018年,微信每個月有10.82億用戶保持活躍,每天有450億次信息發送出去,每天有4.1億音視頻呼叫成功。人群方面,00後最愛的表情是捂臉哭,90後最愛笑cry,80後最愛呲牙笑,70後最愛捂嘴笑。打造智慧生活方面,每個月使用微信搭公交地鐵的乘客比2017年增加4.7倍,每個月使用微信零售消費的買家比2017年增加1.5倍。