每周一期,縱覽音視頻技術領域的乾貨和新聞投稿:contribute@livevideostack.com。
活動推薦
一切為了高清——金山雲魔鏡平臺助推5G高清應用
5G時代是超高清的時代,然而,冰凍三尺非一日之寒,在超高清視頻直播點播等業務研發過程中,總會遇到很多令人抓狂的難題。本次LiveVideoStackCon 2020線上峰會我們邀請到了金山雲高級技術總監蔡媛,她將從金山雲魔鏡平臺本身出發,講解平臺如何幫助使用者提升畫質評測效率,保障評測質量,一站式解決用戶畫質評測的難點。
https://mp.weixin.qq.com/s/Dq7SihY4CA6Oq0MAZvXH-g
架構
Kurento 6.14.0 發布
修復 bugs 為主。
https://www.kurento.org/blog/kurento-6140-june-2020
WebRTC系列之音頻的那些事
WebRTC由語音引擎,視頻引擎和網絡傳輸三大模塊組成,其中語音引擎是WebRTC中最具價值的技術之一,實現了音頻數據的採集、前處理、編碼、發送、接受、解碼、混音、後處理、播放等一系列處理流程。
https://juejin.im/post/5efafe405188252e7a1c5819
傳輸網絡
如何使用開源SFU構建RTC雲服務
本文由百度智能雲RTC產品技術負責人 李永興LiveVideoStack線上分享的內容整理而成,從系統架構角度,分析了常見的開源SFU在分布式部署以及高可用、高並發方面的不足,並提出相應的解決方案。
https://mp.weixin.qq.com/s/1ttedzc7VTO2hVg2s0qZIw
使用 Rust 實現:3K,60fps,130ms
如今幾乎所有視頻通話服務,最終結果似乎都是以一種或另一種方式使用了 WebRTC 庫。
https://blog.tonari.no/why-we-love-rust
關於傳輸層協議UDP、TCP
在本系列課程我會為大家講述傳輸層協議UDP、TCP和應用層協議HTTP、HTTPS以及Android中優秀的網絡框架的基本使用和源碼解析。
https://www.jianshu.com/p/271b1c57bb0b
編解碼
視頻編解碼器 2020-比賽開始!
目前已有不少可應用於視頻流媒體服務的視頻編解碼器,而且今年還將發布更多。諸多的方案給視頻服務商帶來了選擇困難症,因為他們需要為自己選擇合適的編解碼器,以確保為用戶傳送的音畫內容能具備儘可能好的質量和最低的比特率,同時還要考慮到編碼器對計算資源的要求。
https://mp.weixin.qq.com/s/ODOIv72pZxDEWDGOEZBWYA
音視頻前沿:新一代 AV1 視頻標準究竟是怎樣一種存在?
AV1是開放媒體聯盟Alliance for Open Media (AOM) 開發的第一代視頻編碼標準,自推出以來獲得了產業界巨大關注和支持。騰訊多媒體實驗室也加入進來和其他公司團隊一同積極推動AV1編碼器的優化和落地,為客戶提供高性能和高效率的雲端編碼服務。
https://mp.weixin.qq.com/s/9QvF_qjdKPswH4YdizKKow
編碼器對決:VP9 vs HEVC
本文是來自Bitmovin’s Tech Talks的演講,講者是Bitmovin的編碼團隊領導Christian Feldmann。主要內容是對比VP9和HEVC這兩個編碼器。
https://mp.weixin.qq.com/s/p6kDAzSoxkLVp4VQTSBaMA
MPEG新標準介紹及視頻啟播優化討論
本文是來自於Bitmovin Vienna Video Tech Meetup的演講,講者是來自於Bitmovin的編碼團隊領導Christian Feldmann和產品經理Christoph Prager。主要內容是即將發布的三個MPEG標準以及流媒體啟動時間優化。
https://mp.weixin.qq.com/s/T4pcNaBYshg9ILSsXXcyjw
對未來編解碼器前景的深入探討
本文來自Bitmovin APAC EDITION 2020的一篇演講,演講者是來自bitmovin視頻編碼團隊的Christian Feldmann,他主要探討了現有的和即將到來的視頻編解碼器。
https://mp.weixin.qq.com/s/u-JugYdCijLbHuWq6COVqQ
音視頻技術
騰訊天籟:基於上下文的語音丟包補償算法
騰訊天籟,「天籟之音,溝通無界」,作為騰訊多媒體實驗室提供的端到端實時音頻解決方案,專注於持續提升人們的溝通體驗,給用戶提供高音質,低延時,強抗性的音頻通信服務。
https://mp.weixin.qq.com/s/POv_lN4V8OUTLY67F0BLpQ
通過新的 Twilio 會議抖動緩衝區控制技術(Jitter Buffer Controls)改善通話體驗
Twilio 現在支持開發人員確定其通道的抖動大小。
https://www.twilio.com/blog/improve-call-experience-new-twilio-conference-jitter-buffer-controls
Android 音視頻學習:MediaCodec錄製MP4文件
在Android 4.1版本提供了MediaCodec來訪問設備的編解碼器,它採用的是硬體編解碼,所以在速度上比軟解碼更有優勢。
https://juejin.im/post/5ef982e45188252e5f37b50d
AI智能
高文、張鈸、楊強隔空論道:AI精度與隱私的博弈
AI時代,如何保護大眾的隱私?以聯邦學習為代表的AI技術能否實現AI協作,提升模型精度的同時,實現數據隱私的保護?中國如何搶佔人工智慧安全發展的制高點?下一個十年,人工智慧又將何去何從?
https://mp.weixin.qq.com/s/hAioNIGNAom70f5Zmik9eQ
清華大學計算機系教授胡事民:自研深度學習框架「計圖」2大創新、6大特性詳解
演講中,胡事民談到了深度學習框架「計圖」研發的初衷。他表示,回溯深度學習框架在過去十年間的演進,國外的 TensorFlow 、PyTorch 、caffe 等主流深度學習框架發展迅速,國產深度學習框架的發展相對慢一些。
https://mp.weixin.qq.com/s/luEC1JpITPKUY1C31kxUxg
SimulSpeech: 端到端同聲傳譯系統(論文)
同聲傳譯是指在不打斷講話者的情況下,同步地將源語言的語音翻譯成目標語言的文字或語音,這種翻譯方式被廣泛應用於大型國際會議等場景。隨著機器翻譯技術的發展,基於機器的同聲傳譯準確率有了極大的提高,並逐漸投入到實際使用中。
https://www.aclweb.org/anthology/2020.acl-main.350.pdf
圖像
牛!Python 也能實現圖像姿態識別溺水行為了!
眾所周知隨著人工智慧智能的發展,人工智慧的落地項目也在變得越來越多,尤其是計算機視覺方面。
所以今天我們也是做一個計算機視覺方面的訓練,用python來判斷用戶溺水行為,結合姿態識別和圖像識別得到結果。其中包括姿態識別和圖像分類。
https://mp.weixin.qq.com/s/x1S0Mlx1pk3t7c848LOsTA
資源推薦
啟用 WebRTC simulcast 以提高使用 Amazon Chime SDK 構建的應用程式的視頻性能
AWS 將 simulcast 功能添加到其 Chime SDK 中了。
https://aws.amazon.com/about-aws/whats-new/2020/06/enable-webrtc-simulcast-to-improve-video-performance-for-applications-built-with-amazon-chime-sdk/