聽障學生的「福音」,百度大腦AI語音技術助推樂往慧譯視頻字幕系統...

2020-11-25 donews

面對新冠肺炎疫情導致的延期開學,一場基於「全民直播」的教學行動正在各地上演。當大多數學生都能通過直播聽課與老師互動交流、答疑解惑時,有一群聽力有障礙的孩子們面對直播卻十分苦惱,他們聽不清老師所講、沒有字幕可看、更無法與老師互動接受指導。為保障疫情期間的如常學習,專門為聽障人士做產品研發與服務的洛陽樂往網絡科技有限公司(後文簡稱「樂往科技」)藉助百度大腦語音技術推出慧譯視頻字幕系統,讓被按下「靜音鍵」的聽障學生也能跟上「停課不停學」的進度。

  (圖:聽障學生聚精會神看網課)

疫情之下,聽障學生如何保障如常學習?

據中國殘聯教育就業部統計,中國僅在2015-2017年期間,就已有2.89萬名殘疾學生通過普通高考被高校錄取,聽障學生們沒什麼不一樣,他們也走進大學、就業,開拓著自己的人生道路。但此次突發的疫情,卻讓「在線直播教學」這件事兒來得突然,大學裡的聽障學生該如何進行「在線直播」的學習呢?

「聽不見的聲音應該被看見」,樂往科技在2018年時就推出了慧譯APP幫助聽障學生在校學習。當時在了解到百度大腦AI語音技術的相關信息後,樂往科技便立刻為慧譯APP接入百度語音技術,集成百度大腦遠場語音識別、實時語音識別能力,很好地實現在手機上通過APP,持續將3-5米之外說話人的聲音轉化為文字,並具有極高的準確率、極快的識別速度,讓聽障群體可以和普通人得以進行無障礙溝通。慧譯APP極大地滿足了全國2800多萬聽障群體的溝通交流需求,而面對此次疫情下的需求樂往科技同樣反應迅速。

 (圖:樂往科技AI無障礙教學支持計劃)

早在兩年前,樂往科技就開始著手研發「慧譯聽障視頻字幕速記系統」,經過無數次的測試以及十多次迭代,最終形成可落地實際應用的成熟解決方案。而此次為了協助落實疫情期間聽障學生的正常教學,樂往科技第一時間想到了AI技術合作夥伴——百度,並向百度大腦發出技術支持邀請,很快就獲得百度大腦語音技術的大力支持。

據統計,疫情期間同時使用該系統上課的聽障學生最高接近300人,單次使用時長就高達10.26小時,且用戶數仍在每天增長。這樣的並發量對於樂往科技是個不小的挑戰,常有學生反饋視頻轉字幕時出現卡頓,或是只能識別出幾個詞。而百度大腦提供的「高並發實時轉寫」能力,可同時支持並發量高達100qps,並實現微秒級響應。樂往科技在這樣及時且實用的技術支持下,加班加點僅用一周就研發出「慧譯視頻字幕系統(百度抗疫特別版)」。該版本在追求並發性能和實時反饋方面效果體驗極佳,滿足了大批量用戶對於性能的需求,有效解決了視頻轉字幕出現卡頓的問題,讓數百名聽障學生能夠同時使用。除了提供技術支持解決高並發量問題,百度還免費提供技術接口,幫助樂往科技降低了至少一半以上的成本。同時,樂往科技還推出"無障礙教學支持計劃」,在疫情下面向全國特殊學校、高校的特殊教育的老師們,免費提供AI視頻教學無障礙字幕功能支持,推動著信息無障礙教學平臺建設。

 

 (圖:樂往科技「慧譯聽障視頻字幕系統」老師直播頁面)

「軟體非常好用,我在備戰考研,許多視頻資料都沒有字幕,之前只能自己看書學習,這下可以看視頻了!」已使用上該系統的聽障學生感嘆道。與此同時,許多特殊學校或是高校特殊教育的老師們也評價這個系統「特別適合聽障學生自學網絡精品課程」,來自使用者的真實反饋正說明了技術能給聽障人群帶來的便利。目前這一系統已惠及天津理工大學、北京聯合大學、長春大學、鄭州工程技術學院(原中州大學)、鄭州師範學院、西安美院、重慶師範大學等多所高校及特殊學校的2100多位聽障學生,30多所特殊學校的老師,用戶累積超過2萬多人。此外還有大量聽障學生、殘聯客戶、聾協客戶正在諮詢使用,整體數字還將不斷增加。

共同「戰疫」,有「AI」在行動

「開發視頻字幕識別項目遇到很多困難,信息無障礙相關資源極度缺乏,資金非常有限,項目屬性又偏重公益,沒有過多考慮盈利。」 樂往科技負責人寧樂飛談到「慧譯聽障視頻字幕系統」的研發時分享到:「感動的時刻往往來源於遇到困難後,像百度這樣的合作夥伴們總願意積極地幫我們協調資源。讓人感受到雪中送炭那種溫暖人心的感覺。大家在解決這些問題時,拋開了商業利益,優先解決遇到的問題,也彰顯出百度的社會責任感!」

 

 (圖:樂往科技團隊成員遠程在家支持工作)

而在談到此次疫情下AI的作用時,寧樂飛表示:「AI能很好地輔助信息無障礙領域中的『無障礙』溝通得以實現。在疫情期間,社會需要我們,我們肯定會用自己的力量和技術,在熟悉的領域為社會做出一些力所能及的抗疫貢獻,這是義不容辭的。」面對疫情,正有更多像樂往科技這樣的科技企業與開發者站了出來,在積極地用AI技術助力著「特殊時期」下的正常生產生活秩序。

事實上,疫情期間百度大腦也在積極對外提供「抗疫」相關產品所需的AI技術。2月6日,百度大腦發布「AI開發者『戰疫』守護計劃」,針對正在進行疫情防控相關應用開發或疫情期間有需要的企業、機構和開發者,提供免費技術服務和線上 AI 培訓課程。目前,該計劃除應用於樂往科技中的AI語音技術之外,還可提供包括OCR文字識別、新聞摘要、智能對話定製與服務平臺UNIT等240項與防疫應用強相關的AI技術能力,幫助開發者應對醫療、衛生、疾控等領域的「戰疫」一線需求,與所有人共同尋求著終將屬於我們的「戰疫」勝利。

 

 (圖:百度大腦「AI開發者『戰疫』守護計劃」)


相關焦點

  • 百度「 AI 抗疫」啟示錄
    3月初,百度大腦還推出「戴口罩人臉識別」技術,當下已落地百度大廈辦公區,真正實現了戴著口罩「刷臉」也暢通無阻。需求倒逼技術實現。此前,我們在進出各大火車站時,都需要摘下口罩配合安檢。如果這項技術進入安防「武器庫」,那麼未來節假日的通勤效率將進一步提高。
  • 91Reading接入百度大腦語音技術,朗讀功能使用量已超越閱讀
    那麼如何讓學生隨時隨地都能收穫公正、客觀的反饋呢?K12英文原版閱讀產品91Reading在接入百度大腦語音技術後,實現了「閱+讀」一體化的語言學習模式,為這一問題提供了「科技範」十足的答案。經過持續優化後,如今91Reading已全面將百度語音技術應用於APP內的朗讀板塊,並基於百度語音識別技術開發了語音測評功能,調用量節節攀升,日調用達到百萬次以上,能對學生朗讀的準確度、完整度和流利度進行打分。「閱+讀」的新模式讓口語學習變得輕鬆有趣,現在朗讀功能使用量甚至已超過原有閱讀功能。
  • 百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦
    (若發音有誤,百度大腦語音合成技術將提供正確讀音)據介紹,銀月網絡基於百度大腦語音合成和語音識別技術升級的《戀愛口令》以校園浪漫的愛情故事為題材,講述一名轉校生來到新學校後發生的「浪漫邂逅」。在這樣的對話過程中,百度大腦智能語音技術不斷聆聽、識別用戶的口語發音,糾正錯誤,並提供正確讀法,讓用戶在每一次對話中得以學習。
  • 人民日報創作大腦背後的AI支撐:百度大腦智能創作平臺技術解密
    人民日報"創作大腦"具備直播智能拆條、在線視頻快編、圖片智能處理、智能字幕製作、可視化大數據、智能寫作、新聞轉視頻、實時新聞監測等18項重點功能,是集輕應用平臺、智慧媒體雲、知識社區、開放生態於一身的一站式智能創作平臺,能夠為媒體機構提供全媒體生態智能解決方案。人民日報"創作大腦"背後,是百度智能雲提供領先的雲+AI技術支持,尤其是來自百度大腦智能創作平臺的支持。
  • 視頻語音自動生成字幕怎麼做?分享一個視頻字幕生成器—繪影字幕
    很多人都對語音轉文字有所了解,其實視頻加字幕和語音轉文字,前期使用的技術手段是一樣的。都是通過機器對人聲進行識別,轉成文字。不過,生成字幕還需要對字幕切分和給字幕添加時間戳。所以視頻加字幕會在語音轉成文字的基礎上,機器精準切分時間軸,給文字加上時間戳生成字幕。
  • 四大核心優勢玩轉智能視頻生產 百度大腦圖文轉視頻帶來無限可能
    1月13日,百度AI官方視頻號發布了一條特殊的視頻——《百度研究院2021年十大科技趨勢預測》,該視頻完全由AI自動剪輯生成,製作者只需一鍵輸入新聞連結即可生成視頻。其中,起到關鍵支撐的是百度大腦圖文轉視頻技術(VidPress)。
  • 百度大腦產品上新&技術升級:圖像處理、智能寫作平臺、語音識別
    百度大腦一月一次的最新技術&產品盤點來了。在這裡,與百度大腦一起成長,見證 AI 的力量。您可以從 PC 端訪問百度 AI 開放平臺(ai.baidu.com)申請邀測,或使用最新產品。新開放 AI 技術能力語音識別語音識別極速版支持60秒內音頻使用 REST API 方式進行調用,簡單易用。
  • 百度大腦論壇如期而至,語音、視覺、語言與知識技術成熱點
    作為首位出場嘉賓,百度 CTO 王海峰博士表示,在上午,大家看到了百度 AI 技術在各行各業的應用,如小度音響、自動駕駛,這些都承載在全新升級的百度大腦 5.0 上,上午只是管中窺豹,不足以看到所有技術進展。這場論壇將從算力到平臺再到生態,為在場觀眾帶來百度大腦的更詳細解讀。
  • 百度大腦圖文轉視頻大幅提升製作效率 多樣內容形式一鍵轉化
    1月13日,百度AI官方視頻號發布了一條特殊的視頻——《百度研究院2021年十大科技趨勢預測》,該視頻完全由AI自動剪輯生成,製作者只需一鍵輸入新聞連結即可生成視頻。其中,起到關鍵支撐的是百度大腦圖文轉視頻技術(VidPress)。此前,該技術也已應用於人民日報對外推出的「人民日報創作大腦」產品。
  • YouTube玩轉的自動字幕,為什麼被國內視頻網站「主動錯過」?
    通過添加如鈴聲、狗叫聲、敲門聲等音效字幕,也正是出於改善聾啞或聽障人士的觀看體驗而進行的技術改進。這樣一項出於社會責任感和用戶公平體驗的技術,也帶來了額外的市場推廣價值。隨著自動字幕可以識別的語種的增加,以及自動翻譯功能的加入,這一項技術成為一項全球用戶都可以受益的功能。
  • 百度大腦首場開放日:AI已經滲透到了產業的毛細血管
    嫌棄滑鼠的功能太雞肋,有開發者集成百度的語音識別和合成技術、翻譯技術 ,打造了智能語音滑鼠,語音輸入速度可以達到每分鐘400字,比傳統鍵盤輸入提升了兩倍,並且支持28種語言的翻譯;還有開發者為了方便控制跑步機,使用百度大腦的語音識別和UNIT技術,開發了可語音控制的跑步機,動動嘴就可以切歌、速度控制、模式變換等,據說月銷量已經高達一萬臺以上
  • AI晶片、框架、語言與知識、量子計算……百度大腦6.0發布
    百度大腦分論壇帶來這些「黑科技」的全面揭秘,展示了百度大腦的技術升級與演進。百度CTO王海峰發布了百度大腦6.0,升級為「AI新型基礎設施」。「知識增強的跨模態深度語義理解」讓百度大腦的理解能力更加強大,飛槳深度學習平臺與百度崑崙晶片的升級則為開發者提供了更優的算法開發平臺和更強大的算力。
  • 2019百度AI開發者大會前夕,解讀百度大腦的半年「豹變」
    2016年,百度大腦系統亮相,在最近幾年的時間裡,百度大腦從基礎能力搭建和核心技術初步開放的1.0階段,到形成完整技術體系的2.0階段,再到去年百度開發者大會宣布百度大腦進入「多模態深度語義理解」階段,進化速度堪稱驚人。在今年上半年,百度大腦在技術創新上繼續加速,語音、圖像、語言和知識、深度學習等多個核心技術不斷獲得重大突破,持續「豹變」。
  • 日均調用量超100億次 百度大腦正在用語音喚醒一個AI時代
    在當天舉行的百度大腦語音能力引擎論壇上,百度大腦語音引擎全新發布和升級了14大產品內容,包括基於百度鴻鵠語音晶片的4款硬體模組、開發板及3大場景解決方案,升級了語音自訓練平臺、呼叫中心語音解決方案等。來自家電、農業、醫療等行業的合作夥伴代表也在現場分享了百度大腦語音技術賦能的成果。
  • 李彥宏談「百度大腦」語音合成功能:可根據個人需求定製
    李彥宏現場展示運用情感語音合成技術還原張國榮聲音視頻中國網財經9月1日訊(記者 劉小菲)2016百度世界大會今日在北京召開。百度董事長兼執行長李彥宏親臨現場並發表主題演講。李彥宏在現場揭秘了基於人工智慧技術打造的「百度大腦」,李彥宏稱,「百度大腦」不僅擁有語音識別功能,還具有另一種語音能力——語音合成。值得一提的是,這種語音合成可以根據個人需求進行定製,形成自然發聲的能力,模擬任何一個你喜歡的人的說話方式。
  • 從語音、視覺、語義到算法,百度大腦 5.0 全方位升級
    2019 年 7 月 3 日下午,百度 AI 開發者大會的百度大腦分論壇舉行。在上午的主論壇上,百度首席技術官王海峰正式發布百度大腦5.0。百度大腦 5.0 在算法突破、計算架構升級的基礎上,實現AI算法、計算架構和應用場景的融合創新,成為軟硬一體AI大生產平臺。下午百度大腦分論壇上,相關業務負責人分別詳細介紹百度大腦各能力具體的進展。
  • 你們要的日文ai字幕來了,谷歌瀏覽器VS小白瀏覽器
    2020年初,科技巨頭谷歌發布會宣布在谷歌瀏覽器增加實時字幕的功能,為聽障用戶帶來更良好的體驗。接著小白瀏覽器也推出不同的實時字幕功能。那麼今天我們就市場上唯二的兩款有人工智慧AI字幕的瀏覽器拿出來看看誰的效果會更好。由於谷歌目前僅支持英文AI字幕,今天我們將使用英文視頻進行對比測試。後面一點再來測試日文AI字幕。
  • 怎樣自動翻譯英文視頻並添加字幕?
    ,可以利用它的這個特性,為自己的視頻添加字幕我們可以在Youtube Studio中上傳私享視頻,視頻上傳後等待一段時間,Youtube就會自動生成英文字幕了,你可以直接用英文字幕,或者翻譯成中文或者其他的語言。
  • 為什麼中國觀眾愛「原聲加字幕」|大象公會
    英文社交媒體上常有迷惑的父母發問:為什麼我的孩子看劇的時候都要打開字幕? 這些影視輸出大國的老觀眾,在電影院一向只看沒有字幕的母語電影,很難理解年輕人觀看英語劇集也要打開英文字幕的行為。 這一現象還引起了教育研究者的關注。2015年美國俄勒岡州立大學與傳媒公司3Play Media 調研了2500 名學生,調研對象包括聽力正常和聽障學生。
  • AI 如何成為百度翻譯 DAU 高速增長的引擎?
    2010 年代,隨著深度神經網絡在圖像、語音領域的突破,以 Google、百度、微軟為代表的科技巨頭,開始將神經網絡引入機器翻譯系統中,無論是在實驗室還是工業落地的產品上,都取得非常不錯的結果,由此也將機器翻譯帶入到神經網絡翻譯的新時代。