人工智慧實驗室 發表於 2020-11-18 10:54:16
微軟的一項新AI項目旨在自動為文檔和電子郵件中的圖像添加字幕,以便視覺障礙軟體讀取圖像。
微軟的研究人員在有關預印本存儲庫arXiv的論文中解釋了他們的機器學習模型的原理。
該模型使用可視語音詞彙預訓練(VIVO),它利用大量成對的圖像標籤數據來學習視覺詞彙。然後,使用帶有適當字幕的圖像的第二個數據以幫助教AI如何最好地描述圖片。
「理想情況下,每個人都應在文檔,網絡,社交媒體中為所有圖像添加替代文本,因為這可以使盲人訪問內容並參與對話。但是,可惜,人們卻沒有。」微軟AI平臺小組的軟體工程經理Saqib Shaikh說。
總體而言,研究人員希望AI能夠提供Microsoft現有字幕系統兩倍的性能。
為了對新AI的性能進行基準測試,研究人員將其納入了「無上限」挑戰。在撰寫本文時,Microsoft的AI現在在其排行榜上排名第一。
「無上限的挑戰實際上是如何描述您在訓練數據中沒有看到的那些新穎的物體?」微軟研究實驗室的首席研究經理王麗娟評論道。
希望使用Microsoft自動字幕AI來構建應用程式的開發人員已經可以這樣做,因為Azure Cognitive Services的Computer Vision軟體包中提供了該功能。
微軟令人印象深刻的SeeingAI應用程式將使用新的AI進行更新,該應用程式使用計算機視覺描述視力障礙者的周圍環境。
「圖像字幕是可以實現廣泛服務的核心計算機視覺功能之一,」Azure AI認知服務的CTO黃表示。
黃繼續說:「我們AI的這一突破以Azure為平臺,以服務於更多客戶。」 「這不僅是研究上的突破;在Azure上將突破轉化為生產所需的時間也是突破。」
改進的自動字幕功能也有望在今年晚些時候在Outlook,Word和PowerPoint中使用。
責任編輯:YYX
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴