科技改變生活將會貫穿科技發展的整個過程,不同的技術會給生活帶來不同程度的變化,並且不同的群體在相同的時間也會感受到不一樣的變化。如今,不少人正在期待VR和AR技術帶來的不一樣的視覺體驗以及AI技術帶來的便利生活。但對於部分特殊人群而言,他們因為聽說看的障礙離科技有著遙遠的距離。
不過,國內外的科技巨頭們都在努力通過無障礙科技改變他們的世界。更讓人興奮的是,騰訊和Facebook已經用上了AI技術,這將有何不一樣?
科技巨頭們跨越兩個時代的無障礙科技
在手機成為人們活中不可缺少的一部分之前,PC的普及改變了我們獲取信息、工作和生活的方式。Windows作為全球使用最廣泛的PC作業系統,微軟也早已在系統中加入了不少針對視覺、顏色識別、聽覺、讀寫能力等人群的輔助功能,主要是為鍵盤交互和屏幕閱器提供支持,為用戶自定義(如文字、縮放設置、顏色和高對比度)提供支持,為UI某些部分提供替換選項或候補選項。
最新的作業系統Windows10中,微軟針對視覺障礙人群有屏幕閱讀器、高對比度主題、放大器等功能;聽力障礙的人群可以藉助字幕了解試聽媒體內容;行動障礙人群可以通過語音識別技術來解決使用問題。體驗方面,從微軟展示的視頻看,語音對屏幕內容的描述速度對視覺障礙的用戶可能有些快,對沒有視覺障礙的人來說描述有顯得有些簡單。
移動網際網路時代,Android和iOS統治著市場,因此谷歌和蘋果也都在自家的系統中加入了輔助功能。Android的無障礙功能有屏幕閱讀器,通過觸目和語音反饋實現與設備的互動;還有顯示的更改設置,包括字體大小、放大功能以及顯示的對比度和顏色;互動控制項則是藉助語音打開應用和進行導航及修改文字;還可以通過藍牙將可刷新的盲文顯示屏連接到Android設備;也能為Android設備開啟字幕顯示功能及指定的字幕。當然,基於原生Android系統的無障礙功能,手機廠商和OEM也能再做無障礙功能的改進和創新。
有意思的是,iPhone上的無障礙功能曾被廣泛使用。由於早期iPhone Home鍵容易發生失靈的情況,不少iPhone用戶都開啟了輔助功能中的AssistiveTouch,這其實是蘋果為有肢體障礙的人群設計的功能,也是蘋果多個的無障礙功能之一。據雷鋒網了解,蘋果在iOS系統中加入針對殘障人群的功能可以追溯到2009年iPhone 3GS中的顏色反轉,後來系統中又增加了專門為視障人士開發的屏幕閱讀技術VoiceOver、放大鏡等功能。如今的iOS系統針對視力、聽力、肢體與活動能力、學習與讀寫能力有障礙的人群都加入了輔助功能。
我們知道,蘋果在PC、移動領域都取得了不錯的成績,所以除了iOS系統,蘋果PC使用的macOS系統中也包含屏幕和光標放大、全功能屏幕閱讀器、可視閃爍提醒、隱藏式字幕支持等輔助功能。還有值得一提的是,除了軟體方面的設計,蘋果在iPhone7和Apple Watch中內置了Taptic引擎,通過振動向用戶提供觸覺反饋,這一設計結合Watch OS 3.0能為視覺障礙用戶報時。
社交巨頭融合AI的無障礙技術
可以看到,微軟、谷歌、蘋果都在自家系統中增加了輔助功能,為的是人數佔比不大的殘障人士也能享受到科技帶來的便利,這些系統中的無障礙技術有諸多相似之處也各有一些差異,體驗也存在差別。
當然,僅有系統層面的無障礙技術還遠遠不夠,不同的應用想要實現更好的體驗需要更有針對性的無障礙技術。值得注意的是,雷鋒網發現美國科技巨頭Facebook和中國社交巨頭騰訊都是率先將AI技術融入到無障礙科技的公司。
Facebook在打造的是無障礙環境的過程中,除了在應用上兼容不同系統的無障礙功能,Facebook還將反饋融入AI系統,讓視覺障礙的人群也能「讀懂」照片內容。Facebook希望藉助自家的Automatic Alt-Text (AAT)技術,讓屏幕閱讀器用戶也能夠理解新聞推送中大部分甚至全部的圖像內容。
國內的社交巨頭騰訊同樣也在兼容PC和手機設備系統的基礎上,用AI技術幫助視障用戶「看到」圖片,破除他們的社交障礙。據悉,在QQ空間獨立版7.7安卓版的新功能中,有一個是用AI技術對圖片進行描述並自動朗讀。具體來說,使用安卓系統的視障用戶可以在QQ空間APP點擊圖片,讀屏軟體會朗讀出AI生成的一句圖片描述,藉助科技可以「看到」網友分享的圖片,更深層參與到社交場景中。
QQ空間無障礙版本「圖片語音即時描述功能」
雷鋒網了解到,具備上述功能的QQ空間APP融入了來自騰訊AI Lab的圖像描述生成技術,這項技術是騰訊AI Lab自主研發的強化學習算法,在國際頂級大賽MS COCO的該類別挑戰賽上排名第一,超越微軟和谷歌等公司。
或許在沒有視覺障礙的人群看來這個技術不夠「黑科技」,但從學術研究的角度來看,圖像描述生成的研究不僅僅需要理解圖像,更需要理解自然語言,這是一個跨學科跨模態的交叉研究課題,也是對深度神經網絡的學習能力向多個數據域擴展的一步重要的探索。
騰訊 AI Lab 研發了新的強化學習算法(Reinforcement Learning)以進一步提高圖像描述生成的模型能力(原理如圖),相應的圖像描述生成模型,採用了編碼器-解碼器(encoder-decoder)的框架,同時引入了注意力(attention)的機制。在解碼的過程中,AI Lab 創新性地使用了多階段的注意力機制,除了引入多階段的注意力機制,AI Lab 所研發的強化學習算法能進一步提升構建的網絡模型的訓練效果,另外,針對此不可微的問題,AI Lab 使用強化學習算法訓練網絡模型以優化這些衡量指標。
圖像描述生成(image captioning)
除了圖片描述,QQ還和優圖團隊合作推出了OCR圖片文字提取功能。具體來說,只要打開手機QQ,長按對話框中的圖片選擇「提取圖中文字」,或是點擊「掃一掃」中的「文字提取」,就可以將圖片上的文字內容智能識別成為可編輯的文本,讓視障用戶可以很方便地提取好友發的圖片上的文字。同時,OCR圖片文字提取功能可以實現多場景應用落地,幫助視覺障礙用戶閱讀書籍、食品、藥品說明書等。
OCR圖片文字提取功能的背後是優圖實驗室世界領先的深度學習技術,它可以在任意版面下識別出整圖的文字,包括中英文、字母、數字、標點等共1000種標籤,並覆蓋到數十種字體,滿足生活中大部分場景的讀圖識字需求。
手機QQ OCR識別功能
在AI技術的加持下,視障用戶的社交痛點正在被解決。一位體驗了QQ空間自動識別圖片後「說出」文字描述的視障用戶說:「醫學不能讓我們復明,但或許科技可以。」另外,一位湖南視障用戶因為讀屏軟體讀取QQ表情為空信息而困擾,為此手機QQ開發出表情讀取功能讓他不僅能與外界順暢溝通也能用表情表達內心的想法。雷鋒網認為,隨著AI技術的加持,未來QQ將能夠更生動地讀取更多的表情包,讓視障人群能夠更好地使用表情包。
QQ表情讀取
用無障礙技術改變世界
騰訊用AI技術讓更多的視障用戶能夠更容易地進行社交,其實早在2009年騰訊就開始關注視障用戶使用情況,在PC中推動無障礙技術的改造,使QQ成為國內盲人群體最主要的網絡社交平臺。2013年,手機QQ作為國內首批支持無障礙特性的APP。2014年1月,騰訊公益慈善基金與致力推動信息無障礙的NGO一起組建了「視障信息無障礙工程師」團隊。
2017年,手機QQ共適配1934個無障礙特性,技術上推出OCR圖片文字提取功能、QQ表情讀取、安卓平臺安全支付、聲紋加好友、有效識別多條連結等無障礙功能。2018年3月,在中國殘疾人聯合會、中國盲人協會、中國網際網路協會信息無障礙工作委員會的支持下,QQ空間啟動「無障礙AI技術」對外開放項目,通過「多媒體AI平臺」小程序上的「無障礙AI」入口,首批開放包括OCR文字識別、語音合成、圖片轉語音三大無障礙AI 技術。
目前,騰訊旗下的QQ、QQ空間、微信、騰訊網、騰訊新聞、應用寶、企鵝FM等大部分產品已針對殘障用戶實現專門優化。值得一提的是,QQ和QQ空間相關功能在2018年使用量超過1.6億次,已經成為國內視障群體最主要的網絡社交平臺。
騰訊在這一領域的持續付出也得到了認可,法國當地時間2018年12月3日,聯合國教科文組織(UNESCO)在巴黎頒發「數位技術增強殘疾人權能獎」,該獎項表彰「促進殘疾人包容發展,通過數位技術為殘疾人生活創造合理便利條件做出傑出貢獻」的個人和組織。需要指出的是,騰訊是亞洲首個獲獎的組織,也是全球範圍內首家獲獎的企業。
雷鋒網小結
殘障人群數量只佔全球人口總數的很小比例,但是我們欣慰的看到無論是主宰PC時代的Windows系統還是統治手機時代的Android和iOS都為殘障人群增加了輔助功能,社交巨頭騰訊和Facebook更是率先將AI技術應用到自家的產品中,提升殘障人士的使用體驗,破除他們的社交障礙,讓所有人都能感受到科技改變生活,更是科技巨頭們用技術改變世界的一個舉動。
現在,我們不僅看到有越來越多公司的產品開始加入針對殘障人群的設計,也看到了騰訊早在2009年就開始關注視障用戶,希望用極致的產品體驗滿足所有人的社交需求,並且這個努力也得到了聯合國教科文組織的認可。