ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

2020-07-22 機器之心Pro

機器之心專欄

作者:陳潔珊

近日,來自澳大利亞國立大學等機構研究者,提出了一種名為 LabelDroid 的方法,幫助視障人士更輕鬆地使用智慧型手機。目前,該論文已獲得了第四十二屆國際軟體工程大會 ICSE 2020 的 ACM SIGSOFT 傑出論文獎。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

現在,一個人出門必備的物品是什麼?如果只能選擇一件,我會選擇手機。如果再加一件,那會是充電寶。

如今,智慧型手機已經成為我們生活中不可或缺的一部分。我們可以通過各式各樣的 APP 獲取服務,比如社交 / 購物 / 出行 / 閱讀 / 遊戲等等。對於大部分的普通用戶而言,使用智慧型手機是一件很輕鬆的事。然而,就是這樣一個簡單的操作,對於視障人群卻是困難重重。

根據世衛組織的報告,全世界範圍內的視障人群將近 13 億,其中更是包含 3.6 億的盲人。因此,在移動網際網路埠鋪好「盲道」,幫助視障人群暢通無礙地使用手機,正是人工智慧走進生活當口下的一項緊迫的研究。

早在此前,手機平臺便推出了自帶的屏幕閱讀器幫助視障人群更好地使用手機,比如安卓系統的 TalkBack,IOS 系統的 VoiceOver。用戶可以通過手勢滿足基本需求,隨著每次滑動,閱讀器便會播報相應的文字內容或功能描述。下面是安卓系統 TalkBack 的一個使用案例:

00:00/00:00倍速

從案例中可以看出,系統自帶的屏幕閱讀器可以輕鬆地播報文字內容,但是無法對所有圖像等非文字按鈕都做出正確有效的反應。這是為什麼呢?實際上,對於非文字按鈕,屏幕閱讀器會讀取源碼中的對應描述欄位並進行播報,這個欄位正是由開發人員設置的。如果開發人員沒有設置這個欄位,那麼屏幕閱讀器就只會播報 「Unlabeled」(未加標籤)欄位。

因此,儘管有屏幕閱讀器的支持,但只有當開發人員設置了對應欄位,屏幕閱讀器才能提取出有效的描述信息。

如下圖所示,開發人員通過源碼文件中 layout 對應的 xml 文件設置當前部件的 android:contentDescription 屬性,這個屬性的具體值通常會放在另一個資源文件 string.xml 當中。在案例中,開發者為「+」 按鈕設置了 「Add playlist」的描述。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

圖 2:設置圖形按鈕的描述欄位的源碼。

一個 APP 的非文字按鈕可能會高達十個二十多個,只要缺少任何一個欄位,便會影響視障人群的使用,便無法讓屏幕閱讀器發揮應有的作用。許多平臺都相應推出了 Accessibility Guideline 來幫助開發者設置簡短且準確的描述。但據研究表明,大部分開發者似乎並沒有意識到這些 Guideline 的存在和重要性。

儘管目前已有許多工具 (比如 Android Lint,Accessibility Scanner) 可以幫助開發者定位到 inaccessible 的情況,但是沒有任何一個工具可以直接解決這些問題。

本文將介紹一篇論文《Unblind Your Apps: Predicting Natural-Language Labels for Mobile GUI Components by Deep Learning》將為這個難題提供一份新的解決方案。該論文作者包括 陳潔珊 (ANU)、陳春陽 (Monash)、邢振昌 (ANU)、Xiwei Xu (Data61,CSIRO)、Liming Zhu (Data61,CSIRO)、Guoqiang Li (上海交大)和Jinshui Wang (福建工程學院) 。

該論文獲得了第四十二屆國際軟體工程大會 ICSE 2020 的 ACM SIGSOFT 傑出論文獎

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

論文地址:https://arxiv.org/abs/2003.00380

Github:https://github.com/chenjshnn/LabelDroid/

大數據探索現狀

論文從 Google Play 中爬取了 10,408 個安卓軟體來研究當今手機軟體的 Accessibility 情況。對於每個 App,論文使用自動工具探索並收集了軟體中的 UI 截圖跟對應的運行時的 xml 代碼文件。這個代碼文件包含了研究所需的信息,即每個 UI 內的所有部件的位置、類型和描述欄位。

表格 1 展示了現有的描述欄位缺失的統計數據。出人意料的是,研究結果表明有超過 77% 的 App 存在 Accessibility 問題(即至少有一個圖形按鈕缺乏描述欄位)。具體來說,更是有超過 60% 的 UI 存在問題。想像一下,當我們使用手機的時候,平均兩個界面就有一個界面存在至少一個我們不知道其功能的按鈕,這十分影響用戶體驗。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

表格 1:描述欄位缺失情況的統計數據。

接下來,論文進一步探索了不同類別軟體中,軟體缺失情況的分布。如圖 4 所示,確實對於一些類別(Personalization/Game/Photograph),超過 70% 的軟體都存在十分嚴重的缺失問題,至少有 80% 的非文字按鈕都沒有描述欄位。其他類別軟體的情況相對較好,但也仍有 30% 的軟體基本無法使用。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

圖 4:不同類別下軟體缺失率的分布。

那麼或許由於市場競爭激烈,很多軟體沒心思考慮到特殊群體。是否很有名氣的軟體就會關注 Accessibility 問題了呢?論文也研究了軟體下載量跟描述欄位缺失率的聯繫,然而結果顯示這兩者只有很弱的相關關係(相關係數 = 0.046),這表明 Accessibility 問題在更具名氣的軟體中也未得到解決。

如何打開視障人士智能新 「視」界?

為了解決上述問題,這篇論文提出了 LabelDroid。如圖 6 所示,這個方法包含三部分,一個卷積神經網絡(CNN)、 一個 Transformer 編碼器和一個 Transformer 解碼器。輸入一張圖形按鈕,通過 CNN 抽取圖像特徵,然後 Transformer 編碼器解析輸入特徵之間的關係。最後 Transformer 解碼器根據前面已生成的 token 以及來自解碼器的 Attention 進一步通過解析輸入輸出向量之間的關係,生成下一個 token 的概率分布。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

圖 6:方法概述。

實驗數據跟模型效果

實驗數據

論文獲取了 19233 對數據(非文字按鈕以及對應的描述欄位),其中 80%/10%/10% 分別作為訓練集、驗證集和測試集。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

正確性與實用性

在 1879 個測試數據中,LabelDroid 在每個指標上都比 baselines 的效果增長了 2%-11.3%,證明了模型的有效性。

此外,論文進行了一項用戶研究來評估 LabelDroid 是否可以生成比開發者更簡潔明了的描述,以及是否可以真的幫助到開發者。論文分別邀請了三名 phd 學生和研究者(A1,A2,A3)來為圖形按鈕寫描述,還邀請了一位資深職業安卓開發員來為這些描述打分。為了保證這個打分者的水平和客觀準確性,論文特意放入兩個明顯錯誤的描述和兩個合適的描述。

下圖 9 表明,該論文的方法確實可以生成更高質量的描述欄位,確實可以幫助開發者生成更加簡潔明了的描述。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

圖 9:每個標註員的根據 app 的平均得分分布。

開發者存在哪些問題?

表格 7 展示了一些用戶研究的例子。根據觀察,在四種情況下開發者寫的描述會得到很低的分數。第一種情況,有的開發者傾向於寫過長的冗餘的描述(E1-A1, E2-A1);有的開發者則反之使用過於簡短缺乏足夠信息的描述(E2-A2/A3);還有的開發者會寫一些摸稜兩可的描述(E4 – A2/3);最後,開發者有時候也會犯錯誤(E5 – A2/A3)。這些觀察證明了這些開發者缺失不知道如何添加簡潔明了的描述,而 LabelDroid 可以很好的幫助他們。

ICSE2020:ANU陳潔珊等人提LabelDroid,幫視障群體打開智能新視界

相關焦點

  • 全球無障礙宣傳日,有家特殊影院為視障群體講《流浪地球》
    中國青年報客戶端訊(中青報·中青網記者 沈傑群)日前,在第9個全球無障礙宣傳日到來之際,騰訊QQ與紅丹丹心目影院聯合舉辦「光影聽映室——為視障群體講電影」直播活動。在中國,每年都會製作上百部無障礙電影,通過公益項目為視障群體免費提供無障礙電影放映服務。在疫情期間線下放映無法持續的情況下,QQ和紅丹丹心目影院聯合上線了「光影聽映室」,通過QQ群中的「一起看」功能,讓視障QQ用戶能夠在任意群聊中自由進入觀看,打破了傳統影院的空間限制,為視障群體帶來線上無障礙觀影的享受。「科幻巨作,講解得很生動!」「進狀態了,還沒緩過來!」
  • 未見之花:視障朋友僅靠觸感和想像,會插出怎樣的花藝作品?
    未見之花:視障朋友僅靠觸感和想像,會插出怎樣的花藝作品? 2020-12-03 11:02 來源:澎湃新聞·澎湃號·湃客
  • 新工具使視障人士更容易瀏覽網頁
    研究人員開發了一種新的語音助手,可以讓有視覺障礙的人儘可能快速、輕鬆地從智能揚聲器和類似設備獲取網絡內容。
  • 中興Blade V9打開新視界 清晰記錄「美」一天
    該機準確地抓住了當下人們對視覺體驗無處不在的深度需求,用全新科技為用戶打開了一個更為清晰與精彩的「新視界」。中興V9配備了1600萬高像素鏡頭,採用F1.8大光圈,6P高透光鏡頭,使得成像解析力和對比度大幅度增強,徹底解決了在光線昏暗或者純粹拍夜色時力不從心的尷尬。實時虛化、AI光線均衡等黑科技,尤其AI暗光拍攝算法,可以自動適應不同光線場景,找尋光影間的平衡,保障照片所見即所得。
  • 荔枝主播用聲音記錄視障兒童的不凡人生
    在音頻平臺荔枝有一群特殊群體,他們雖身有殘疾卻在聲音世界裡找到了生命的光。2020荔枝年度盛典活動中年度勵志之聲的獲得者「用耳朵看世界」就是這樣用聲音追夢主播,他們將受邀出席2021年1月23日舉行的2020荔枝年度聲典線下頒獎晚會並表演精彩節目,以下是他們的故事:2018年冬天,恩琳和釗哥從佛山出發,一路北上,想去見見北京的雪。
  • 國內視障人士數量世界第一,盲人出行受阻卻被罵慘?
    智慧型手機的旁白、讀音功能,方便了很多盲人群體。但很多APP在設計上考慮不周,讓每一個模塊都是以圖片的形式呈現,導致旁白功能識別不出每一個模塊的名字。△ 圖源@盲探-小龍蛋那導盲犬呢?數據更驚人——目前國內持證上崗的導盲犬不足200隻。
  • 2020星際視界IPFSNEWS 究竟做了什麼?
    本文編輯:星際視界IPFSNEWS Sue原創文章轉載請聯繫後臺2020年我們深知自己的平安由無數人守護;2020年我們無數次希望時光能夠重啟;2020年屬於區塊鏈行業的故事,有悲有喜......2020年星際視界走過的點點滴滴最近給我們在做年終總結的時候,仿佛看到了時光的回溯,重新走了一次2020年。這張海報,可以很簡單的理解成過去的一年,我們星際視界走過的點點滴滴。在這個海報中,時間被具象化了。一切的一切都是可感可見的,就連有些我們在網際網路痕跡,也被大數據所記載,賦予了它歲月的證明。
  • FLIR機器視覺相機助力開啟人工智慧的新視界
    打開APP FLIR機器視覺相機助力開啟人工智慧的新視界 火花 發表於 2020-11-19 14:00:00 在2016年的時候加入FLIR公司,繼續在機器視覺、零售分析的智能成像和可見光譜相機方面提供更多的解決方案。 FLIR機器視覺 FLIR機器視覺攝像頭被應用於工業自動化系統、醫療診斷設備、人口計數系統、智能交通系統、軍事和國防產品以及高級測繪系統的先進可視成像相機和解決方案。
  • ——東北師大視障新生遇住宿難題...
    ——東北師大視障新生遇住宿難題追蹤  新華社「中國網事」記者 李雙溪  日前,高出一本線88分,被東北師範大學錄取的視障新生王寵,在入學報到時遇到難題。本以為考入大學後,可以住在大學宿舍開始集體生活,但學校卻通知他只能在校外租房。事件引發網友關注和討論。
  • 作業幫獲評「2020中國人工智慧領航企業TOP50」
    作為入選「2020中國人工智慧領航企業TOP50」的教育類企業,作業幫在技術創新層面,作業幫擁有多項尖端技術核心專利,在OCR文本識別、語音識別、語義識別等AI技術領域構建了牢固的技術壁壘。同時,覆蓋國內全學段、全學科所有版本教材的超3億海量題庫組成了作業幫強大的智能題庫體系,科學的體系劃分為老師的精準教學與學生的自適應學習提供了底層依託。
  • 為了「棉花糖」一樣的生活,失明的他們為700視障人士找到了工作
    在貴州,有這樣幾位視力殘疾但是又不願意向命運低頭的年輕人,他們自主開發了一個幫助視障人士就業的網絡平臺,為700多人找到工作。這個平臺的名字,最初叫「追光」,後來改名「棉花糖」,只因為,他們想通過這個平臺,讓視障人士過上像棉花糖一樣甜蜜,而又溫暖和包容的生活。
  • 推動群體智能的跨學科研究
    智能不僅是個體大腦中產生的東西,也可以產生於群體中。群體智能表現為一群個體以看似聰明的方式進行群體行動。根據這一定義,群體智能已存在很長時間。在經濟學、政治學、心理學等領域,不少研究者都研究過不同形式的群體智能。在過去的20年裡,一種新的群體智能出現了:相互關聯的群體和計算機,共同做著智能的事情。為理解這種新型群體智能的可能性和局限性,我們需要一個新的跨學科研究領域。
  • 智能搜索APP夸克獲評牛耳獎「年度最佳應用」
    12月26日,第十屆網際網路牛耳人人盛典上,阿里創新業務事業群旗下智能搜索APP夸克,以極簡、智能、精準的產品體驗,以及對下一代智能搜索的創新探索,榮膺「移動網際網路領域年度最佳應用」。面向不同群體,夸克也不斷推出創新的功能體驗。今年5月,針對視障人群上網體驗的諸多不便,夸克上線無障礙版本產品,前後修復完善了145個無障礙相關技術點,為數千視障人士提供無障礙信息服務。在2019年9月學生開學季期間,夸克與百餘家版權商達成合作,推出了電子書全文檢索功能,成為業內首家支持出版物全文檢索的中文搜尋引擎。
  • 科維理研究所參與的「事件視界望遠鏡」合作組獲2020年基礎物理學...
    」(EHT)合作組獲得2020年基礎物理學突破獎。這347位科學家是今年4月10日在《天體物理學報通信》發表的六篇文章「事件視界望遠鏡關於M87的首批成果」的署名作者,其中包括來自北京大學科維理天文與天體物理研究所的所長何子山教授和邵立晶研究員。在愛因斯坦的廣義相對論中,黑洞是宇宙中最引人入勝的神秘天體。黑洞是彎曲時空中因為引力場極強而導致任何物體都無法逃脫的奇特區域;物體無法逃脫的邊界稱為「事件視界」。
  • 作業幫喵喵機出大招:黃明昊成為首位品牌代言人
    日,作業幫智能創新硬體喵喵機宣布青年歌手黃明昊成為其代言人,並在雙十一期間推出黃明昊同款專屬限量版「喵」招禮盒。據了解,這是作業幫喵喵機首次邀請明星代言。作為K12智能教育硬體的代表,喵喵機旨在為學生提供定製化的錯題學習方案:通過作業幫2.5億海量題庫,學生可以精準定位原題及其多種解析方式,還能看到推薦的同類型題目,舉一反三
  • 事件視界還是表觀視界--中國數字科技館
    但潘石屹和任志強等人的一句話,卻會引起房產界的巨大波動。「灰洞」的邊界被稱為「表觀視界(Apparent Horizons)」,它只能暫時困住物質與光。簡而言之,霍金的新觀點就是黑洞不存在,這個超高密度的天體更像是灰洞。這個觀點極大地震動了國際物理界尤其是引力物理界,其造成的影響絕不亞於巴西隊1:7 負於德國隊,給世界足壇帶來的震撼。
  • 奏樂「不靠譜」,上海視障青少年樂隊獻演Blue Note
    「看不見」無法阻擋這些上海年輕人唱出內心的音樂 澎湃訊 2020-12-04 12:52 來源:澎湃新聞
  • 自我消除與群體智能
    群體智能表明,一切社會只有受到過預想的試驗和試錯才能得到最好的發展。「(最好的世界)是什麼」的問法顯然不是最準確的,即便是對於那些生來窮苦的人們來說也是如此。但「(最好的世界)可能是什麼」,即便如此提出,也從來沒有與生俱來的完美答案;而是需要通過經驗不斷地探索,打磨和重鑄。