YOLOv5的妙用:學習手語,幫助聽力障礙群體

2020-12-25 澎湃新聞

選自Medium

作者：David Lee

機器之心編譯

編輯：魔王、杜偉

計算機視覺可以學習美式手語，進而幫助聽力障礙群體嗎？數據科學家 David Lee 用一個項目給出了答案。

如果聽不到了，你會怎麼辦？如果只能用手語交流呢？

當對方無法理解你時，即使像訂餐、討論財務事項，甚至和朋友家人對話這樣簡單的事情也可能令你氣餒。

對普通人而言輕輕鬆鬆的事情對於聽障群體可能是很困難的，他們甚至還會因此遭到歧視。在很多場景下，他們無法獲取合格的翻譯服務，從而導致失業、社會隔絕和公共衛生問題。

為了讓更多人聽到聽障群體的聲音，數據科學家 David Lee 嘗試利用數據科學項目來解決這一問題：

計算機視覺可以學習美式手語，進而幫助聽力障礙群體嗎？

如果通過機器學習應用可以精確地翻譯美式手語，即使從最基礎的字母表開始，我們也能向著為聽力障礙群體提供更多的便利和教育資源前進一步。

數據和項目介紹

出於多種原因，David Lee 決定創建一個原始圖像數據集。首先，基於行動裝置或攝像頭設置想要的環境，需要的解析度一般是 720p 或 1080p。現有的幾個數據集解析度較低，而且很多不包括字母「J」和「Z」，因為這兩個字母需要一些動作才能完成。

為此，David Lee 在社交平臺上發送了手語圖像數據收集請求，介紹了這個項目和如何提交手語圖像的說明，希望藉此提高大家的認識並收集數據。

項目地址：https://github.com/insigh1/GA_Data_Science_Capstone

數據變形和過採樣

David Lee 為該項目收集了 720 張圖片，其中還有幾張是他自己的手部圖像。由於這個數據集規模較小，於是 David 使用 labelImg 軟體手動進行邊界框標記，設置變換函數的概率以基於同一張圖像創建多個實例，每個實例上的邊界框有所不同。

下圖展示了數據增強示例：

經過數據增強後，該數據集的規模從 720 張圖像擴展到 18,000 張圖像。

建模

David 選擇使用 YOLOv5 進行建模。將數據集中 90% 的圖像用作訓練數據，10% 的圖像用作驗證集。使用遷移學習和 YOLOv5m 預訓練權重訓練 300 個 epoch。

在驗證集上成功創建具備標籤和預測置信度的新邊界框。

由於損失值並未出現增長，表明模型未過擬合，因此該模型或許可以訓練更多輪次。

模型最終獲得了 85.27% 的 mAP@.5:.95 分數。

圖像推斷測試

David 額外收集了他兒子的手部圖像數據作為測試集。事實上，還沒有兒童手部圖像用於訓練該模型。理想情況下，再多幾張圖像有助於展示模型的性能，但這只是個開始。

26 個字母中，有 4 個沒有預測結果（分別是 G、H、J 和 Z）。

四個沒有得到準確預測：

D 被預測為 F；

E 被預測為 T；

P 被預測為 Q；

R 被預測為 U。

視頻推斷測試

即使只有幾個手部圖像用於訓練，模型仍能在如此小的數據集上展現不錯的性能，而且還能以一定的速度提供優秀的預測結果，這一結果表現出了很大的潛力。

更多數據有助於創建可在多種新環境中使用的模型。

如以上視頻所示，即使字母有一部分出框了，模型仍能給出不錯的預測結果。最令人驚訝的是，字母 J 和 Z 也得到了準確識別。

其他測試

David 還執行了其他一些測試，例如：

左手手語測試

幾乎所有原始圖像都顯示的是右手，但 David 驚喜地發現數據增強在這裡起到了作用，因為有 50% 的可能性是針對左手用戶進行水平翻轉。

兒童手語測試

David 兒子的手語數據未被用於訓練集，但模型對此仍有不錯的預測。

多實例

儘管手語的使用和視頻中有所不同，但這個示例表明當多個人出現在屏幕上時，模型可以分辨出不止一個手語實例。

模型局限性

David 發現，該模型還有一些地方有待改進。

距離

許多原始圖像是用手機拍攝的，手到攝像頭的距離比較近，這對遠距離推斷有一定負面影響。

新環境

這支視頻來自於志願者，未用於模型訓練。儘管模型看到過很多字母，但對此的預測置信度較低，還有一些錯誤分類。

背景推斷

該測試旨在驗證不同的背景會影響模型的性能。

結論

這個項目表明：計算機視覺可用於幫助聽力障礙群體獲取更多便利和教育資源！

該模型在僅使用小型數據集的情況下仍能取得不錯的性能。即使對於不同環境中的不同手部，模型也能實現良好的檢測結果。而且一些局限性是可以通過更多訓練數據得到解決的。經過調整和數據集的擴大，該模型或許可以擴展到美式手語字母表以外的場景。

資源

Yolov5 GitHub 項目：https://github.com/ultralytics/yolov5

Yolov5 requirements：https://github.com/ultralytics/yolov5/blob/master/requirements.txt

Cudnn 安裝指南：https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

OpenCV 安裝指南：https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8

Roboflow 增強流程：https://docs.roboflow.com/image-transformations/image-augmentation

常用圖像數據增強技術綜述論文：https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3

Pillow 庫：https://pillow.readthedocs.io/en/latest/handbook/index.html

labelImg：https://github.com/tzutalin/labelImg

Albumentations 庫：https://github.com/albumentations-team/albumentations

原文連結：https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614

原標題：《YOLOv5的妙用：學習手語，幫助聽力障礙群體》

閱讀原文

相關焦點

yolov5實戰之皮卡丘檢測

記得之前在剛接觸的時候看到博客中寫到，深度學習分三個層次，第一個層次是分類，第二個層次是檢測，第三個層次是分割。人臉識別算是分類問題，也就是一直在第一個層次···一直都想有機會了解下第二個層次，奈何精力有限，工作中也沒有實際的項目需要。最近正好有個不急的檢測項目，趁此機會入門檢測吧。工作中聽同事提到yolov5效果不錯，而且文檔指導也比較豐富，因此選擇從此入手，順便也熟悉下pytorch。
深度學習第31講:目標檢測算法經典論文研讀之 yolo v2/yolo 9000

在論文中，作者在 yolo v1 的基礎之上提出了多條改進方案並通過了實驗驗證使得 yolo 網絡的檢測效果更好、更快和更強。這便是 yolo v2 檢測網絡。那為什麼論文的題目叫 yolo 9000 呢？
深入淺出的Yolov5核心基礎知識完整講解

但既然稱之為Yolov5，也有很多非常不錯的地方值得我們學習。因此本文，大白主要對Yolov5四種網絡結構的各個細節做一個深入淺出的分析總結，和大家一些探討學習。而yolov5m的Focus結構中的卷積操作使用了48個卷積核，因此Focus結構後的特徵圖變成304*304*48。yolov5l，yolov5x也是同樣的原理。b.
一文看懂YOLOv5(含網絡結構)

的基礎系列，如果你想進一步學習YOLOV5，可以關注公眾號即將發布的YOLOV5後續文章！但既然稱之為Yolov5，也有很多非常不錯的地方值得我們學習。不過因為Yolov5的網絡結構和Yolov3、Yolov4相比，不好可視化，導致很多同學看Yolov5看的雲裡霧裡。因此本文，大白主要對Yolov5四種網絡結構的各個細節做一個深入淺出的分析總結，和大家一些探討學習。
東北大學學生研發手語識別系統實現與聽力障礙者無障礙交流

手語雙向交互系統使用示意圖。5月17日至18日，2018「未來力大會」大學生社會創新大賽全國賽於在上海舉行，東北大學的「妙手回聲」項目榮獲創行中國科創冠軍賽全國總冠軍。「我們研發的手語雙向交互系統為聽力障礙者架起一座與世界溝通的橋梁，用一雙妙手化無聲為有聲。」項目指導教師、東北大學機器人科學與工程學院王斐副教授說。
PP-YOLO超越YOLOv4-目標檢測的進步

https://blog.roboflow.ai/training-yolov4-on-a-custom-dataset/然後，就在幾個月前，YOLOv5被發布了。YOLOv5採用了Darknet（基於C）的訓練環境，並將網絡轉換為Pytorch。
YOLOv5在建築工地中安全帽佩戴檢測的應用(已開源+數據集)

該項目使用了YOLOv5s、YOLOv5m、YOLOv5l來訓練安全帽佩戴檢測數據集，代碼和權重均已開源！安全帽佩戴檢測數據集也是開源的（共含7581 張圖像）！項目教程也相當詳細，推薦入門練手學習！而且有意思的是，該項目和數據集的兩位作者均是中國人，點讚！
YOLO v5 實現目標檢測(參考數據集&自製數據集)

/yolov5s.pt這行命令其實就是進行模型的測試/推斷了，測試的圖片就是前面講的inference目錄下的圖片，使用的權重數據就是剛才下載的yolov5s.pt，而推斷後的輸出圖片存放在inference/output/中。
什麼樣的工作適合我們聽力障礙者?

聽力障礙者在就業過程中，存在的困難歸結起來，主要有：溝通困難是聽力障礙者就業中存在的最大問題聽力障礙者中，大多數是有口不能說、有耳聽不到聲音。由於聽力、語言的障礙，他們中的大多數使用的是手語。目前手語的普及率很低，所以溝通困難是制約聽力障礙者發展的極大障礙。社會對聽力障礙者認識不夠由於聽力的障礙，他們一直生活學習在一個較為封閉的環境中，導致社會對聽力障礙者的認識不足。主要表現為：一、認為聽力障礙者什麼也不會。
YOLOv5 對決 Faster RCNN,誰贏誰輸?

YOLOv5 在深度學習社區炒得沸沸揚揚。最近有篇博文是如此介紹 YOLOv5 的：它是最先進的目標檢測，FPS 高達 140。
上海靠譜手語翻譯僅有30餘人代表:應加快手語翻譯隊伍建設

原標題：本市靠譜手語翻譯僅有30餘人，工作日更是一翻難求，手語翻譯都去哪兒了？對聽力障礙者來說，手語翻譯往往會伴隨他們的一生，是他們與他人交往的重要紐帶。「在上海，大約有23萬聽力障礙人士，其中約一半靠手語與人溝通。
手語學習要點

手語是在聾人環境中使用手的指式、動作、位置和朝向，配合面部表情，按照一定的語法規則來表達特定意思的交際工具。與有聲語言不同，手語是有形態無聲音的直觀語言。手語可以作為聾人自然習得的和聾人交際的第一語言，也可以成為學語後耳聾的和聽力正常的人學習的第二語言或外語。
手語課堂|手語無聲勝有聲

手語是用手勢比量動作，根據手勢的變化模擬形象或者音節以構成的一定意思或詞語，它是聽力障礙或者無法言語的人互相交際和交流思想的一種手的語言，它是「
面帶微笑發出手勢「你好」,這家手語門店很暖心

店外遮陽傘及門框上有手語標誌，店內隨處可見手語指示牌，從點單到出飲品都可以安靜而有愛……今天上午，星巴克北京首家手語門店在西鐵營萬達廣場開業，7名聽力障礙殘疾人在此就業，向顧客發出「無聲」邀請。進入門店，正對面的商品牆上方是一段手語門店的介紹——這是一家「安靜的」星巴克門店。與其他店那一聲熟悉的「Hello」不同的是，服務員會面帶微笑發出手勢「你好」。在手衝吧檯處，門店還設置了每周手語課堂教學板，介紹如「謝謝」、「勇敢」、「咖啡」等簡單的手語知識。
「學手語,架心橋」第九期手語培訓班順利開班授課

之後市聾協李夢江主席做簡短開班動員，要求學員一是要珍惜這次難得的培訓機會，認真學習手語這門技能，二是希望大家通過這次培訓學習，通過手語，更多地了解聾人朋友和他們的語言，給予他們理解和力所能及的幫助，三是希望培訓後的學員積極參加聾聽融合活動
學習手語的方法

4、聾孩子模仿手勢很快，看多了自然就會，能創造手勢和表達自己的意思，儘早和儘快與父母和其他人直接交流，早開發智力5、用手語講解能早輔導聾孩子識字和讀書6、適用範圍比較廣聾人怎樣向「聽力正常的人」看齊？4、獲得豐富的知識經驗 ---- 靠手語交流和大量閱讀5、掌握獨立生活的本領 (特別是其他聾人克服聽語殘疾的經驗)6、身心健康7、良好的人際關係
深度學習筆記 | 第7講:CNN目標檢測發家史之從R-CNN到yolo

又到了每周一狗熊會的深度學習時間了。在上一期的筆記分享中，小編和大家回歸了卷積神經網絡在圖像分類和識別方面的發展歷程，和大家梳理了經典的卷積網絡結構，了解了卷積網絡的發展脈絡，我們從上個世紀經典的 LeNet-5 網絡一直介紹到近年來的 ResNet。
實時翻譯軟體Transcense讓聽力障礙人士參與群聊

Transcense的一大亮點是，在多人群組聊天的場景下，實時將不同的人的語音信息轉化為文本，並且把每個人說話的文本標上不同的顏色，顯示給有聽力障礙用戶。比如在同一個房間的聚會中，只要參與聊天的每個人都開啟手機相應的APP和麥克風，群組中有聽力障礙的人士就可以通過閱讀文字知道大家都在討論什麼內容，同時還可以區分哪些人說了哪些話。而這一切翻譯都是實時進行的。
手語在荷蘭C位出道,背後的秘密是……

由Irma的傳神手語引發的「Irma效應」也隨之而來。隨著這名荷蘭手語翻譯的走紅，更多人注意到了手語，也開始將更多的目光投到殘障群體身上。譬如今年在荷蘭，愈來愈多的荷蘭準大學生願意學習手語翻譯。據官方數據顯示，烏特勒支應用科技大學今年入學手語翻譯的學生同比增加了 42%。而這一現象，只是「Irma效應」的冰山一角。
國際手語日 | 學習手語有什麼好處?

國際手語日是全球聽障人士和手語使用者的重大節日。這次決議不僅僅是宣傳和普及手語，宣導手語在聽障人士的地位，讓大家意識到早期使用手語和提供手語服務對聽障人士成長和發展的重要性。其實手語並不是聽障人士的專屬語言，大家都也可以學習手語，手語的普及和推廣前途很廣，它不僅用於言語表達上，還可以應用在詩歌和舞蹈上，比如大家熟悉的《感恩的心》，手語也能把詩歌表達的淋漓至盡。

YOLOv5的妙用:學習手語,幫助聽力障礙群體

相關焦點

yolov5實戰之皮卡丘檢測

深度學習第31講:目標檢測算法經典論文研讀之 yolo v2/yolo 9000

深入淺出的Yolov5核心基礎知識完整講解

一文看懂YOLOv5(含網絡結構)

東北大學學生研發手語識別系統 實現與聽力障礙者無障礙交流

PP-YOLO超越YOLOv4-目標檢測的進步

YOLOv5在建築工地中安全帽佩戴檢測的應用(已開源+數據集)

YOLO v5 實現目標檢測(參考數據集&自製數據集)

什麼樣的工作適合我們聽力障礙者?

YOLOv5 對決 Faster RCNN,誰贏誰輸?

上海靠譜手語翻譯僅有30餘人 代表:應加快手語翻譯隊伍建設

手語學習要點

手語課堂|手語無聲勝有聲

面帶微笑發出手勢「你好」,這家手語門店很暖心

「學手語,架心橋」第九期手語培訓班順利開班授課

學習手語的方法

深度學習筆記 | 第7講:CNN目標檢測發家史之從R-CNN到yolo

實時翻譯軟體Transcense讓聽力障礙人士參與群聊

手語在荷蘭C位出道,背後的秘密是……

國際手語日 | 學習手語有什麼好處?

東北大學學生研發手語識別系統實現與聽力障礙者無障礙交流

上海靠譜手語翻譯僅有30餘人代表:應加快手語翻譯隊伍建設