今日課程:《量化交易策略實戰》今晚8點開課,文末「閱讀原文」進入
摘要: 圖像識別的新思路:眼睛縱橫比,看看大牛如果用這種思路玩轉識別眨眼動作!
今天我們來使用面部標誌和OpenCV 檢測和計算視頻流中的眨眼次數。為了構建我們的眨眼檢測器,我們將計算一個稱為眼睛縱橫比(EAR)的指標,由Soukupová和Čech在其2016年的論文「使用面部標誌實時眼睛眨眼檢測」中介紹。
今天介紹的這個方法與傳統的計算眨眼圖像處理方法是不同的,使用眼睛的長寬比是更為簡潔的解決方案,它涉及到基於眼睛的面部標誌之間的距離比例是一個非常簡單的計算。
用OpenCV,Python和dlib進行眼睛眨眼檢測
我們的眨眼檢測實驗分為四個部分:
第一步,我們將討論眼睛的縱橫比以及如何用它來確定一個人是否在給定的視頻幀中閃爍。
第二步,我們將編寫Python,OpenCV和dlib代碼來執行面部標誌檢測和檢測視頻流中的眨眼。
第三步,基於代碼,我們將應用我們的方法來檢測示例攝像頭流中的眨眼以及視頻文件。
最後,我將通過討論改進我們的眨眼檢測器的方法來結束。
1.了解「眼睛縱橫比」(EAR)
我們可以應用面部標誌檢測來定位臉部的重要區域,包括眼睛,眉毛,鼻子,耳朵和嘴巴:
這也意味著我們可以通過了解特定臉部的索引來提取特定的臉部結構:
在眨眼檢測方面,我們眼睛結構感興趣。
每隻眼睛由6個(x,y)坐標表示,從眼睛的左角開始,然後圍繞該區域的其餘部分順時針顯示:
基於這個描述,我們應該抓住重點:這些坐標的寬度和高度之間有一個關係。
Soukupová和Čech在其2016年的論文「使用面部標誌實時眼睛眨眼檢測」的工作,我們可以推導出反映這種關係的方程,稱為眼睛縱橫比(EAR):
其中p1,...,p6是2D面部地標位置。
這個方程的分子是計算垂直眼睛標誌之間的距離,而分母是計算水平眼睛標誌之間的距離,因為只有一組水平點,但是有兩組垂直點,所以進行加權分母。
為什麼這個方程如此有趣?
我們將會發現,眼睛的長寬比在眼睛張開的時候大致是恆定的,但是在發生眨眼時會迅速下降到零。
使用這個簡單的方程,我們可以避免使用圖像處理技術,簡單地依靠眼睛地標距離的比例來確定一個人是否眨眼。
為了更清楚地說明,看下面的圖:
在底部圖中繪出了眼縱橫比隨時間的視頻剪輯的曲線圖。正如我們所看到的,眼睛縱橫比是恆定的,然後迅速下降到接近零,然後再增加,表明一個單一的眨眼已經發生。
2.用面部標誌和OpenCV檢測眨眼(代碼篇)
請打開一個新文件並將其命名為detect_blinks.py。插入以下代碼:
要訪問磁碟上的視頻文件(FileVideoStream)或內置的網絡攝像頭/ USB攝像頭/Raspberry Pi攝像頭模塊(VideoStream),我們需要使用imutils庫,它可以使OpenCV更容易工作。
如果您的系統上沒有安裝 imutils,請確保使用以下命令安裝/升級:
pip install --upgrade imutils
注意:如果您正在使用Python虛擬環境,請確保使用 workon命令首先訪問您的虛擬環境,然後安裝/升級 imutils。
例外的是dlib庫,如果您的系統上沒有安裝dlib,請按照我的dlib安裝教程配置您的機器。
接下來,我們將定義eye_aspect_ratio函數:
def eye_aspect_ratio(eye): # compute the euclidean distances between the two sets of # vertical eye landmarks (x, y)-coordinates A = dist.euclidean(eye[1], eye[5]) B = dist.euclidean(eye[2], eye[4]) # compute the euclidean distance between the horizontal # eye landmark (x, y)-coordinates C = dist.euclidean(eye[0], eye[3]) # compute the eye aspect ratio ear = (A + B) / (2.0 * C) # return the eye aspect ratio return ear
這個函數接受單一的參數,即給定的眼睛面部標誌的(x,y)坐標 。
A,B是計算兩組垂直眼睛標誌之間的距離,而C是計算水平眼睛標誌之間的距離。
最後,將分子和分母相結合,得出最終的眼睛縱橫比。然後將眼圖長寬比返回給調用函數。
讓我們繼續解析我們的命令行參數:
detect_blinks.py腳本需要一個命令行參數,然後第二個是可選的參數:
1.--shape-predictor:這是dlib的預訓練面部標誌檢測器的路徑。
2.--video:它控制駐留在磁碟上的輸入視頻文件的路徑。如果您想要使用實時視頻流,則需在執行腳本時省略此開關。
我們現在需要設置兩個重要的常量,您可能需要調整實現,並初始化其他兩個重要的變量。
當確定視頻流中是否發生眨眼時,我們需要計算眼睛的長寬比。
如果眼睛長寬比低於一定的閾值,然後超過閾值,那麼我們將記錄一個「眨眼」 -EYE_AR_THRESH是這個閾值,我們默認它的值為 0.3,您也可以為自己的應用程式調整它。另外,我們有一個重要的常量,EYE_AR_CONSEC_FRAME,這個值被設置為 3,表明眼睛長寬比小於3時,接著三個連續的幀一定發生眨眼動作。
同樣,取決於視頻的幀處理吞吐率,您可能需要提高或降低此數字以供您自己實施。
接著初始化兩個計數器,COUNTER是眼圖長寬比小於EYE_AR_THRESH的連續幀的總數,而 TOTAL則是腳本運行時發生的眨眼的總次數。
現在我們的輸入,命令行參數和常量都已經寫好了,接著可以初始化dlib的人臉檢測器和面部標誌檢測器:
dlib庫使用一個預先訓練的人臉檢測器,該檢測器基於對用於對象檢測的定向梯度直方圖+線性SVM方法的修改。然後,我們初始化的實際面部標誌預測值predictor。
您可以在本博客文章中了解更多關於dlib的面部標誌性探測器(即它是如何工作的,它在哪些數據集上進行了訓練等)。
由dlib生成的面部標記遵循可索引列表,正如我所描述的那樣:
因此,我們可以確定為下面的左眼和右眼提取(x,y)坐標的起始和結束數組切片索引值:
使用這些索引,我們將能夠毫不費力地提取眼部區域。
接下來,我們需要決定是否使用基於文件的視頻流或實時USB/網絡攝像頭/ Raspberry Pi攝像頭視頻流:
如果您使用的是文件視頻流,請保持原樣。
如果您想使用內置攝像頭或USB攝像頭,取消注釋:# vs = VideoStream(src=0).start()。
Raspberry Pi相機模塊,取消注釋:# vs = VideoStream(usePiCamera=True).start()。
如果您未注釋上述兩個,你可以取消注釋# fileStream = False以及以表明你是不是從磁碟讀取視頻文件。
最後,我們已經完成了我們腳本的主要循環:
# loop over frames from the video streamwhile True: # if this is a file video stream, then we need to check if # there any more frames left in the buffer to process if fileStream and not vs.more(): break # grab the frame from the threaded video file stream, resize # it, and convert it to grayscale # channels) frame = vs.read() frame = imutils.resize(frame, width=450) gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) # detect faces in the grayscale frame rects = detector(gray, 0)
在while處我們開始從視頻流循環幀。
如果我們正在訪問視頻文件流,並且視頻中沒有剩餘的幀,我們從循環中斷。
從我們的視頻流中讀取下一幀,然後調整大小並將其轉換為灰度。然後,我們通過dlib內置的人臉檢測器檢測灰度幀中的人臉。
我們現在需要遍歷幀中的每個面,然後對其中的每個面應用面部標誌檢測:
# loop over the face detectionsfor rect in rects: # determine the facial landmarks for the face region, then # convert the facial landmark (x, y)-coordinates to a NumPy # array shape = predictor(gray, rect) shape = face_utils.shape_to_np(shape) # extract the left and right eye coordinates, then use the # coordinates to compute the eye aspect ratio for both eyes leftEye = shape[lStart:lEnd] rightEye = shape[rStart:rEnd] leftEAR = eye_aspect_ratio(leftEye) rightEAR = eye_aspect_ratio(rightEye) # average the eye aspect ratio together for both eyes ear = (leftEAR + rightEAR) / 2.0
shape確定面部區域的面部標誌,接著將這些(x,y)坐標轉換成NumPy陣列。
使用我們之前在這個腳本中的數組切片技術,我們可以分別為左眼left eye和右眼提取(x,y)坐標,然後我們計算每隻眼睛的眼睛長寬比 。
下一個代碼塊簡單地處理可視化眼部區域的面部標誌:
# compute the convex hull for the left and right eye, then# visualize each of the eyesleftEyeHull = cv2.convexHull(leftEye)rightEyeHull = cv2.convexHull(rightEye)cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)
我們已經計算了我們的(平均的)眼睛長寬比,但是我們並沒有真正確定是否發生了眨眼,這在下一部分中將得到關注:
# check to see if the eye aspect ratio is below the blink# threshold, and if so, increment the blink frame counterif ear < EYE_AR_THRESH: COUNTER += 1# otherwise, the eye aspect ratio is not below the blink# thresholdelse:# if the eyes were closed for a sufficient number of# then increment the total number of blinksif COUNTER >= EYE_AR_CONSEC_FRAMES: TOTAL += 1# reset the eye frame counterCOUNTER = 0
第一步檢查眼睛縱橫比是否低於我們的眨眼閾值,如果是,我們遞增指示正在發生眨眼的連續幀數。否則,我們將處理眼高寬比不低於眨眼閾值的情況,我們對其進行檢查,看看是否有足夠數量的連續幀包含低於我們預先定義的閾值的眨眼率。如果檢查通過,我們增加總的閃爍次數。然後我們重新設置連續閃爍次數 COUNTER。
我們的最終代碼塊只是簡單地處理在輸出幀上繪製閃爍的次數,以及顯示當前的眼圖高寬比:
3.眨眼檢測結果
在執行之前,請務必使用本指南「下載」原始碼+示例視頻+預訓練的dlib面部標記預測器。
要將我們的眨眼檢測器應用於示例視頻,只需執行以下命令:
$python detect_blinks.py \
--shape-predictor shape_predictor_68_face_landmarks.dat \
--video blink_detection_demo.mp4
後來,在旅館裡,我記錄下了眨眼檢測器的實時流,並將其變成了屏幕錄像。
要訪問我的內置攝像頭,我執行了下面的命令(注意取消注釋正確的VideoStream類,如上所述):
4.改進我們的眨眼檢測器
我們只關注眼睛縱橫比作為定量指標,以確定一個人是否在視頻流中眨了眨眼睛。
為了使我們的眨眼檢測器更加強大的顯示中可能挑戰,Soukupová和Čech建議:為了改善我們的眨眼檢測器,Soukupová和Čech建議構建眼長寬比(第N幀,第 N-6 幀和第 N + 6幀)的13維特徵向量,然後將該特徵向量饋送到線性SVM分類。
★推薦閱讀★
量化交易入門(精華必讀版)
【286頁乾貨】一天搞懂深度學習
好文 | 基於深度學習的目標檢測技術演進
小白到大神,Python 密集知識點匯總
AI 經典書單 | 人工智慧學習該讀哪些書
各領域機器學習數據集匯總(附下載地址)