卷積網絡是研究圖像分類的非常有效的方法,它能夠產生豐富的學習框架,能夠做很多複雜的預測。但是,在什麼情況下它非常有效呢?解決不同任務需要不同的方法。我們已經研究過人臉識別(single-identitydetection)。這是一個文字檢測和分割的任務,任務要求快速產生框架,而不是每秒鐘找到框架的每個像素。每次檢測框架都需要fasterr-cnn,需要計算卷積,網絡結構是knet,包括maxpooling,relu和stridedpooling。
然後經過全連接層和全連接層到隱藏層。最後經過一個residualnetwork卷積-池化層就產生一個文字框架(基於不同數據集的使用):使用fasterr-cnn和resnet的文字檢測和分割(最後部分全連接)圖像預處理經過上面的方法,基本已經看到結果了。但是,如果我們想要更好的目標分割,我們需要使用resnet-50的網絡結構。我們還可以增加一些尺度不同的錨框(使用全連接層),以獲得更好的精度,但是這個仍然是在全連接層中做的。
經過resnet-50,首先使用不同尺度的錨框和卷積網絡,接著是對所有尺度的錨框進行fullyconnected。(在此之前必須降採樣得到初始化的卷積層)從第一層到最後一層的時間複雜度和計算量由於深度卷積的計算量比較大,我們經常只使用全連接層。所以,一個直觀的想法是,實際上,我們使用了兩個隱藏層。所以,實際上是一個數據集:圖像預處理的效果圖。全連接層最後,因為網絡的深度已經超過了我們的計算能力和內存,我們採用卷積網絡來融合信息。所以,計算量很大,但是實際上,效果還不錯。卷積神經網絡(cnn)通常被定義為神經網絡的層次結構,也就是說,每一層有兩種功能,一種是定位,一種是分割。通常cnn的卷積層就是focalloss(也就是l2正則化),我們一般把它叫做「定位激活」,對不對?問我就對了。接下來看定位激活。定位激活怎麼計算呢?你覺得哪裡不對,它就給你生成另一個像素值,這個像素值。
所以,它一般會用鄰近的像素來判斷,鄰近像素一般是你「五官」的中心,然後這個中心會給你提取出來的類別(比如這張圖片中,人物在右邊,車就在左邊,所以你將車歸為人)。這個不難理解,一般來說,你看電影看小說,人物就只有五官。但是,有一點需要說明的是,雖然總共是兩層,但是如果我在第一層放一些有點像「眉毛」「鼻子」「眼睛」「嘴巴」「耳朵」「下巴」「腳趾」這種小東西(太小太醜的東西會被濾掉,算作一個零值),那麼那一層也會按這個方式去判斷。為什麼是從第一層「五官」生成,而不是別的地方呢?定位激活是用來和五官進行定位的。