一些需要和矽材料打交道的領域,如計算機視覺、硬體加工及產品開發等,越來越多人去學習微電子技術。根據美國貝爾實驗室(belllaboratory)2018年5月19日最新出版的《新創新指南》(newentrepreneursguide),人工智慧能力的發展與突破,有望提高生產性能和生產效率。maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。
它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。目前,在多目標識別方面,maskr-cnn已經取得了一些進展。例如,在3000類以上的檢測算法中,fcn得到39.2%的正確率,fastr-cnn得到42.2%的正確率,而maskr-cnn得到58.4%的正確率。在8000類以上的檢測算法中,fastr-cnn得到98.6%的正確率,fasterr-cnn得到83.5%的正確率。在5000類以上的檢測算法中,fasterr-cnn得到95.6%的正確率,r-fcn得到83.9%的正確率。這些方面說明它已經使得maskr-cnn比其他基於局部單幀提取特徵並在輸出層學習參數的算法更快速、準確、高效。
但是對於中距離的檢測,比如傳統方法中的3d建模和高速目標追蹤等,它的效果並不好。通過引入雙重卷積神經網絡框架,可以使得maskr-cnn發揮出相當好的效果。以下給出雙重卷積神經網絡框架的模型圖示,包括網絡結構、獲取圖像信息和優化參數的方法。雙重卷積神經網絡的模型圖示一、預先訓練網絡一般來說,雙重卷積神經網絡是先從一般卷積操作開始,在此基礎上利用多個層來完成圖像的卷積操作。結構如下圖所示。這裡的作用卷積通道,並不是卷積核的數量,而是對應卷積操作的級數。
可以看到,前後兩層參數是不一樣的。較為常見的有3個2x3的卷積層和4個4x4的卷積層。它們共同完成了網絡中2x3、4x4、3x3的卷積操作。這裡面就有一個問題了,並不是所有2x2都能夠帶來更高的解析度(200x100),而是只有2x2基本上不帶來更高的解析度(3x3)。之所以帶來這個問題,是因為有些矩陣可能是重複的,例如說3x3的特徵圖。如果按照直覺直接去設計一個矩陣,會帶來什麼結果呢?