上篇把樣本空間到特徵空間的轉換解釋為一個矩陣,並認為非線性激活函數可以降低網絡的層級。
非線性激活函數也有線性區域,tanh、sigmond在0附近接近一條直線,RELU在大於0的區域就是直線y=x,如果處於線性區域完全可以當常數來看。
這次,我們假設樣本空間到特徵空間的變換是非線性的(這也更符合實際情況),那麼我們可以用一組線性無關的基,把它展開,並且獲得一個係數矩陣A。
這組基,如果是1,x,x^2,...,那麼就是泰勒展開。
如果是1,sinx,cosx,sin2x,cos2x,...,就是傅立葉展開。
也可以是1,e^x,e^2x,...,等等,唯一的要求就是線性無關。
除了輸入從X變為f(X)之外,f(X)為樣本在基上的坐標,其他沒有變化。
這時,激活函數的逐層疊加,可以看作對展開式的因式分解,激活函數與係數矩陣一起實現了對坐標基的高次項(非線性部分)的組合。
已知的樣本和它在基上的坐標都是不變的,可以看作常數,需要去分析的還是係數矩陣A。
A的每一個元素都選一個固定精度內最近似的有理數,提取分母的最小公倍數之後獲得一個整數,把該整數分解為一系列素數的乘積,然後按照上一篇的內容根據素因子去分層分解,把係數矩陣A分解為它的每一部分的組合,從而降低維數,減少冗餘計算量。
這個思路,與斯特拉森算法的思路有點類似,都是通過組合來避免大矩陣的直接運算。
每層特徵的解釋,依然與上篇文章一樣。
網絡裡加入短接鏈路可以降低複雜度。
加入反饋鏈路應該也可以,畢竟同一個素因子有可能多次出現,反饋迴路就類似於遞歸乘法。
這麼一個只能根據樣本採樣進行的複雜分解,自然是沒法給出解析結果的,但是壓縮映射的巴拿赫不動點定理,可以讓我們在範數正則化之後使用梯度下降算法求近似解。