該期屬於學習觀15的應用篇,這裡我會非常囉嗦的再講一遍網絡記憶,因為它是生物與機械在記憶上的底層區別,是《學習觀》中最重要基礎知識。隨後會用英語學習作為實際例子來分析。搞清楚網絡記憶後,你可以知道:
1. 哪些記憶方法是錯把電腦記憶方式當成人腦記憶方式。
2. 為什麼不要看字幕來練習聽力。
3. 如果從零學習一門外語,最符合大腦原理的第一步是什麼。
目錄1. 異或門例子
1.1. 異或門描述
1.2. 查找記憶
1.3. 查找記憶特點
1.4. 網絡記憶
1.5. 網絡記憶特點
2. 外語學習應用
2.1. 英語功能描述
2.2. 功能實現方式
2.3. 多例子練習
2.4. 音素輸出擴展
2.5. 莫看字幕練習
3. 網絡中的遺忘
3.1. 兩種遺忘對比
3.2. 學習中的遺忘
3.3. 學習後的遺忘
www.bilibili.com/video/av55513374
文字稿「異或門例子」
我們還是先從最簡單的異或門例子開始,
雖然涉及很多數字,但請耐心體會。
1.1. 異或門描述
假設需要這樣一個功能:根據兩個輸入,要求得到對應的輸出,一共有4種情況:
當第一個輸入是1,第二個輸入是1時,就輸出0。
當第一個輸入是1,第二個輸入是0時,就輸出1。
當第一個輸入是0,第二個輸入是1時,就輸出1。
當第一個輸入是0,第二個輸入是0時,就輸出0。
1.2. 查找記憶
若要記住這四種情況。
描述:一個種方法是像九九乘法表一樣把所有情況都記錄下來,然後根據輸入來查找對應的輸出。
例子:比如,當第一個輸入是 1,第二個輸入是 0 時,去表中查找,便可得到輸出為1。
名稱:可以把這種方式叫查找記憶(狀態記憶),這個表格也叫查找表。
1.3. 查找記憶特點
1.4. 網絡記憶
描述:還有一種方式是網絡記憶:通過構建一個函數(映射),根據輸入來直接計算出對應的輸出。
一種情況例子:比如,想要記憶 [1,1] --> 0時,可以讓第一個輸入乘以-0.5,讓第二個輸入乘以0.5,二者相加可得到0,便記住了這個情況。
1.4.1. 網絡記憶位置
記憶在網絡中並不是查找表的 [1,1] --> 0,而是乘號右邊的數字[-0.5,0.5],這些數字也叫權重。
權重改變,則記憶就改變。
兩種情況例子:但如果記憶完了 [1,1] --> 0,想同時記憶 [1,0] --> 1,若還用 [-0.5,0.5] 的權重,那 [1,0] 算出的就是錯誤的數值,[1,0] --> 1 並沒有被記憶。
1.4.2. 記憶覆蓋現象
因此需要重新調整權重。這時可以讓第一個輸入乘以1,讓第二個輸入乘以-1,再二者相加,便可同時記憶這兩種情況。
但之前的記住了[1,1]得0的[-0.5,0.5]權重就會被新記憶 [1, -1 ] 所覆蓋掉。
1.4.3. 人腦長期記憶
人腦長期記憶的底層機制就是網絡記憶,所以我們的記憶並不能像電腦那樣直接查看,只能根據輸入得到對應的輸出。
四種情況例子:而如果要記憶四種情況,由於權重 [1, -1 ]並不滿足四種情況,所以也會被更新掉。
1.4.4. 網絡記憶本質
也就是說,網絡記憶實際上是在尋找所有情況的共同規律。
1.5. 網絡記憶特點
記憶緩慢:因為需要調整權重來尋找共同規律,所以網絡記憶要比查找記憶慢的多。
記憶幹擾:同時,共同規律往往會隨新情況的到來而改變,所以我們已經形成的記憶會受新信息的幹擾,而使用查找的電腦則不會。
泛化能力:但網絡記憶最大的好處就是:它所找到的規律可以用來預測從來都沒有見過的情況。
兩種記憶對比:而查找記憶則辦不到這一點,只能解決你告訴過它的情況,無法解決從未被記錄的情況。
這就是為什麼我們比一般的機器更有創造力。
1.5.1. 學習的定義
學習:從已知情況中尋找可預測未知情況的規律
知識:這個規律在意識層面上叫做知識,但更普遍的名字叫做模型。
1.5.2. 模型泛化能力
模型可以解決從未見過情況的能力叫做泛化能力。
1.5.3. 模型過擬合
而模型只能解決學習時見過的情況,卻無法解決未見過情況的現象叫做過擬合。
練習例子驗證:人類之所以需要練習的原因就是讓大腦自動從各種不同的情況中尋找規律,以便應對從來沒見過的情況。
工作例子驗證:而在日語中有一個詞,「指示待ち人間」,指的就是一類人:他們和機械一樣,只能解決別人告訴過他的情況,卻無法解決未被告知的情況,也就是泛化能力不足。
「外語學習應用」
2.1. 英語功能描述
若把輸入改為聲波,而把輸出改為英語, 那完成的功能便是英語的聽力。
這時的輸入和輸出情況有多少種呢?無數種。口音,音調,發音長短的任何些許不同都是不同的情況。
2.2. 功能實現方式
這就意味著根本無法通過查找記憶來實現這樣一個功能,只能通過學習來找到共同規律。因此英語聽力需要練習。
2.3. 多例子學習
原因:但如果你只用一種口音來練習, 那麼學到的規律就和只記憶 [1, 1] --> 0 一樣,僅僅是記住了這一種口音,並沒有形成具有普遍性的規律,當來個新老外(無污衊的意思)說話,你就聽不懂了。
解決方法:所以需要的並不是一個口音反覆聽,而是聽不同的口音,讓大腦的自動從不同的口音中尋找規律。
2.4. 莫看字幕練習
原因:而當你看字幕來練習聽力的時候,輸入就既有語音,又有字幕。但大腦並不知道你要怎麼學,它會自動的構建一個既使用語音輸入,又使用字幕輸入,來識別語言的網絡。一旦撤掉字幕輸入,那辛苦學到的網絡就無法得到正確的輸出結果了。
解決方法:所以,如果要練習聽力,就將自己大腦接受到的輸入信號控制為只有語音。
2.5. 音素輸出擴展
原因:我們可以聽懂外國人說中文是要歸功於模型的泛化能力,但我們的中文泛化能力,由於會儘可能的識別從未見過的情況,反而在初學英語時,也會把英語識別成中文。
例子:比如,shazam 聽成 傻蛋。
解決方法:所以,初學外語的第一步,就是擴展自己的語音的輸出種類。一定不要用中文來標註英語音標,否則會一直停留在把英語泛化成中文的狀態。
更正過程:而更正的過程就像左撇子改成右撇子一樣,絕不是別人教你一遍就可以做到的事情。需要時間和練習來改變大腦的神經網絡。
「網絡中的遺忘」
不要用查找記憶來理解網絡記憶的遺忘。
3.1. 兩種遺忘對比
描述:查找記憶的刪除是一條一條的刪,而網絡記憶的遺忘是連接的斷開。
例子:比如,之前的例子,如果記憶完了 [1,1] --> 0 和 [1,0] --> 1 的 [1,-1] 權重中的 1 連接斷開了,那麼兩條信息都會丟失,但如果 -1 的連接斷開了,那麼只有 [1,1] --> 0 的信息會丟失。
3.2. 學習中的遺忘
因為網絡是在尋找能符合所有情況的規律。
那麼在這個過程中一定會出現有時斷開連接,有時又重塑連接的現象。
假設猜想:如果一個人的大腦失去了斷開連接的能力,那麼他就會像記憶所有信息(就是網絡的絕對過擬合),但尋找共同規律的學習能力卻會嚴重受損。
假設佐證:比如現實中的雨人Kim Peek 就明顯具有這種症狀。他可以快速的看完一本書並且記住所有內容,但他的日常生活能力卻異常低下,直到四歲才會走路,不會系扣子,智力測試也只有87分。
3.3. 學習後的遺忘
提問:上面的遺忘是發生在學習過程中的權重調整。但為什麼已經記住了的內容也會被遺忘?
生存困難:原因就在於大腦找到的規律不一定是具有普遍性的規律,難免有局部規律。
例子:如果連續記憶這 [1,0] --> 1, [1,1] --> 0 兩種情況,大腦就會找到 [1,-1] 規律。但該規律只是記住了這兩種情況,無法預測其他情況。
演化結果:所以大腦演化出了根據使用的頻率來強化和弱化連接的一種機制。它既不是為了消除痛苦回憶,也不是為了節省能量,就是為了抑制局部規律形成的過擬合。
預告:但是大腦對於不同的內容會有不同的態度,所以下一期我們會講該如何有效的重複。
3.4. 你忘記所有的招式,就練成太極拳了
原文:「太極拳只重其義,不重其招。你忘記所有的招式,就練成太極拳了。」
解釋:「忘記」並非字面意思,而是意為不要僅記住個別招式,而失去了應對無限情況的能力。這裡的招式是「已知」,「情況」是指任何情況,包括已知,也包括未知。由於人腦的長期記憶也不是查找記憶,並不會去記憶每個情況,所以練太極拳的過程並不是記憶的過程,而是學習的過程。讓大腦的神經網絡從這些有限的招式中泛化出普遍規律,便可自動應對無限情況。
翻譯:」情況無限,招式有限,需泛化有限招式,來應對無限情況。」
「總結」
4.1. 說明
這些知識是機器學習中最基本的概念。
但機器學習本來就是要讓機器來解決學習問題,因此完全適用於日常學習。
希望大家可以從生活中尋找更多的例子來反覆體會這些概念。
也建議重新看一遍學習觀1-7,相信你現在能夠明白以前不懂的地方。
4.2. 概念
記憶:記住具體情況。
模型的泛化能力:模型可預測未見過情況的能力。
模型的過擬合:模型只記住了學習時見過的情況,卻無法預測未見過情況的現象。
學習:從已知情況中尋找可預測未知情況的規律的過程。
查找記憶:將信息作為狀態,存儲到不同的地址中的記憶方式。
網絡記憶:構建一個模型來根據輸入計算出對應的輸出的記憶方式,可被視為過擬合的學習。
網絡學習:可被視為泛化的記憶。
網絡記憶位置:由所有連接共同存儲。
學習中的遺忘:尋找共同規律(學習)過程中由於調整權重所造成的連接斷開。
學習後的遺忘:為提高泛化能力,根據連接被使用的頻率強化或弱化連接的一種模型篩選機制。
4.3. 應用
多例子學習:體驗多個例子,讓神經元更容易找到普遍的規律。
音素的擴展:初學外語的第一步,先擴展音素,把每個音素都作為不同的發音。
輸入的控制:如果只練聽力,就要控制涉及的輸入類型,不要讓額外輸入參與到網絡的構建中。
投票
視頻下載
公號回覆:學習觀15.5
知乎:YJango