響片訓練(Clicker Training)理論篇
I.操作性制約(Operant Conditioning)
現在提到訓狗,無論是職業訓練師,或者是訓練愛好者,甚至一些狗主人越來越多都會說道一個詞:操作性制約(Operant Conditioning,簡稱OC)。那麼究竟什麼是操作性制約?它的原理是什麼?它又是從何而來的呢?
讓我們先來解釋幾個名詞:
行為:狗狗做的一些動作,如坐、跳、松繩牽引散步等等
強化:給予或移除一個可以增加某個行為發生頻率的刺激因素。
懲罰:給予或移除一個可以減少某個行為發生頻率的刺激因素。
強化物:某種獎勵的學名。
排斥物:通常用來指一些讓狗狗反感而儘可能想避免的東西。
一、OC及四個象限OC是一種學習理論,主要遵循的是「桑代克的效果律(Thorndike's law of effect)」。所謂效果律指的是得到強化的行為就越可能發生;得不到強化的行為就越不可能發生。(譯者註:聽起來好像還蠻簡單的嘛!)
後來有個叫B.F. Skinner的人將就桑代克的效果律發揚光大,還造了一個詞叫OC,即操作性制約,專門用來指這種動物學習理論。從廣義上來說,Skinner把改變行為的方法分為四種:正強化、負強化、正懲罰和負懲罰,也稱為OC的四個象限。
1、正強化(給予強化物):當動物發生某種行為後,通過給予某個刺激因素能使動物感到滿意、愉快或興奮,從而使這種行為得到鼓勵(增加發生頻率)的方法。例如,當狗坐下後餵食物給它,或是當兒子拿到獎學金時,你告訴他你為他感到自豪。
2、負強化(移除排斥物):當動物發生某種行為後,通過給予或者威脅給予之後又馬上移除某個刺激因素能使動物感到滿意、愉快或興奮,從而使這種行為得到鼓勵(增加發生頻率)的方法。例如小孩為了不挨罵而打掃房間;給狗狗帶止吠項圈,如果狗狗叫就會被電擊。為了避免這種不舒服的感覺,狗狗就會不叫了。
3、正懲罰(給予排斥物):當動物發生某種行為的時候或之後,通過給予某個刺激因素能使動物感到反感、痛苦或悲傷,從而使這種行為得到抑制或弱化(減少發生頻率)的方法。例如小孩淘氣時狠狠打一頓;當狗狗看到你回家便興奮地撲上來時,你用膝蓋頂它的胸口之類。
4、負懲罰(移除強化物):當動物發生某種行為後,通過移除某個刺激因素能使動物感到反感、痛苦或悲傷,從而使這種行為得到抑制或弱化(減少發生頻率)的方法。例如小孩又哭又鬧的時候,就拿走他的冰淇淋;同樣當狗狗看到你回家便興奮地撲上來,希望引起你的注意時,你轉過身背對著它,不理睬它或者乾脆就離開房間。
二、強化與懲罰
以上四種方法可以組合使用,從而得到、養成或者改掉某種行為。例如,你可以同時使用正強化和負懲罰的方法來訓練狗狗隨行:當狗狗乖乖地跟在身邊隨行時,你可以用食物來獎勵它。當狗狗想拽著你前進時,你就馬上站住不動,拉緊牽引繩讓它不能前進(這正是它想要的)。等它乖乖地不亂跑了,你再繼續前進。
你可以發現,有些方法是比較溫和的,人道的,但有些方法對動物來說就比較殘忍,痛苦一些。事實上,懲罰,尤其是正懲罰,有著非常嚴重缺陷,有時甚至會帶來一些極端的訓練後遺症。因為要先給予或威脅給予排斥物,負強化才能發揮作用,因此也不算是個好的選擇。
除了以上四種操作性制約的象限之外,Skinner還提出一個消弱理論,指的是如果某種行為得不到任何強化,那麼就算是之前已經形成了條件反射,這種行為也會逐漸消失或改變。例如,我們去別人家拜訪,敲了半天的門也沒有人來開門。結果我們最終就會放棄敲門這個行為。如果狗狗無論如何努力也無法打開罐子拿到裡面的餅乾的話,它最後也會放棄嘗試。
我們可以將消弱理論和四個象限結合起來使用,例如,當狗狗亂叫的時候,你不去理它(——消弱);當它不叫了,你就獎勵食物(——正強化)。
但是,當你想要針對的是一種可以自我獎勵的行為時,單靠消弱的方法就不行了。例如狗狗亂咬鞋子的行為。雖然你可以用消弱的方法,對狗狗的行為不予理睬,視而不見,但是由於咬鞋子本身對狗狗來說就是一種獎勵,因此僅僅用消弱的方法是不足以改變狗狗這種行為的。
三、強化物
從上面我們所說的操作性制約可以知道,強化物扮演著非常重要的角色。其實我們每個人每天都在為了強化物而工作。就像我寫這篇文章,部分的原因也是為了可以得到強化物——愛狗人士的回應。在這點上,狗狗和人是一樣的。
強化物也分為兩種:
本能型強化物:動物天生就覺得有獎勵作用的強化物,不需要後天的學習就能起到強化作用。例如,食物、水、性、捕獵等等。
反射型強化物:本身不具備強化作用,但因常常伴隨本能型強化物而出現,久而久之,經過動物多次學習之後,也可以起到和本能型強化物一樣的作用的強化物。
對人而言,金錢就是一種反射型強化物。錢本身不過是一張紙,最開始的時候並不具備強化功能。但是,當錢和一些本能型強化物,如食物、衣服、房子等等,聯繫起來以後,它就變成了反射型強化物。
對狗狗來說,諸如「乖」、「真聽話/可愛」之類的表揚、讚美如果可以經常伴隨著食物同時出現的話,也可以慢慢成為反射型強化物。在響片訓練中,響片其實也是一個反射型強化物,因為它經常伴隨本能型強化物一起出現,慢慢的響片發出的「咔嗒」聲對狗狗來說就是意味著食物即將出現。
關於強化物最關鍵的一點就是:應該是由動物,而不是訓練師或主人,決定哪些是強化物。一些狗狗只對某幾種特別的食物有反應,有些卻更喜歡玩棒球。訓練師的工作就是找出那些適合狗狗的強化物,繼而利用它來為我們服務。
另外,無論是本能型強化物還是反射型強化物,它們對狗狗產生的效果是不同的。哪怕是屬於同一類的強化物的效果也是不同的。例如有些狗狗喜歡雞肉多過牛肉,有些狗狗喜歡玩具多過食物,有些則相反。因此我們如果可以將所有對自己的狗狗有強化效果的東西列一個清單,並且按照效果強弱進行排序,哪個的強化效果最強,哪個其次,哪個再弱一點,依此類推。然後根據訓練的難易程度,使用不同的強化物刺激狗狗以達到我們的目的。舉例來說,對大多數狗狗來說,餅乾是弱效果的強化物,而雞肉是強效果的強化物。當我們在家裡訓練時,就可以使用餅乾作為強化物。因為在家這個環境裡,餅乾的強化效果已經足夠了。可是如果換到室外進行訓練,由於環境變得更複雜,讓狗狗精力分散的因素比較多,這時我們就可以考慮用效果更強的雞肉來作為強化物以達到讓狗狗專心訓練的目的。同樣,如果讓狗狗在家裡一聽到呼喚就馬上跑過來,可能只要一塊雞肉就夠了。可是如果要到了公園裡,我們想要達到同樣的目的,可能就需要一大塊的雞胸肉了。
四、操作性制約和響片訓練的關係
估計能耐心看到這裡的人應該不多吧。可能已經有人忍不住要問:你之前講了這麼多,到底和響片訓練有什麼關係呢?其實,如果把OC比作一個集合的話,響片訓練就像是它的一個子集。OC就是響片訓練的理論基礎。還記得我們之前說過,響片只不過是一個反射型強化物。只有當我們深入了解了OC,了解它是如何運作以及為什麼運作時,我們才能成為一名更出色的訓練師。
OC理論是以我們上面提到的5個原理作為基礎。每個原理都可以作為改變行為的方法。而響片訓練並不是利用到所有的這5個原理。不管你相不相信,到現在為止,響片訓練還沒有一個準確的、官方的定義。你可能從這個人聽到的關於響片訓練的解釋和從另外一個人那聽來的完全不同。但是,作為當代響片訓練的最積極的倡導者Karen Pryor,將響片訓練定義為通過正強化、消弱和極少的負懲罰培養以及完善(動物)行為的方法。具體來說,在響片訓練中,我們使用正強化來訓練動物做出我們想要的行為,而使用消弱和(極少的情況下)負懲罰來減少或最終改掉動物身上我們所不想要的行為。
為了形象說明OC的5個原理和響片訓練的關係,我們可以把響片訓練看作是一個餅狀圖,那么正強化佔了其中三分之二的份額,其次是消弱,再次是負懲罰,而正懲罰和負強化僅僅是非常小的一部分。一個理想的、完整的、可靠的訓練計劃應該完全由正強化、消弱和極少的負懲罰組成(如下圖)。
我們為什麼要花這麼多時間和精力來分析這些理論性的東西呢?有兩個原因:
1、這樣我們不至於混淆基本的概念。例如,在日常生活中,「正」和「負」通常用來指好和壞。但是在OC和響片訓練中,「正」指的是給予,「負」指的是移除。同樣的,「懲罰」在我們日常生活中常常和一些不好的東西聯繫在一起,但是在OC中,懲罰只不過用來指抑制或弱化(減少發生頻率)某些行為。
2、如果只是知其然而不知其所以然,那麼響片訓練將只不過是提供一些訓練方法,而這些方法有些可能對你的狗狗有效,有些則無效。為什麼會這樣呢?因為如果我們不明白隱含在響片訓練中的這些行為原理,那麼我們就不能對訓練環境進行有效評估,然後搞清楚為什麼這個方法有效或者,更重要的是,為什麼會無效,進而根據每隻狗狗的個性特點進行因材施教。
作為一名響片訓練者,我們是不主張在訓練中使用負強化和正懲罰的,儘管有的時候這兩種方法看起來很有效。這是因為這兩種方法存在一些很嚴重的問題:
1、很難正確使用;
2、有負作用,如讓受訓者產生恐懼心理和攻擊性;
3、推廣很容易,但分寸卻很難把握;
4、主要依賴於恐懼、痛苦或威脅;
5、會阻礙動物主動學習行為的能動性。
而最後一點,也就是會阻礙動物學習的主觀能動性,是正懲罰和負強化與響片訓練最格格不入的地方。響片訓練可以訓練出一些在通常情況下幾乎是不可思議的動作,而這些動作除了需要訓練師精心安排訓練計劃之外,在更大程度上需要靠動物自己不斷去摸索、去嘗試、去試探,有時候是正確的,有時候是錯誤的,有時候成功,但有時候也會失敗。如果因為一些努力嘗試卻失敗而受到懲罰的話,狗狗以後還會心甘情願地去嘗試新的東西嗎?
對於很多剛剛了解響片訓練的新手而言,當他們一聽說訓練時要放棄使用正懲罰和負強化的方法時就裹足不前了。他們的心裡會產生諸多懷疑和擔心。這是因為他們先入為主的認為,如果缺少了排斥物,訓練就不能達到預期的目的。事實上,到目前為止還沒有一項研究表明正懲罰(強化)就一定比負懲罰(強化)有效。也就是說,理論上,這四種方法都是有效的。雖然結果表面上看起來相同,但過程和意義卻大相逕庭。關於這一問題,我會在下一節中詳細說明。
訓練,醫療諮詢請掃描添加訓犬網
長按微信號xunquanwang複製搜索添加
點擊右上角「┇」可分享到朋友圈。
想看更多相關問題請點左下角↙閱讀原文。