很多人號稱自己有10年工作經驗,其實,他只是把1年的工作經驗,重複了10次而已……
重複,不帶來進步,真正的進步,來自「刻意練習」。
作者:劉潤
來源:劉潤 ID:runliu-pub
一個洞察身邊事物本質的公眾號
— 1 —
AlphaGo把「高效而可怕的勤奮」體現得淋漓盡致,大數據和人工智慧技術,讓它建立了每一步都有反饋的學習機制。
如果你了解到更多AlphaGo的「成長曆程」,可能你也會跟我一樣,從嘆為觀止,到不寒而慄。
— 2 —
2016年4月,AlphaGo戰勝李世石;
2017年5月,AlphaGo戰勝柯潔。
▲ 柯潔說:它下出了令我絕望的一步棋,
我知道那盤棋我不可能贏。
出現在柯潔面前的AlphaGo早已今非昔比,這一年裡,它從1.0版進化到了 2.0版。
差別在哪裡?
1.0版戰勝李世石的AlphaGo,先學10萬局棋譜,把全人類的經典棋譜盡收眼底。
然後分析棋局定式和得失,最後生成了自己的策略算法。
但是後來,開發AlphaGo的公司DeepMind覺得這還不是最強形態。
就算是把人類的10萬局棋譜學過來,只不過相當於古今中外所有圍棋高手合戰一人罷了。
可以下贏一個李世石,但也註定比李世石高不到哪兒去。
如果對手無比強大,可能一擁而上再多人也不是對手。
於是,有了後來的AlphaGo 2.0。
——
AlphaGo 2.0 與之前最大的不同是:沒有棋譜餵養。
工程師們只告訴AlphaGo最基本的圍棋規則。
大概就是黑先白後、交替落子,怎麼算輸、怎麼算贏……
然後,找兩個這樣的AlphaGo圍棋寶寶,開始對弈。
從0開始學,從0開始下,下了多少盤?
第一天嘛,先下100萬盤,試試水。
就這樣,每天100萬盤……
——
2.0版本的 AlphaGo ,不再跟人類學怎麼下圍棋,而是跟自己學。
這時的AlphaGo肯定不知道什麼是相思斷、無憂角……
但它們知道誰輸誰贏,甚至還能復盤棋局,為每一步打分,推測哪一步對、哪一步錯、哪一步可以更好。
基於規則和輸贏,AlphaGo建立了反饋體系,根據每天的100萬盤,AlphaGo開始不斷優化算法。
就這樣,每天下、不斷學……
直到柯潔出現,這時,AlphaGo跟柯潔早已不是同一量級。
或者說,它已經超越了整個人類的圍棋水平。
聶衛平講過一句話:
AlphaGo最可怕的地方在於——
它終於讓我們知道,人類其實根本就不懂圍棋。
過去,人類對圍棋的理解,從一開始,可能就被我們有限的知識框定了。
基於反饋機制的學習,才是真正的高效而可怕的學習。
— 3 —
我們再來看幾個AlphaGo的學習片段,看看什麼是高效而可怕的學習能力。
AlphaGo誕生之後,為了檢驗它的學習能力,DeepMind做過一個測試。
讓它挑戰簡單的電子遊戲——打方塊。
很多人小時候玩過這遊戲,屏幕下方有一個小球拍,球掉下來時,你要控制球拍把球擋回去。
屏幕上方有很多磚塊,用小球把磚塊一個個打掉,全打完就算贏了。
這遊戲的規則和輸贏標準特別清楚,先跟AlphaGo明確了底層反饋體系。
與下圍棋一樣,一旦建立了規則和反饋體系,根本不用教它「應該」怎麼玩,反正你就去玩吧!
接下來,我們觀察他的學習方式。
這是它玩了100局的結果——
這個階段,球拍在AlphaGo的控制下,顯得特別的木訥,都不知道該往哪動,很多球接不起來。
然後,它自我學習了200局之後——
你是不是明顯感覺到它的身法靈活多了?它逐步開始對球的落點有了判斷。
繼續進步,這是400局練習之後——
每個球都能接起來,非常棒!
好,時間來到了第600局,可怕的事情發生了——
你看出什麼沒?
從來沒有人教過他這種打法,可能就連你以前也沒這麼玩過。
但是,玩著玩著,因為有一套底層反饋機制,AlphaGo最後自己建立了一套策略。
這個策略是,它發現打開一個缺口之後,把球彈上去,球在中間不斷的彈彈彈……效率是最高的、移動次數是最少的。
——
第一次看到這個視頻的時候,我覺得特別「可怕」,不寒而慄。
AlphaGo擁有了我們過去認為只有人類才會擁有一種東西,叫做智慧。
之所以人工智慧在今天如此強大,是因為它擁有的深度學習能力——基於策略的不斷反饋、持續優化。
更可怕的是,它不光比我們會學習,還比我們更勤奮——高效而可怕的勤奮。
— 4 —
怎樣把這個邏輯運用到人的身上?
其實就是我們經常說的——刻意練習。
刻意練習,不能重複地做過去一直在做的、自動完成的動作。
而是要建立一套反饋體系,幫助我們做到高效而可怕的勤奮。
有一本很著名的書,書名就叫《刻意練習》,可能你也看過。
書裡介紹了3個建立反饋的方法,特別生動形象。
第一個建立反饋的辦法,我們稱之為音樂模式。
什麼叫音樂模式?
鋼琴水平是怎麼練出來?我身為一個外行,認為肯定是對著琴譜彈唄。
可琴譜可能早在幾百年前就寫好了,所以鋼琴家們不斷練的是什麼?
是鋼琴的演奏表演的能力,練的是手法、是節奏。
鋼琴家們會用錄音,發現練習中的錯誤,然後糾正。
刻意練習中的音樂模式,就是把這一小段琴譜,切割成一個個小段,每個段落循環練習。
還有哪些能力,是用這種方法來訓練出來的?
最具代表性的,就是演講能力。
你必須要能站在臺上張口去講,講完每一場,結合大家的反饋做出調整優化。
甚至架個攝像機,把你演講的過程拍下來,然後你一看視頻回放,發現——
我的腿為什麼一直在顫抖啊……
我的身體怎麼一直往後躲啊……
我怎麼說了那麼多「然後」啊……
這些是平時感覺不到的,就必須通過觀察和反饋,不斷糾正。
發現了不足怎麼辦?下次再講,再錄一遍,不斷重複這種練習。
一次次,一段段提高能力,你的水平才會真正的提高。
演講、唱歌、表演……這些技能只有藉助音樂模式的反覆訓練,才會變成你的能力。
——
第二個建立反饋的方法,叫做西洋棋模式。
簡單地說,在這個模式下,能力是可以通過找到對手、學習高手來獲得的。
以下棋為例,人類學習下棋,水平提升的快慢,很多時候取決於陪練的水平。
所以,研究高手的棋譜,是棋手們常用的訓練方法。
比如辯論這種能力,如果沒有對手跟你真刀真槍地戰個痛快,可能很難練出來。
再比如說商業,也是當你找到了對手、甚至是宿敵,你才能被激發,真的頓悟。
這就是為什麼,很多人經常在說百戰歸來再讀書。
你只有在戰爭中,才能學會戰爭。
——
第三種建立反饋的模式,體育模式。
體育模式需要我們對單項技能反覆練習。
比如說遊泳,有個運動員非常厲害,叫菲爾普斯。
你想過一個問題沒有,菲爾普斯都是世界上遊泳最快的人之一了,還有人有資格做他的教練嗎?
如果沒有的話,那奧運冠軍豈不是都沒有教練?
但真相是,不論一個運動員多麼厲害,旁邊都要有個教練。
既然教練的比賽成績不如運動員,那他們的工作是什麼?是基於運動項目的方法論和訓練產生的反饋體系,來幫助運動員不斷提高。
踢足球時,什麼位置的任意球要怎麼發?
長跑或短跑時,每個階段的步子邁多大?
騎自行車時,什麼時候站著什麼時候趴下?
所有運動項目的背後,都是行之有效的邏輯和方法。
不是去跟遊泳最快的人學遊泳,而是要在單項上,用專業方法訓練自己,藉助教練的專業知識和經驗給自己反饋,這是體育模式給我們的啟發。
很多人號稱自己有10年工作經驗,其實,他只是把1年的工作經驗,重複了10 次而已……
重複,不帶來進步,真正的進步,來自「刻意練習」。
所謂的「刻意練習」,是因為不斷反饋、調整,每一次都比上一次有進步。
每個領域最傑出的人,往往是刻意練習時間最久的那個人。
▲ 你最適合的模式,是音樂?象棋?還是體育?
在AI時代,很多我們曾引以為傲的能力,被「初生」的人工智慧碾壓,這也讓我們變得愈發焦慮和不安。
但每個時代都不乏「天才」,當下更是如此。
找到你的激情和夢想,擁有百折不回的堅毅,掌握刻意練習的方法……
然後,千萬千萬記住,還有勤奮、可怕的勤奮,甚至是高效而可怕的勤奮。
這樣,你會離目標更近一些。
與你共勉,祝你周末愉快!(本文完)