世有伯樂,然後有千裡馬。千裡馬常有,而伯樂不常有。
--- 韓愈《雜說四·馬說》
導師有的時候就像伯樂,尋學生就像在耐心地尋找能在導師自己的研究興趣或方向上施展才能的千裡馬。
怎麼找呢?我這裡分享一些我的經驗和體會。
第一個值得優先考慮的當然是本校的本科生,畢竟遠水不如近鄰!
而從時間跨度來看,從大一開始尋找是一個值得考慮的選項。尤其對於青年老師來說,這是個能找到本校本專業特別優秀學生的時間節點,因為諸多原因,多數資深教授鮮有機會、也沒有時間去接觸大一的新生。
如何接觸呢,當班導師是一種辦法。計算機學科有個ACM競賽,組織編程和有比賽經驗的學生參賽,這也是接觸、了解和選拔學生的機會之一。我想其它學科也應該有類似的。另一種更自然的方式是承擔本科生課,如基礎課程。
我曾經有過講授大學物理課的經歷。因為學院搬遷校區,導致原來物理系的老師們不願意跨校區來上課,只好內部挖潛。作為當時的青椒,我也只能硬著頭皮接下了組織交待的任務,雖然大學畢業後我有近16年沒碰過物理了。為了防止露餡,在備課期間我甚至連廣義相對論都自學掉了。這狀況總讓我想起了某天我大學同學在市裡圖書館自習,偶遇電視臺來採訪的情景:記者問之在看什麼書,答「廣義相對論」。我媽從電視上看到告訴我時,我想當時的記者應該和我一樣感受到了強烈的震撼。而現在為了上好大學物理,我把自己也震撼了。更刺激的是,我在課堂上甚至講過一次黑洞白洞的物理學原理,我估計臺下的學生們和臺上的我一樣,其實都是一頭霧水。不過這段經歷也給我帶來意外的收穫,重新打造了甚至拓展了我的物理基礎,還有就是遇到了一個好學生。
教大一物理課的期間,一位坐前排的男學生吸引了我的注意力。他特別愛課堂上問問題,角度也很新穎,幸好我是按大於百分之一百二十來準備備課內容的,勉強能夠應付他的問題。不過我對他提問的方式非常有印象,覺得有可能適合做研究。教了一段時間課後,我便試探性地問他有沒有興趣參加我研究小組的討論班。
他來了,不過最開始我們也只是一如平常地聽報告,偶爾他也提提問題、做個報告。到學期快結束時,他過來找了我,希望能切入實際課題。當時我正想著和北京大學的袁曉茹老師如何把機器學習和可視化有機結合起來,恰好袁老師辦了一期可視化的暑期培訓班,我便派他學習去了。開學回來時,他在討論班給大家回顧了培訓班的內容,有個點我覺得很有意思,就是如何將三維的數據通過二維的方式渲染出來。因為我們小組研究的一個方向,步態識別在當時要麼依靠視頻數據即三維數據來完成的,要麼通過平均獲得二維圖像來實現。前者耗時長精度高,後者可實時但精度低一些,那麼可視化領域的這項技術能否挪過來,在二維模板上保持住三維的時間信息呢?
我只是把這個初步且不成熟的想法分享給他。而後他很快就把這個想法細節化,並實現了。需要注意的是,不要小看這個實現,說起來簡單,裡面經歷了多少的嘗試、失敗只有個中人的他才能體會。經過CVPR的拒稿,然後再根據意見修改,初步的工作發表在ECCV2010上,而完整的工作則發表在2012年的IEEE Transactions on Pattern Recognition and Machine Intelligence(簡稱IEEE TPAMI)上,一個曾經被計算機學科認為,發表一篇就可以吹一輩子牛的期刊上。幾個評審都給予了高度的評價,指出這一工作的思路以前沒見過,屬於原創性很高的成果。這項工作後來被大坂大學一個專做步態識別的小組,在他們發布的新步態數據集進行了第三方測試,被認為是當時的前六個state-of-the-art算法之一,排名第三。而我學生在TPAMI發表其工作時,那年他才大三剛結束,他叫王晨。考慮到這類期刊投稿、審稿到接收的時間一般在一至兩年,本科生能在此期刊上發表,絕對是非常罕見的。
這是第一種尋找學生的辦法。不管學生是否以後跟你讀研,通過本科期間進入實驗室、參與討論班和課題的方式,學生都能儘早獲得科學的、系統的從事科學研究的能力。從培養學生的角度來看,這也是值得的。當然,這種方式的不足在於,與研究生相比,本科生的課業壓力相對較大,很多情況下,有可能導師花了時間來指導,但不一定能達到期望的目標。
第二種方式則是到研究生選拔時間再選擇。這裡有三次能找到好學生的時間節點。
第一次,是在暑假左右的夏令營:好一些的學校,會邀請可能來本校讀研以及擬本校直研的學生參加夏令營,讓這些學生了解相關專業和細分了方向的實驗室及老師情況,以便於選拔優秀研究生。對導師來說,則可以利用實驗室介紹和交流環節來吸引與自己研究方向、興趣一致的學生。
對學生來說,在基於我上一篇講的尋師技巧的前提下,不妨在此期間開始寫信聯繫導師。不過在郵件聯繫導師時,務必注意基本的禮貌。如寫信的格式,不要英雄不留名字,讓老師們看完信也不知道是誰寫的;也最好只寫給一位老師的,千萬不要傻乎乎地群發找導師郵件。那樣的話回信的責任心會被平均到低於閾值,然後會沒有一個老師回信。也請耐心等老師的回覆,不要過於著急去問一位老師;也儘量不要用一看就沒有誠意的統一模板來寫聯繫信。
第二次,是9月份的推免,這一次將從全國的推免生中篩選符合本校本學科發展的學生,以及對第一次安排還不太滿意的進行再次篩選。與第一次只是意向性的雙向承諾相比,這一次將最終確定推免生是否來本學院就讀研究生。從統計意義來講,這兩次的學生綜合能力要相對好一些,因為這些學生都是學院或系根據報名學生的簡歷及在校期間的GPA(俗稱績點)做了初篩的。簡歷和績點能從多個側面反映學生的能力,包括成績的穩定性,在某些課程的學習能力、如人工智慧專業喜愛看到的數學課高分,以及相應的科研經歷,如是否做過某些課題、是否參加過ACM競賽、數模競賽,有無企業相關實習經驗等。
在這兩次選學生的環節,導師也需要謹慎。比如由於夏令營並非一家開設,有些學生可能同時申請了多家, 因此,他們也在做多項選擇,尤其是簡歷一看就比較優秀的學生,很有可能最終會選擇排名更靠前的學校來讀書。又比如學生可能也會在專業碩士和科學碩士之間、收費與不收費、有無住宿、學校推薦的研究方向等多因素上進行考慮。在這些情況下,導師和學生事實上都不得不找對自己有利的平衡點,確保名額和機會都不被浪費掉。
第三次,除去這兩次機會,還有一次通過全國研究生統考來獲得讀研資格的機會。一般來說,筆試的內容包括英語、政治和專業課。根據分數分布和擬錄取人數比例來劃定研究生面試線。然而,需要指出的是,專業課的成績事實上不太能反映考生的科研能力,尤其是真正讀研後,研究生的方向非常細化,往往與專業課基礎知識是否紮實沒有絕對的關聯性。所以,單憑這個分數來篩選的話,有可能挑到高分低科研能力的學生。
作為對比,國外在篩選研究生的筆試環節時,較少採用這樣一種能依賴記憶力和刷題方式獲得高分的方式。以美國為例,其研究生入學考試,一般是要求GRE分數。該分數體現了學生的英文閱讀能力和詞彙量、數學基礎以及英文文章寫作能力。這些能力都能更好地幫助評判考生的科研能力。
既然已經按分數篩選了能進入面試的學生,那如何進一步去選擇呢?理論上,面試的老師們需要從1)基礎、綜合能力、興趣愛好、應變能力、心理素質等方面進行全面的評估,2) 同時也應該考核學生在具體研究方向上的科研能力,因為每個人的天賦是不同的,以理工科來說,有些人動手能力強,有些人數學基礎好,有些人編程能力強,諸如此類。
但由於面試規則的限制,面試老師又是來自學院的不同方向, 有可能無法判斷學生的具體科研能力,也難以根據可能相吻合的導師的研究方向來針對性的提問了。另外,因為多數情況下,每個考生的面試時間只有十五分鐘,也極有可能因為第一印象形成的錨定效應導致對學生的錯誤判斷,導致面試成績好但實際科研能力一般的被選擇進來。
要避免這一問題,一方面需要面試的老師們有豐富的經驗和責任心,另一方面可能需要在錄取後進行進一步的篩選和評估。我個人的建議是,不妨請自己小組的研究生和老師一起進行一輪評估,因為他們對研究方向的認識比面試組的導師們更具體,在技術細節上更容易判斷學生是否有真材實料,在基礎上也更清楚學生的功底。
這樣的面試,從理論上來講,應該先於研究生面試前進行,不管是博士還是碩士,才真正從學生和導師雙向公平的角度來擇優選擇學生,且有機會選擇到一些分數不太高,但確實有研究天賦的學生,尤其是那些嚴重偏科的。畢竟到了研究生階段,我們更應看重的是科研能力,而非死記硬背的本事。
我這裡有個研究生就比較有這樣的代表性。他叫田宇坤,他的英語連大學英語六級都沒過,不過我一開始就沒注意到這個問題。來我這後,主要從事人群計數的研究。在提出一個新的算法並做完實驗後,他將論文草稿發給我。當我在電腦上打開論文,才發現他的論文比天書還難看懂,不僅低級錯誤一大籮,甚至study的複數形式都寫成studys,而且語言中也分析不出什麼清晰的邏輯,以致於花了很長時間才從一片迷茫中走出來。我甚至有一段時間曾在我的學生群吐槽,說沒過大學六級的學生以後一律不要。
不過抱怨歸抱怨,論文還是得認真改的,畢竟幫學生走完一套完整的研究生流程,論文寫作指導是必需的。修改了多少遍不太記得了,學生自己在改的過程中優化了多少次算法也記不得了,我只記得今年10月22日,碼農節的前兩天,這篇論文經過二審後正式被CCF A類期刊IEEEE Transactions on Image Processing全文接收。
這件事,也讓我在反思,也許我們在選拔人才的時候,沒必要要求他有太全面的科研素質,創新能力才是學生最需要體現出來的,不足之處可以通過研究生期間的學習和導師有經驗的指導來彌補。
這大概是我覺得可以尋找好學生的一些經驗和體會。從我個人來講,當老師最有成就感的事就是培養一批優秀的畢業生。而尋找到好的學生,那就有了更多在其研究方向上超越導師的可能性,就可以事半功倍,而導師也會因學生的成就順便「沾沾光」,即所謂的「高徒出名師」。
如果學生選好了,可以說高徒出名師的條件就具備了,那怎麼養成呢?下回分解 !
張軍平
2019年11月4日
參考文獻:
1. Chen Wang, Junping Zhang, Liang Wang, Jian Pu, Xiaoru Yuan. Human Identification Using Temporal Information Preserving Gait Template. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 11, pp. 2164-2176, 2012.
2. Yukun Tian, Yiming Lei, Junping Zhang, James Z. Wang. PaDNet: Pan-Density Crowd Counting. IEEE Transactions on Image Processing, accepted, 2019.
張軍平,復旦大學計算機科學技術學院,教授、博士生導師,中國自動化學會混合智能專委會副主任。主要研究方向包括人工智慧、機器學習、圖像處理、生物認證及智能交通。至今發表論文近100篇,其中IEEE Transactions系列20篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC, TIP等。學術谷歌引用近3400次,ESI高被引一篇,H指數29.
出版科普著作《愛犯錯的智能體》,曾連續24次推薦至科學網頭條,曾五次進入京東科普讀物新書榜前三名。關於人工智慧發展趨勢的觀點曾被《國家治理》周刊、《瞭望》、《科技日報》、《中國科學報》等媒體多次報導。