29歲的吉恆杉坐在電腦前,手指輕輕點擊滑鼠,將屏幕上成百上千幅內容各異的畫面標註成兩類——「接吻」和「非接吻」。作為優酷的一名人工智慧標註員,他正在訓練機器識別何為「接吻」鏡頭,因此也被戲稱為「吻戲鑑定師」。
打開視頻網站,不少片花、集錦以及進度條裡的劇情提要,都離不開「吻戲鑑定師」的功勞。愛情是影視劇永恆的主題,吻戲往往出現在劇情的高潮。機器對海量視頻素材進行掃描,將吻戲等片段快速抓取出來,供小編們加工創作。
人工智慧和視頻黑科技的應用,不僅提升了用戶觀看體驗,更催生出眾多炫酷的新就業崗位:吻戲鑑定師、明星標註師、射門投籃視頻分析員……既對娛樂、體育感興趣又精通技術的「程序猿」,成為視頻網站最緊缺的人才,也折射出新經濟、數字經濟崛起帶來的就業新變化。
「剛開始我和女朋友說,我的工作是訓練計算機識別出吻戲鏡頭,她聽完覺得特別不可思議,誰能給錢讓你幹這個呢?」
吉恆杉2016年畢業於北京航空航天大學,碩士學的是計算機視覺,通俗地講,這個專業的目的是「教電腦看懂世界」。畢業後,他先在一家網際網路公司做程式設計師,去年9月加入阿里巴巴技術團隊,成為優酷的一名高級算法工程師,主要工作是教計算機識別接吻等場景,也被稱為「吻戲鑑定師」。
「這個崗位正好和我的專業吻合,給大家傳遞快樂和幸福,又能以工作的名義看網劇,我特別喜歡。」談起自己的工作,吉恆杉一臉笑容。他平時愛看網劇,最喜歡《軍師聯盟》,是吳秀波的鐵粉。
十年來,我國網絡視頻內容消費用戶達到近6億。「身邊越來越多的人用手機和電腦看網劇、電影和體育比賽,每次上下班坐地鐵,都能看到有人拿著手機、帶著耳塞看視頻。」吉恆杉發現,大家的需求不再是簡單地看劇,還想看更精彩有趣的片段、集錦,更主動地找到自己最想看的明星或者場景。
要想實現搜索和智能編輯,就得訓練機器從海量的素材中找出相應的場景,並打上標籤,就像從茫茫海洋中挑出螃蟹和海龜。男女主角的「吻戲」傳遞出美好和幸福,一般是劇情發展的高潮,因此成為劇集中最常見的標籤,如何教機器識別接吻成了吉恆杉和同事們首要的難題。
這項看上去高冷的人工智慧黑科技,在最初的環節真的需要不少「人工」。吉恆杉從圖片庫和視頻中截出數千幅圖片,從中一張一張標註出「接吻」的畫面。這個過程叫做「數據標註」。
「一天要標註幾百張接吻的圖像,最多時標註上千張,盯著電腦屏幕看一天,最後都有點麻木了。」吉恆杉說,通常數據標註得越準確、數量越多,模型的效果就越好。自然,機器識別的效果就會更好。
機器畢竟不是人,對有些複雜情況也無法識別。比如,為了拍出唯美畫面,「接吻」這個姿態也千差萬別,有的深情對視,而有的若即若離,團隊裡的「吻戲鑑定師」們不得不列印出角度各異的「接吻」畫面貼在牆上,一群人激烈討論到底怎麼才算「接吻」。
「吻戲鑑定師」是個技術活,需要根據機器的反應進行繁瑣的後期調試。機器學習了上千幅圖片中的特徵,這時再給機器任意一張「接吻」的畫面,它就能認出來了。截止目前,吉恆杉和同事們已經為2萬多條「吻戲」打上了標籤。
有阿里巴巴的技術實力加持,目前,5分鐘時長的視頻全鏈路處理可在10秒內完成。比如劇集《三生三世十裡桃花》,每一集50分鐘的視頻被切割成3000幀圖片,機器只需要5秒就能挑出來楊冪和趙又廷的吻戲。
吉恆杉所在的團隊目前有8個人。隨著業務的快速拓展,「吻戲鑑定師」們也開始接觸和研究其他場景,比如哭戲、打戲,接下來還要鑑定體育比賽中的射門、撲球、投籃、慶祝等畫面,以便網站小編製作比賽精彩集錦。他們不光要看圖片,還要時常「探班」,到比賽或節目現場去觀察和體會每個場景、動作的細小差別。
別看這份工作上看去輕鬆有趣,但其中的辛苦只有做過才知道。盯著電腦屏幕一整天,吉恆杉和同事們最輕鬆的時刻是下班後去健身房,或者去公司的「太空艙」按摩,享受片刻閒暇。即便是休息,他腦子裡想的還是如何教機器「鑑別」更多的明星和場景。
這幾年娛樂圈出現了一些新現象,比如,現在的明星長得越來越像,如何訓練機器識別古力娜扎和迪麗熱巴,如何分辨TFBOYS的三小隻,需要不斷試錯和反覆進行模型訓練。區分「明星臉」、「網紅臉」、「雙胞胎」,成了吉恆杉和同事們面臨的新挑戰。