文 | 木子Yanni
為什麼說無聲勝有聲?因為無聲飽含秘密。
遙遠的月球上,有一塊被深埋了幾百萬年之久的黑色石板,強有力的放射性發光體正對著木星,這勾起了人類的好奇心。
18 個月後,「發現者一號」太空船起航,兩名飛行員、三位「冬眠」的科學家,以及一臺完美型人工智慧電腦「哈爾 9000」,一齊踏上了全程五億公裡的木星探秘之旅。
俗話說,有「人」的地方就是江湖。在太空漫遊的過程中,人工智慧哈爾在工作中出現失誤,做出飛船某零件將要出現故障的判斷,謹慎起見,兩位飛行員考慮要關閉哈爾。
萬萬沒想到,這一商量,出事了。
深知哈爾的智能程度,為了避免談話被哈爾聽到,倆人特意找了個藉口,躲進了備用倉,始料未及的是,哈爾居然會讀唇語。在悄咪咪圍觀完兩人的談話後,哈爾知道自己將要被關閉,決定先下手為強,它不僅找機會把兩位飛行員關在艙外,還幹掉了仍在睡眠倉裡沉睡的三位科學家。
哈爾正在暗中解讀唇語
值得慶幸的是,作為飛行員之一的大衛頂著重重危險,終於回到飛船內,成功關掉了哈爾。
在這部 1968 年上映的《2001 太空漫遊》中,導演斯坦利·庫布裡克幻想了一種奇技:面對無聲的秘密,AI 可以讀唇。
當年的幻想,在斯坦利·庫布裡克去世二十年後,終成現實。
唇讀有多難呢?你關掉字幕,把電視音量調到零體驗一下。(友情提示,千萬別看朱廣權,不然你可能會覺得我在為難你。)
結果你會發現,是不是朱廣權,其實對結果根本沒什麼影響。
之前,網上有個風靡一時的遊戲:兩人配合,一個人說詞,另一個人戴上播放音樂的耳機猜。聽起來很簡單對不對?別急,把此刻離你最近的人拉過來 PK 一下,如果你能百猜百中,壯士,請收下我的膝蓋。
唇語之所以難看懂,是因為當你在說話時,上下唇處於持續的活動當中,不僅變化速度快,而且看不出音調,唇形哪怕是一點點的微弱變化,都能匹配上不同的字,這就需要在語境當中進行上下文匹配,你才知道我說的是「按鈕」還是「愛你呦」。
正因為唇讀的難度很高,而且過程中總會出現各種難以預料的不可描述,所以在很多綜藝節目裡,它都會被改造成不同遊戲,負責承包笑點。
道歉、郝建、腳墊傻傻分不清
我身邊的很多朋友,第一次公開聽說唇讀這個詞兒,都是從「頭頂門事件」開始的。
2006 年 7 月 9 日,正值德國世界盃決賽,萬千球迷握拳屏氣,期待著一場巔峰決戰:法國球星齊內達率領球隊一路闖進決賽,將與義大利一決勝負。
決賽在萬千期待中順利進行著,但強強對決,高下難分,加時賽進行到 109 分鐘時,雙方比分依然僵持在 1:1,就在此時,意想不到的事情發生了。
正在回防的齊達內,似乎聽到了什麼,一個轉身,果斷用頭砸向馬特拉齊的胸口,把他撞翻在地。齊達內這個舉動的代價是,被紅牌罰下,與大力神杯失之交臂,賽後,34 歲的他宣布退役。
「頭頂門」瞬間
輿論毫無爭議地集中在一點:馬特拉齊到底說了些什麼?
為了搶爆料頭條,多家媒體不惜請來唇語專家,通過現場視頻對馬特拉齊讀唇,以此還原當時的情況。但事實是,一百個唇語專家,就算沒有一百種解讀,也能有九十九種,一時間,關於馬特拉齊言論的版本滿天飛。
綜合來看,比較受認可的說法是,馬特拉齊用惡劣詞彙提及了齊達內的姐姐,而一直以來,家人都是齊達內盡全力守護的目標,這才爆發了此次衝突。但是,要想深究翻譯的準確率,恐怕只有當事人最清楚,這不,因為爭議太多,直接逼得馬特拉齊出了一本書,書名就叫做《我對齊達內說了什麼》。
《我對齊達內說了什麼》
雖然唇讀很難,但術業有專攻,要想讓無聲開出花兒來,還得靠專家。
一直以來,唇讀主要集中在案件偵查、殘障教育等場景中,主力軍都是經過長久且專業培訓的讀唇專家。
傑西卡·裡斯是英國著名的讀唇專家,她在 4 歲那年失去聽力後,開始練習讀口型來理解意思,長年累月的練習後,她掌握了「讀唇術」,並成長為政府蓋戳認證的「官方讀唇證人」,被視為英國司法界的「奇蹟武器」。
英國著名的「「零證據」劫鈔案」,正是在傑西卡的協助下,警方才最終找到關鍵證據,得以順利破獲。
2002 年 2 月 11 日,凌晨 6 點剛過,一架航班衝破夜色,徐徐降落在倫敦希思羅機場第四航站樓。機上除了有 187 位旅客外,還有 8 箱美鈔,總數超過 600 萬美金,正等待轉運回美國。
圖片來源於網絡
飛機剛停穩,一輛運鈔車已經到達指定位置接應,車身的醒目位置還貼著一個英航的標誌。
35 歲的帕達,是這輛運鈔車的司機,他瞧著飛機已經停穩,便熟練的跳下車,進入飛機行李艙,敏捷地卸下了 8 個沉甸甸的紅色現金箱,並逐一搬上了運鈔車。完成這一系列動作後,他不經意地看了一眼時間,剛剛 6:30。
圖片來源於網絡:紅色現金箱就長這樣
齊活兒嘞,帕達哼著小調,一屁股扎進駕駛位準備開車離開,不料,腳剛踩在離合上,就瞅見一輛小貨車開了過來,車身上也貼著英航的標誌。帕達絲毫沒多想,因為這是機場,隨處可見這樣的行李運載貨車,沒什麼奇怪的。
然而,接下來發生的事情,卻令帕達終身難忘。
他被人硬生生從車上拽下來,捆成一隻肉粽後,扔在了冰冷堅硬的水泥地上,全身像篩子一樣顫抖著,內心的驚恐早已翻江倒海,嗓子裡卻一點兒聲音都發不出來,身體已經僵硬到可以蓋過骨頭被小石子抵著的疼痛。帕達無法控制地假想著一顆隨時可能飛來的子彈,也許會射在腿上,也許是頭。
今天會死在這裡嗎?他只能祈禱。
時間一分一秒在遊走,不知過了多久,刺耳的警鈴響徹整個機場,一陣由遠及近的腳步聲發現了帕達,而此時,運鈔車停在原地,但 8 箱現金已不見蹤影,同時消失的,還有那輛帶著英航標誌的貨車。
聽著警察們嘈雜的議論,帕達才知道,自己經歷的漫長煎熬,其實只有短短五分鐘。
正當警察在梳理線索時,大老遠有一個穿著機場警員服裝的人,跌跌撞撞地朝警察所在的方向晃來,還沒等警察詢問,這位自稱叫森迪普的人已經開口了。森迪普說事發時,他正在巡邏,一輛小貨車很自然的停在了他身邊,說時遲那時快,兩個蒙面人從車上衝下來,高舉著手裡的刀,將他挾持到貨車的駕駛位上,逼著他將車開出了機場。
剛一出機場,劫匪就迫不及待的下車,麻溜的把現金箱從貨車上卸下來,轉而搬進了一輛早已停在這裡的車,森迪普趁著劫匪忘我地搬錢時,撒腿就跑,這才逃了出來。
要知道,希思羅機場作為歐洲最為繁忙的機場之一,居然發生了一起如此神速的劫鈔案,劫匪完成捆綁司機、轉移現金、迅速消失這一系列動作,僅僅耗時五分鐘,更令人震驚的是,搶劫發生的地點在航站樓側面,正好是機場內公認的「超級安全區域」,如此看來,此案堪稱是驚天醜聞。
而此時,由神探尼爾森領頭的破案小組,把初步懷疑放在了運鈔車司機帕達和警員森迪普身上,理由是:能順利進入機場,在最安全區域迅速完成搶劫後,還能毫髮無損的離開,肯定有內應,而這兩人恰好還都在險中逃生,十分可疑。
然而,沒有證據,警方也不能隨便對嫌疑人進行竊聽,怎麼辦呢?神探尼爾森只能派人遠遠的跟著兩名嫌疑人,用微型攝像機拍下他們的行蹤,但距離太遠,所有的影像資料都聽不到聲音。
很快,一年時間過去了,拍攝的視頻已經裝滿了 23 盤錄像帶,神探尼爾森還是一無所獲。這兩人看起來都很正常,大多數時間都陪著各自家人,就算外出聚會,也毫無異常,不毒、不賭也不嫖。
截至目前,此案還是零證據。神探尼爾森陷入了自我懷疑,難道從一開始就錯了嗎?
突然的一天,神探尼爾森聽說有人可以靠讀唇破案,一打聽才知道,此人正是英國著名的讀唇專家傑西卡·裡斯。天啦嚕,這簡直是上天派來的救兵,尼爾森立刻找到傑西卡,說明來意後,傑西卡很樂意幫助,並留下了那 23 盤錄像帶。
七天後,有了結果。
傑西卡把重點放在錄像中頻繁出現的五個人身上,靠著錄像帶裡的口型,翻譯出了他們說的話。
場景一:搶劫案發生當晚,機場警員森迪普和他的哥哥坐在家附近的公園長椅上,眉飛色舞的暢談著,哥哥說:「哈哈,我們發財了。」森迪普高興地回應:「沒錯,而且這幫傻警察完全想不到我們是怎麼發財的。」
場景二:運鈔車司機帕達和機場警員森迪普碰面,帕達對森迪普說:「沉住氣,千萬別露出馬腳,半年甚至更長一段時間裡,我們都得保持窮樣子,你還是繼續在機場當臨時警衛比較好。」
場景三:機場警員森迪普的哥哥對運鈔車司機帕達說:「放心,沒有人被懷疑,警方沒有發現任何線索。如果警方真的問起,我什麼都不承認,他們沒有證據。」
場景四:一個露天酒吧裡,幾人在談論:怎麼樣才能在不引起懷疑的情況下,把那些美元換成英鎊。
靠著讀唇專家傑西卡的翻譯,警方順利找到了嫌疑人藏錢的地方,並還原了搶劫案經過:機場警員森迪普和哥哥不想太辛苦,做夢都想輕輕鬆鬆地找錢花,恰好,他倆遇到了同樣想不勞而獲的運鈔車司機帕達,三人一拍即合,又拉來兩個幫手,組建了五人弄錢小團隊。
經過一番頭腦風暴,行動開始。
機場警員森迪普借工作之便,先把三個同夥藏在了機場安全區域外,凌晨時分,運鈔車司機帕達順利進入機場。6:20 左右,藏在安全區域外的三人,開著提前準備好的貨車試圖靠近安全區域,這時,機場警員森迪普找藉口引開檢查人員的注意力,三人順利進入安全區域,準備接應運鈔車司機帕達。
當錢箱已經被司機帕達裝入運鈔車後,接應的三人迅速卸下箱子,並把司機帕達綁了起來,然後,警員森迪普開車直接把三人送出了機場,隨後迅速返回,故作慌張的向警察傳達虛假信息。
法庭上,法官宣布讀唇專家傑西卡的證據有效,五人在證據面前也低頭認罪,這場搶劫案到此水落石出。
儘管讀唇女王傑西卡參與了 700 多起刑事審判,但她在 2004 年被指控簡歷造假,因為簡歷上顯示她擁有牛津大學貝利奧爾學院的學位,但實際上她只讀了兩年,這件事經過媒體發酵後,英國皇家檢察署決定不再依賴傑西卡。
有沒有人能勝過唇讀專家呢?肯定有。
2016 年,讀唇專家遇到了強勁的對手:人工智慧。
首先出場應戰的選手,是來自於牛津大學計算機科學系的 LipNet。LipNet 稱得上是當時最優秀的唇讀系統,儘管供它學習的數據集只有 51 個特殊單詞,但是經過測試,在同一份材料下,讀唇專家的準確率是 52.3%,而 LipNet 的準確率則達到了 93.4%,AI 勝出。
圖片來源於網絡
不過要提一下的是,LipNet 能達到這樣的準確率,是因為所有的句式都相同,而且涉及詞彙量極少,難度較低。
隨後登場的這位選手,與 LipNet 相比,能力不止高了一個臺階,它就是由 DeepMind 和牛津大學共同選送的人工智慧系統 WLAS。
與 LipNet 僅有 51 個單詞的學習樣本不同,研究人員給 WLAS 準備的,是超過 5000 小時的 BBC 節目全家桶套餐,涵蓋 2010 年 1 月到 2015 年 12 月之間的《新聞之夜》、《BBC 早餐》等各種視頻素材,約有 118000 個句子。
圖片來源於網絡:BBC 節目資料庫
WLAS 需要仔細觀看這些長達數千小時的視頻,先從畫面中識別出說話的人臉,抽取說話人的唇形變化特徵,再將這些特徵和發音進行匹配,牢記唇形和文字之間的對應關係。在學習完這 118000 個句子後,WLAS 只看無字幕版視頻,就能夠自動補充字幕,即使是唇形變化不那麼明顯的句子,WLAS 也能夠通過唇形正確識別,比如:「我們知道也將有上百位記者會出席」 (We know there will be hundreds of journalists here as well)。
圖片來源於網絡
光說不練假把式,是人工智慧還是人工智障,拉出來一溜便知。
研究人員在 2016 年 3 月- 6 月的 BBC 節目中,隨機挑選了 200 個視頻片段作為考題,在這場人機對比測試中,WLAS 的唇讀準確率為 46.8%,而人類唇讀專業人員的準確率只有 12.4%,AI 再次勝出。
此後,加入唇語識別這條賽道上的公司越來越多,其中也包括阿里、搜狗等中國公司。
當 AI 掌握了讀唇術,科幻電影中的又一情節,成功奔現。
作為新晉的 AI 讀唇專家,要想大有所為,就必須有用武之地,因為有應用才有資本聚集,有資本才有可能真正下沉落地。就目前而言,AI 唇語識別會朝著身份驗證(唇碼系統已有進展,有興趣可以了解)、公共安全(比如攝像頭解讀犯罪之語)、語音識別(嘈雜環境下也能精準識別),在輔助殘障人員理解方面,也意義重大。
現實生活中,聾啞人被誤解是常態。央視新聞曾報導過這樣一件事:2016 年,一位 80 歲的老人找到律師,說自己的女兒被指控偷了一部手機,在手語師的輔助下,已經認罪,可她是冤枉的。律師受理後,反覆觀看審訊視頻,發現老人的女兒不停用手語表示「我沒偷」,可手語師卻翻譯成「我偷了一部金色的蘋果手機」。
倒不是說手語師有心而為,而是因為普通話手語和自然手語之間存在細微差別,很容易弄錯,這個場景就非常適合 AI 的參與。
當然不可否認,AI 唇讀也是把雙刃劍,傷敵還是傷己,需要時間給我們答案。
嗨,這裡是淺黑科技,在未來面前,我們都是孩子。想看更多科技故事,歡迎戳→微信公眾號:淺黑科技(qianheikeji)