由於長期「啞巴英語」式的語言教育,大部分以英語為第二語言的中國人一直都有著一個問題,那就是擅長讀寫,卻在不擅長口語。但由於資源有限,不是每一個有英語口語提升需求的人都能得到外教的一對一輔導。針對這個問題,英語流利說的解決方法是利用人工智慧技術來幫助中國人提升自己的口語水平。
流利說成立於2012年,到目前這款產品已經獲得了約3600萬用戶。流利說的主要功能是提供文本並讓用戶跟讀,然後系統會根據用戶的發音準確度給出評分和建議。流利說App上提供的素材涵蓋了從日常對話到留學、面試等諸多場景,因此受到了大量英語學習者的追捧。
但這項根據指定文本跟讀的產品並不是這麼簡單,它背後其實暗藏著流利說想要用機器學習技術幫助中國人整體提升英語水平的野心。
在接受PingWest品玩採訪時,流利說首席科學家林暉表示,早在2012年公司剛剛成立時,這家公司就決定要在語言學習中利用機器學習技術。但由於創業公司在數據上的匱乏,而機器學習又需要大量的數據才能被訓練得很智能,因此流利說決定先推出以上的跟讀功能,收集中國人的口語語音數據。
經過了4年時間以及累計3600萬用戶的使用,現在流利說已經掌握了大量不同口語水平的中國人說英語的語音數據。而且由於這些語音是跟擬定文本結合在一起的,所以它們是一種帶標籤的數據,對機器學習系統來說更加寶貴。
根據流利說和新浪教育共同發布的《中國英語口語白皮書》,流利說目前已經收集了廣泛的用戶學習行為記錄和長達2.75億分鐘、31.9億句之多的龐大錄音資料庫。
到現在,流利說已經根據這些數據推出了兩款服務型產品,分別是懂你英語和雅思流利說。其中懂你英語通過遞歸神經網絡的深度學習模型,讓流利說的自適應學習系統產生了自學習能力,讓學生不斷接觸到相關性越來越高的學習內容。
另外,流利說剛剛上線的雅思流利說同樣利用了被以上語音數據訓練過的人工智慧系統,幫助雅思備考生完成成績評估和備考方案。由於雅思考試口語階段評判上的主觀性,雅思流利說能夠準確地理解被測者的語義,從而給出一個相對客觀的評分。
在上周PingWest 舉辦的 HAY!16 大會上,PingWest採訪了流利說聯合創始人兼首席科學家林暉,他向我們詳細解釋了流利說這款產品4年間的產品脈絡:用工具積累數據,用社區沉澱用戶,再用數據打造人工智慧的口語學習服務,並實現商業化。
林暉博士畢業於華盛頓大學西雅圖分校,曾任 Google 美國總部研究科學家。他也是語音識別、自然語言處理、深度學習及大數據挖掘算法專家,曾在相關領域發表三十餘篇國際論文,擁有多項中國及美國專利。
以下是採訪實錄:
PW:能簡單聊一下你的個人經歷嗎?
林暉:我2006年在華盛頓大學西雅圖分校讀了一個博士,研究的方向主要是機器學習,理論方面的一些研究,當時做了一些自然語言處理方面的應用。整體來說我從事這個領域大概十幾年吧。在那之前我在清華做的也是技術方面的,當時我在電子系。那個時候MSRA也就是現在微軟亞洲研究院剛剛建立,當時我還沒有想好說是去工作還是出國,所以讀了碩士,並且讀碩期間正好有個機會在微軟亞洲研究院實習了半年。
我覺得MSRA這段經歷對我影響挺大的。那時候它其實是有一些比較前沿的,尖端的一些技術的研發,你可以看到今天AI火起來以後,大概有一大半的人之前都在MSRA呆過。他們那時候做的東西就是跟AI相關的,我那時候去做的也是做跟語音識別相關的東西。
那段經歷讓我感覺就是,做一些比較新的技術,比較前沿的技術的研究其實是很有意思的。所以在那之後,我決定去國外讀一個博士。當然當時做出這個選擇的一個原因是說:我覺得我在技術上、工程上沒什麼問題,但是這種比較深入的技術,比如說機器學習我希望我再深造,再了解得更多。所以我去美國讀了一個博士,博士的方向也是比較偏機器學習理論的研究,比較偏理論的東西。
在那個時候我就覺得,首先我對這種新的事物,未知的一些有很強的好奇心,我希望去探索、開拓一些方法。另外我希望自己做的事情是真的能夠不停留於理論,不止於發一些論文,而是有一些真正產生實際的價值,影響人們的生活,這就是我為什麼會積極的去工業界實習的原因。
在我博士期間我去了Google實習。Google給我的印象非常深刻,它不同於其他之前所有的大公司的研究機構,它的研究和生產是結合的非常緊密的,就跟產品和業務是緊密在一起的,它的科學家都是在產品組裡面,都是跟業務組在一起的。你做的事情,做出來了,能夠直接影響到百萬千萬的用戶。
當時我覺得是挺有意思的,因為我在微軟亞洲研究院實習的時候做的是做與語音相關的東西,那時候我覺得語音識別還不成熟,而且效果也不好。但那時候Google做了一個產品叫 Voice Search(語音搜索),我用了就覺得非常驚豔,它真的解決了我一些問題。就是有時候不方便的時候,我要在手機上搜索,就直接用語音搜索,而且非常準,我覺得很有意思。
PW:那是什麼時候?
林暉:那個時候是2010年、2011年,Voice Search其實出來蠻早的。但是Google有這個優勢是什麼?就是說它能夠通過文本的search query(搜索語句),來更好的判斷人們說的什麼。因為基本上大家搜索的意圖是差不多的,無非是不同的形式,用語音還是文本搜索。但是Google之前集約了很多文本搜索的查詢的基礎。
Google推動 Voice Search的策略對我們現在做流利說其實也很有幫助的,就是說怎麼樣去冷啟動一個與人工智慧相關的東西。當時Google做的是一個叫411的項目,就是通過用戶去打一個電話,然後查詢一個地名。看起來這個項目比較平淡,但是它其實是在做搜集數據的作用。
因為在美國那時候電話查詢還是比較常見,所以通過這個項目,它積累了很多的數據,也就是語音對應的文字的數據。
流利說其實也是這樣一個策略,我們一開始想解決的問題是什麼?用戶開口的問題,就是說啞巴英語,中國人學這麼多年都是啞巴英語,那我們希望給口語做一個評測,做一個評分。本質上我們想做的可能更多的是識別你說什麼。
但是我們一開始沒數據,作為一個創業公司,我們那時候就三個人,那時候一開始做的時候也並沒有去融資。
PW:哪一年開始做的?
林暉:我們2012年9月開始做。那時候移動網際網路剛起來,反正這個具體故事也可以再聊,但是我現在先集中在數據這一塊。
一開始其實我們其實是沒有數據的,所以怎麼可能做一個語音識別的東西呢?後來其實這裡有一個蠻巧妙的地方,就是我們通過先launch一個產品,這個產品可以幫你搜集數據,同時又解決了用戶一些其他的問題,這個事情就是語音的評分,跟讀評分這件事情。
跟讀評分比語音識別會簡單是因為什麼?因為它的文本是給我們自己的,你只要照著讀,你其實不需要識別出他具體說了什麼,你只要看他說的跟那個預設的文本要說的是不是一樣就行了。具體不是語音的波形比對,但是從原理上確實有點像。它的複雜度沒有像語音識別那麼複雜,因為語音識別的不確定性更大,我怎麼知道你要說什麼,天馬行空都可能。但是跟讀比較限定,就是說我知道你其實應該讀這一句話的,如果你亂說,我給你一個低分就完了,我其實不需要知道你亂說了什麼。
當然我們當時採用的就是利用一些開源的數據,來先做一些冷啟動。因為它本身這個任務挑戰沒有這麼大,我們能夠把這個產品放出去,而且有還不錯的體驗。這樣的話,當你這個技術真正落地,就會有很多人來用。在用這個的過程中,其實是給你提供了大量的數據,所以你用戶越來越多,你的數據也會越來越多,這個數據可以反過來提升你的智能。
回到我們一開始想做的,比如說我要識別你說了什麼內容的這件事情上,這批數據其實就是能夠為語音識別提供它的訓練數據。在這裡面其實有一個點,一般的不是做這個領域的人可能不太清楚,就是說光有錄音數據其實沒有用,你有大量的錄音數據其實沒用的,如果你不知道那個錄音對應的文字是什麼,其實是沒有用的。
PW:這是一個很聰明的方法。
林暉:對,就是通過這種遊戲化的方式,這種用戶產品的方式,積累了大量帶有文字標註錄音這個事情,這個我覺得是今天我們推出的這個產品,已經是往後的一個基石,我積累了大量這樣代標註的錄音數據,它是覆蓋了相當於基本所有中國人可能的水平,所有可能的水平階段。
PW:你們的免費用戶有多少?
林暉:現在最新的數字是3600萬。
PW:所以這四年,加上幾千萬用戶其實可以積累很大量的數據。
林暉:對,非常大的一個量。這批數據的價值其實非常非常大的,就先別說語音識別這件事情,你想想這批數據覆蓋了基本上所有地方,我們現在基本上所有省、各個城市都覆蓋了,這些語料,無論你是做語音識別還是做語言學的研究,都很有用。
當然我們現在只是用了它語音識別這一塊的用處,因為它有文字的標註。再結合深度學習這件事情,我需要非常大的數據,再用深度的模型,我們就能夠做出一個非常準確的語音識別的引擎來。當然這個語音識別的引擎是專門為中國人打造的。它是最能聽懂中國人說英語這件事情的,因為我們的數據都是中國人的。
這個其實蠻有意思的,其他的大公司,比如說Google和蘋果,他們也做英文的語音識別,但是它不是針對中國人做的,這是一個差異化,我們能夠做得更垂直,比他們做得更深的地方。Google不會特定地為中國人,尤其是中國學英語的人來做這個。我們也跟Google去比較,因為他們的語音識別的功能是開放出來的。我們可以去做一個side by side的比較。直接拿過來,我們找一些我們知道正確答案的錄音,然後來讓這個機器識別,看看誰識別的比較準確,做了一個準確性的比較。
結果我們跟所有可能國外的,包括國內的,比如訊飛進行對比。我們發現在中國人說英語語音識別這件事情上我們是遠遠超過世界上所有其他公司的。這一點其實是今天我們能夠在雅思流利說上做出一些別人沒有東西的基石。
流利說是做一個從0到1的事情,我們是把一個技術真的推向用戶,推向產品,去給他們做一個改變。創業一年多以後,我們再去聽這些用戶的錄音,我覺得很欣慰的是,有些用的比較長時間的用戶的錄音水平提升非常多,很多用戶真的是完全不一樣了,我們有很多這樣的例子。
PW:中間是一個什麼樣的階段呢?因為剛才你說在技術上可能就是獲取語音以及它標註的文字的數據,那個中間可能是做了一個什麼樣的規劃,才讓它達到這個點?
林暉:剛才說的那個是英語流利說裡面解決的一個問題,它用遊戲化的機制,用社區的方式。我們也有社區,把語言學習也件事情變得讓大家更願意參與,更願意開口。就是說語言學習這件事情說白了,80%還是要靠練,你不練這個東西,它不是一個知識,你不練這個東西你是掌握不了的。
如果我們讓大家開口,通過排行榜,通過遊戲化的機制,通過社交的機制讓你開口,然後給你反饋,然後你只要練的多了,自然會有提升。
當然後來我們覺得,發音只是語言的一部分,用戶可能很多需求是提升,整體系統的提升他的語言的能力,這也是為什麼我們後來推出了一個叫「懂你英語」的產品。
PW:懂你英語是一個什麼樣的產品?
林暉:它是今年7月發布的,但是研發其實時間挺長的。我們一開始想的是通過這種碎片化的內容,就是比較輕量級的。當然這也是我們的一個特點,就是說你用戶因為這個進來了,流量有了,但是其實裡面有很多用戶其實是有這種訴求是說,我希望比較系統的提升我的英語能力,而不是只練發音。
這就是為什麼懂你存在。懂你是不管你水平怎麼樣,先進來給你做個定級測試,你的英語水平是一級還是二級還是三級。
PW:那個級別是統一的標準,還是你們自己定的?
林暉:我們跟歐標是匹配的,就是相當於我們有一個嚴格的匹配。我們現在大概分了七個還是八個級別,八個級別,每個級別都對應歐標的比如說A1、A2、B1、B2這種,這個我們做了對應表,這個做了嚴格的對應。這個課程在全方位的幫你提升英語水平,不單是發音。
PW:所以其實你們是從2012年到今年主要做的事情是積累數據,加來做這些具體的產品。
林暉:對,整個脈絡就是工具、社區,現在開始做服務。一開始是工具。
PW:工具、社區就是用來搜集數據的。
林暉:對,在這個過程中我們搜集了非常多的數據,技術其實也在演進。產品和商業模式也在演進,產品的進化的路徑就是工具。我們先用一個工具的方式切入,人來了,他要練發音,練口語,進來了,怎麼綁住他們?社區。怎麼樣變現?那就是服務,其實是這個脈絡。但是技術上是從跟讀再到識別,再到這種,除了發音以外所有緯度的評測。
其實懂你英語裡面還有我們核心技術的另外一塊,就是所謂的自適應的學習的部分。就相當於你可以認為之前的識別是聽覺,評測也是聽覺,感知,但是人工智慧需要認知和決策。你到這個教學裡面的話,它就是要能夠懂你,為什麼叫懂你英語。懂你英語不單是能聽懂你,它要知道你的知識點的缺陷,你的各種能力,你的技能都掌握到什麼程度,它要懂你這個內容,和內容能夠幫你提升什麼。
有了這些以後,那它的另外一個技能就是它做決策,怎麼樣一個方式來教你是能夠最適合你的,最能幫助你提升你的水平的。這裡面是我們叫自適應學習的技術。它也用到了深度學習的一些進展。
PW:能不能大概講一下這個自適應是怎麼樣運作的,以及它達到的目的。
林暉:現在在線教育這一塊,自適應其實還蠻火的,大家都在說做自適應。它本質上要解決的問題就是千人千面,個性化教學,因材施教。每個人的學習路徑是不一樣的,那怎麼做到這一點?自適應是這麼做的,建立一個知識圖譜,把內容和學生關聯起來,就是通用做法。其實也不難理解,一句話來說就是缺啥補啥。我要知道我這一塊內容是補啥的,我要知道你缺啥,那我就給你什麼內容,這是最簡單的一個解釋,其實比這更複雜,但是基本的思路是這樣的,缺啥補啥。
但我們的自適應學習系統是沒有做知識圖譜的。一個學英語的人,他會說英語,他可能真的不知道什麼語法,他可能不知道什麼是定冠詞,什麼是不定冠詞,這個東西其實不確定。
另外更大的原因是說,你有了這個知識體系以後,你還得把你的內容掛上去,這件事情是非常繁瑣的。你想像,比如說如果你有一千個知識點,你要更細的話一萬個,甚至十萬個知識點,你要把你的內容都跟這個做對應,這個工作量大,比你編寫這個教材的工作量要大得多得多。這件事情其實我們覺得不太靠譜。
所以我們決定還是用以前的思路,也就是數據加深度學習。如果我們能夠有不斷的數據進來,我們再結合深度學習技術,是不是能夠來解決這個問題,那其實你想想,知識點的作用是什麼呢?它其實就是解決了一個把學生和內容關聯起來這件事情,缺啥補啥。
機器要知道這種關聯性,需要大量的數據,這個我覺得OK呀,我們產品上線,用戶在用,所以數據就源源不斷進來。
這個數據是什麼?這個數據其實是我覺得網際網路產品最神奇的地方。比如說Google的搜索,它的數據其實也是源源不斷來的,但是這個數據很有價值,因為它來自用戶點擊。用戶的點擊行為就能夠教到機器說用戶喜歡什麼,這個我們在術語叫做帶標籤的數據。
到我們這個場景裡面,其實也是很有意思說,我們這批數據也是帶標籤的,是什麼?學生答題的數據。他答題的對錯我們是知道的,學生答題的行為,答題的對錯,這些數據就是你說的這種另一種形式的數據,另一個框架內的數據。
而且我們也發現,隨著產品的上線,用戶數據越來越多,我們的預測是越來越準的,這個準度怎麼衡量?就是我們的AI能夠預測一個學生答題的對錯。現在比如我題庫裡面有一萬道題,你做了大概100道題以後,我基本上能夠以超過90%的準確率,預測你其他9900道題裡面,你雖然沒做,但是我能知道以你現在的水平做對還是做錯。
我們看到,隨著我的用戶進來的數據越來越多,我這個預測準確性也是在不斷攀升的,就是說這個智能是在不斷進化的。
PW:後來加入你們的那個語言學家Lance Knowles博士主要負責什麼工作?
林暉:他跟我們合作的一個原因就是,他試用了英語流利說後覺得我們上的語音評分是他用過的世界上最好的。他看到我們的技術就非常想跟我們合作,他現在是我們的一個顧問。我們結合他的理念和我們的技術,想把把懂你英語的模式發揮得淋漓盡致。其實現在用戶用下來的感覺就是,一開始可能有些不習慣,但是其實慢慢發現,這真的是管用的,我覺得效果才是核心。
PW:你們還推出了一個「雅思流利說」的付費產品,這個產品背後是用的什麼技術呢?
林暉:雅思這件事情其實是沿著我們整個技術脈絡的一個自然的產品。我們希望用AI的技術,讓教育,比如說語言學習這件事情更高效,把它的效率提升。那麼你要做到效率提升這件事情,首先得把學習的過程數位化、量化。到語言學習這一塊,前面很重要的就是,對這種口語能力評判的一個數位化,一個量化,這就是很自然的一個技術重點。
後面的自適應是在你做了數位化、量化以後,怎麼樣去優化它的效率,怎麼樣去編排你的內容,怎麼樣選擇這個策略,相當於決策的過程。前面這部分語音評測、語音評價,相當於是感知的部分。這整個技術的脈絡是這樣的。
當我們把感知這一塊做得足夠好的時候,其實很自然的出來的產品就是雅思流利說,我們能夠給考雅思的用戶,考生,提供一定的價值,能夠幫他們解決像剛才之前跟你聊的那些痛點,就是模考難,想得到反饋難,周期長且貴。我們用這樣的技術來解決這樣的問題。
這裡面從技術上來看,脈絡上其實跟我們原來想的是一致的,這是一個自然的產品出來。像之前說的,比如說從跟讀裡面積累語音識別的語料,最能聽懂中國人說英語的識別引擎,都是這個基石。而在這之上做一些自然語言處理,自然語言理解的技術,給出反饋。這部分我們覺得是很還蠻有意義,蠻有價值的。
PW:能不能講一下模擬雅思考試的整個評判過程?
林暉:雅思的口語考試呢,是現在公認的能夠比較客觀、比較全面地衡量一個人口語水平的考試,它是一個真人考試,一個考生進來,你是面對一個真人考官,真人考官會問你問題,你根據他問的問題去回答。是一個真正的語言交流的過程,考察的是你的語言的使用能力。
這裡面對於雅思考生來說,他其實很難去做一個模擬,是因為他需要真人,你需要有這樣評分能力的老師,這樣的老師畢竟少。所以雅思流利說就是從這個角度切入,我們提供這樣一個模考成績,並且給你一個評分的報告,這個報告首先夠精準,第二個它能夠給你一些具體的建議和反饋所以我們在做雅思流利說關注的技術上的指標其實有好幾個,第一個是評分的一致性,評分是否足夠精準跟你去真的雅思拿到的分數一樣的。
而這個是怎麼來做的?這裡面我也覺得是AI能夠做得比較好的地方,就是AI比較客觀。人難免主觀,人難免會有誤差,會犯錯。尤其是對於這種沒有標準答案的測試。你寫個作文,滿分就還是比較主觀的東西,你讓人去改,雖然有一定的雅思評分標準,但是人去改的時候,難免會有一些主觀,會有一些誤差。
那我們的AI跟雅思考官判定的分數的一致性達到了95.6%,就是已經超過了雅思官方公布的這麼一個一致性的數字,這個是我們覺得機器能夠做得更好的地方,它更客觀,它不會受你個人情緒波動的影響,不會受你狀態的影響,
第二塊的話,就像之前也提到的,評分這件事情有用,但是還不夠。考生肯定希望我怎麼提高分數,哪裡有問題,而這個時候是反饋的技術起到作用。反饋的技術就是基於之前說的,最能聽懂中國人英語識別這一塊,我把你的聲音,即使你說的比較爛,比較有口音或者怎麼樣,它能夠精準的轉成文字。根據這個文字來給你發音以外的反饋。
PW:語義理解的話,可能機器懂你說的話是什麼意思,它怎麼把這個意思跟題目結合起來呢?
林暉:這就是語義理解的一些關鍵的東西。比如說今天我們一個話題是聊城市的,如果你聊一本書,那就是偏題了。就是從語義的角度來說,AI會知道,首先你題目是關於城市的,它能夠把這個,這就是所謂的語義,我對語義的理解,理解了你這個題目是講城市的,你的答案我都檢測出來,如果你講的是書,這就是偏題。
PW:現在你們已經做了懂你英語和雅思流利說兩個產品或者是服務,以後還會有哪些打算呢?
林暉:至於後續,我覺得肯定有很多想像空間,就像當時的流利說一樣,我們以一個產品技術的方式工具切入,再往後面,無論是直接切服務,直接切交易,還是說一個什麼樣的例子,可能性都比較多。但是我覺得我們的一個優勢就是說,我們能夠把產品和技術結合的比較好,切入到一個用戶的痛點,解決用戶的一些問題。
後面的話,肯定有很多可能性,就比如雅思這塊,我們很多變現方式。如果今天比如全年50萬雅思考生,一半的人都用我們這個來備考,那你可以想像背後的價值。
PW:現在付費用戶有多少?
林暉:我們的雅思流利說今天剛上線,所以這個沒法統計。但是懂你英語是7月份上線的,現在這一塊的數字我們是不具體公布的,但是可以透露的就是說,增長非常好,每個月的增長速度是30%。我們現在非常有信心就是我們的商業模式是非常健康的,這一塊我們非常有信心,在合適的時候我們會把這個數字公布出來。