近日,MIT Technology Review 公布了第20 屆Innovators Under 35 評選結果,即2020 年度全球「35歲以下科技創新35 人」榜單。在入選榜單的五位華人中,香儂科技李紀為博士是唯一一位在中國大陸的入選者。
其餘4位華人包括:
蔡麗麗,現任伊利諾伊大學厄巴納-香檳分校機械科學與工程系助理教授;
李博,現任伊利諾伊大學厄巴納-香檳分校機械科學與工程系助理教授;
潘世昂,出生於中國臺灣,現任Modern Electron 聯合創始人兼CEO;
王思泓 ,現任芝加哥大學分子工程學院助理教授。
Innovators Under 35 評選開始於1999 年,每年在全世界範圍內遴選出35位35歲以下的科技創新者。Innovators Under 35 每年所挖掘的新人及其項目都極富創新性。
各位在影響力、創新能力、進取精神、未來發展潛力、溝通能力以及領導力方面都表現優異。從初創公司到研發機構再到科技巨頭,他們在不同的平臺上大展拳腳並取得了突破性成就。很多入選者在做出了改變世界的科技創新。
1999年,網景(Netscape)網絡瀏覽器的創造者馬克·安德森和Yahoo 創始人楊志遠入選。
2002年,谷歌創始人選出了拉裡·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)入選。
2007年,年僅23歲的Facebook創始人馬克·扎克伯格(Mark Zuckberg)入選。
2008 年,史丹福大學教授、谷歌大腦創始人、原百度首席科學家吳恩達(Andrew Ng)入選。
2014 年,基因編輯CRISPR 發明者,麻省理工學院教授張鋒入選。
2015年,Ilya Sutskever,OpenAI 首席科學家 Imagenet-CNN 模型發明者入選。
2016年,谷歌大腦資深科學家 Seq2Seq 模型發明者 Oriol Vinyals 入選。
2017年,OpenAI創始人,GAN模型發明者 Ian Goodfellow 入選。
2019年,麻省理工學院助理教授、深度網絡壓縮主要發明者韓松入選。
在當下這個略顯混亂的時代,看到如此多的青年科技學者們仍在努力讓世界變得更加美好,著實令人內心充滿勇氣。
這對於那些抗擊病毒大流行的醫務人員和為社會正義而戰的普通公民而言,以及對那些致力於通過技術來解決這些問題和許多其他問題的人們來說,都是真真切切的精神鼓舞。
(以下為獲獎內容譯文)
在過去的幾個月裡,谷歌和 Facebook 都發布了新的聊天機器人,李紀為博士的技術在其中起到了核心作用。
深度強化學習是讓神經網絡在試錯中學習,李紀為博士將這一相對較新的技術應用到自然語言處理(NLP)中,自然語言處理是計算機科學領域的重要方向,旨在用程序處理人類語言。
通過使用深度強化學習識別大量文本中的句法結構,李紀為博士讓機器更好地提取到其中的語義信息。其中,語法指的是詞語之間的語法關係,而語義指的是詞語的意義。
在書面用語中,語義關係相近的詞在實際的句子中並不總是緊密相連。例如,一個動詞和它的對象之間可能隔著一串形容詞或從句。以往讓機器解析自然語言的做法常常過於強調詞語在句子中的位置是否接近,帶來明顯錯誤的結果。李紀為博士的機器學習算法能夠找到句子的語法結構,從而更可靠地識別句子的意義。它們已經成為許多NLP 系統的重要基礎。
李紀為博士在中國長大,曾在北京大學學習生物學,隨後他到美國康奈爾大學攻讀生物物理學博士學位。但他很快將研究領域換成了NLP,並先後進入卡內基梅隆和史丹福大學,最終成為史上首個在3 年內獲得計算機科學博士學位的學生。
李紀為博士還探索了其他方法,讓人工智慧能夠更好地識別語言數據中的模式。2014 年,他和團隊將Twitter 帖子與美國氣象數據相關聯,研究天氣是如何影響用戶的情緒。首先,他手動給600 條推文貼上了快樂、憤怒、悲傷等標籤。他用這些標籤數據訓練了一個神經網絡來評估一條推文的情緒,並將得到的情緒信息與2010 年和2011 年發布的所有推文中約2% 的地理位置數據進行交叉對比。
得到的結果並不令人驚訝:下雨時,人們的情緒會變差;天熱時,人們會更容易表達憤怒。而對李紀為博士來說,這是一堂關於如何從大量文本中獲取隱藏信息的實驗課。
2017 年完成學業後,李紀為博士回到北京創立了專注在NLP 領域的香儂科技。香儂科技正在開發機器學習算法,分析各類商業報告、社交媒體推文裡的文本信息,並以此進行經濟預測。
李紀為博士還嘗試將深度強化學習用於生成自然語言,對他來說,這是NLP 的進一步應用。他表示,一旦你學會了閱讀,你就可以學習寫作。
即使是最好的聊天機器人,也會出現各種低級錯誤,比如語句不連貫、缺乏基本常識等,且對話越長,AI 的對話效果就越差。李紀為博士的技術能夠讓AI 更好地掌握語言的結構。在對話中,如果語句中有明確的語法,那AI 就更容易識別語句的主語和賓語等。例如,如果你對機器說「我們開始吧?」,普通的機器可能會回答「當然!」,但這樣的回答內容其實可以接在任何問題之後,而李紀為博士開發的技術能讓AI 參考此前的對話內容,給出像"是的,我們還有很多事情要做" 這樣的回答。
(以下為獲獎內容原文)
Jiwei Li applies deep reinforcement learning—a relatively new technique in which neural networks learn by trial and error—to natural-language processing (NLP), the field of computer science in which programs are made to manipulate human languages.
By using deep reinforcement learning to identify syntactic structures within large pieces of text, Li made machines better at extracting semantic information from them. Syntax refers to the grammatical relationship between words, while semantics refers to their meaning.
In written language, words with a close semantic relationship are not always close together on the page. A verb and its object can be separated by a string of adjectives or a subordinate clause, for example. Previous attempts at getting machines to parse natural language often overplayed the importance of proximity, leading to obvious mistakes. Li’s machine-learning algorithms find the grammatical structure of a sentence to get a much more reliable sense of the meaning. They have become a cornerstone of many NLP systems.
Li grew up in China and studied biology at Peking University before moving to the US, where he began a PhD in biophysics at Cornell. But he soon switched fields, turning to NLP first at Carnegie Mellon and then at Stanford, where he became the first student ever to obtain a computer science PhD in less than three years.
Li has also explored other ways to teach artificial intelligence how to spot patterns in linguistic data. In 2014 he and his colleagues correlated Twitter posts with US meteorological data to see how weather affected users』 mood. First he labeled 600 tweets by hand as happy, angry, sad, and so on. He used this labeled data to train a neural network to assess the mood of a tweet and cross-referenced that mood against geolocation data for about 2% of all the tweets published in 2010 and 2011.
His results were not surprising. Moods worsened when it rained; people expressed anger when it was hot. But for Li it was a lesson in how hidden information could be extracted from large amounts of text.
After finishing his studies in 2017, he moved back to Beijing and founded an NLP startup called Shannon.ai. Li’s company is building on the pattern-matching work demonstrated in the Twitter weather study to develop machine-learning algorithms that extract economic forecasts from texts including business reports and social-media posts.
Li has also applied deep reinforcement learning to the challenge of generating natural language. For him it is the obvious next step. Once you have learned to read, you can learn to write, he says.
Even the best chatbots still make obviously stupid mistakes, spewing out non sequiturs or displaying a lack of basic common knowledge about the world. The longer a conversation, the harder it is for an AI to keep track of what’s been said. Li’s techniques give AI a good grasp of linguistic structure. In a conversation, keeping track of subjects and objects is easier if the syntax of utterances is explicit. For example, given the question 「Shall we get started?」 a bot might answer 「Of course!」—but that response could follow any question. Li’s technique can instead give responses more like 「Yes. We』ve got a lot of work to do here,」 referencing the content of the original query.
以下為完整榜單:
註:文章內容來源於麻省理工科技評論。