馬維英:AI Lab是公司最能冒險的部門,五大AI戰略資源是鑰匙

2021-01-08 新智元

新智元原創

編輯:三石

【新智元導讀】AI Lab在一個公司應當是什麼樣的角色?字節跳動副總裁、人工智慧實驗室主任馬維英表示:AI Lab不僅是公司內部的AI研究所,也是AI技術提供商與服務商,應當注重與高校和政府的合作,並強調人才培養的重要性。

AI Lab應當是公司的「廠牌」。

字節跳動實現建設全球創作與交流平臺的願景,以及取得當前全球化進展,都離不開人工智慧技術提供的關鍵支撐。字節跳動一向重視人工智慧技術的發展,而其AI Lab,最開始是因NLP領域科學家李磊的加入而出名,隨後馬維英、李航等大佬也陸續入夥。

與此同時,今日頭條更名為字節跳動,推出抖音、火山小視頻等一些列風靡全球的產品,估值上升、用戶增長。

而這一切背後提供支撐的人工智慧實驗室卻鮮少露面,這一年來字節跳動的AI Lab究竟都做了什麼呢?作為亞研院前常務副院長的馬維英,所帶隊的字節跳動AI Lab又有何不同呢?

11月11日,字節跳動舉辦了2018 AI OPENDAY沙龍。活動展示了字節跳動AI Lab在計算機視覺、自然語言處理、語音和視頻處理、機器學習等領域中取得的一些列成果。

而後字節跳動副總裁、人工智慧實驗室主任馬維英,針對此次沙龍活動做了主題演講,慢慢揭開了字節跳動AI Lab神秘的面紗。

馬維英談AI Lab吸引優秀人才的秘籍:五大AI戰略資源是關鍵

相似於人才培養:給予自由,讓興趣成為自驅的動力

馬維英表示,之前在微軟亞洲研究院時特別欣賞其培養人才的一個方式,就是當新人剛入職時,不會立刻讓他們選擇具體研究方向,而是會給予他們足夠多的自由和空間,激勵他們尋求自己最為感興趣的一個領域。

在這個方面,字節跳動也是如此的。馬維英很感謝微軟給他的成長空間,因此到了字節跳動之後,他也在新的團隊延續了這樣的氛圍。字節跳動AI lab特別喜歡自己有想法、能夠自驅、願意不斷去學習且更加無所畏懼的研究人員;而不是害怕失敗,著重於眼前利益的人。

區別於數據與場景:微軟研究院專注於技術轉移,字節跳動AI Lab鼓勵研究員直接參與到產品研發,利用豐富的應用場景、大量的數據和用戶反饋推進科研和技術創新

除了基礎研究這方面,微軟做的更多的是技術轉移。與微軟不同的是,字節跳動擁有豐富的應用場景。大量的數據和反饋對AI Lab的工作是有幫助的。就像在象牙塔裡搞研究,有時反而解決不了問題。只有解決真實的應用場景問題,才是所謂的Real Impact。

正如最近一位UC Berkeley的教授所述,要做「Use Inspired」的研究。而在字節跳動,非常幸運一點就是,人類所有的數據都在信息和內容裡。

再具體一點可總結為一句話:字節跳動擁有做AI最重要的五個戰略資源。

大數據:最好這家公司能夠擁有全世界最大的數據資源,擁有數據才是「王道」;應用場景:在字節跳動,研究人員每天都能夠從公司的應場景中找到問題,並想要去解決;算力:而字節跳動的Internet Data Center在國內也是比較出眾的;AI需閉環:其實很多用戶交互相當於遞給了你一份大數據的,提供了更為細粒度的標註數據,而字節跳動每日全球活躍用戶所提供的數據之海量,堪稱一筆財富;人才:最頂尖聰明的人才是非常關鍵的一點。不僅公司內部要有這樣的人才,最好與之相關的學術界、產業界、社區都是頂級的人才。

在基礎研究方面,字節跳動的AI Lab研究領域包括計算機視覺、自然語言處理、機器學習、語音&音頻處理、數據&知識挖掘、計算機圖像學、系統&網絡、信息安全以及工程&產品。

馬維英表示,字節跳動會在每個領域中,都會招聘最優秀的人才,而在招聘後不會立即確定他們的方向,而是會讓他們摸索自己感興趣的方向,而後再做出選擇。

除了基礎研究,字節跳動AI Lab也非常重視工程落地的能力,因此也倍加關注對這方面的人才招聘。將工程團隊與科研研究人員混搭在一起,做更好的創新,並輸出核心技術,孵化產品,做到真正的AI應用落地。

正因如此,字節跳動吸引了一大批優秀的「新鮮血液」。例如,來自字節跳動AI Lab的一位90後研究人員,不僅論文被Transition of ACL收錄,還被邀請去了墨爾本做現場演講。

該論文中所提出的模型在中英,德英和英法三個標準數據集上可以顯著地提高基線系統的性能,相比於老一輩的「覆蓋率模型」擁有更好的翻譯質量和對齊質量。

該研究也已成功的應用到了字節跳動旗下多款國際產品中(如TopBuzz、Tik Tok等等),為全球上億的用戶們提供著內容翻譯服務。

馬維英談招聘標準——三個關鍵字:

馬維英老師還透露了他在招聘人才時的標準,總結為三個關鍵字:

數學功底:能夠知曉問題的本質,對模型能夠有透徹的了解,而不是把它當一個黑箱或者工具,簡單的調調參數;編程能力:有很好的想法,但是無法實現也是不行的;態度:人際溝通、表達,對工作的態度也是非常重要的。另外,馬維英老師也非常注重眼神的交流,「大概溝通十分鐘,我就能看出一個人特質。」馬維英老師笑言,這可能是他在招聘中獨有的一種天賦。

字節跳動AI Lab定位:公司內部的研究所和技術服務商

國內外各大巨頭與初創企業紛紛成立人工智慧實驗室,而各家企業人工智慧實驗室所關注與努力的側重有所不同。

字節跳動人工智慧實驗室成立於2016年,依託字節跳動的海量數據,專注於人工智慧領域的前沿技術研究,並將研究成果應用於字節跳動的產品中,利用人工智慧幫助內容的創作、分發、互動、管理。將人工智慧最早大規模應用於信息分發便是字節跳動早期發展的核心。

AI時代下的4種管道連接人和信息,促進交流和創作

這4種主要的方式分別是推薦、搜索、助理與社區/社交。推薦和助理都屬於比較被動的方式,會根據用戶的所好進行內容的分發;搜索在今天也仍然重要,它是一種主動獲取行為;新一代的語音助理能夠讓用戶更加自然地與計算機進行交互,從而達到幫助用戶的目的;最後,類似轉發「朋友圈」這種社交式的信息傳播也是非常重要的。

新一代AI驅動信息平臺,使得交流與創作方式更加智能

人工智慧基礎設施、平臺與服務,基於大數據、人工智慧學習數據流的語義表示,對信息進行分析、處理、挖掘、理解和組織,使得內容能夠在分發、搜索、互動、過濾和運營方面變得更加智能,做到人工智慧輔助消費與生產。

所以,人工智慧實驗室所肩負的使命是艱巨而又重要的。

AI Lab賦能產品、服務人類

短視頻已然成為一個內容形態的爆發點。特別是計算機視覺、智能語音賦予了每位用戶更強的創作能力。

抖音是字節跳動風靡全球的產品。這個產品背後有非常多的 AI 技術。比如,抖音是一個開放共享的平臺,內容審核方面的挑戰是非常大的。字節跳動一直用人工智慧輔助審核,過濾理解這些視頻內容,進行版權識別。

目前平臺上,每天有龐大數量的短視頻內容被創作出來。而機器學習模型上線之後,也在持續不斷迭代完善。

在視頻內容領域也希望能夠做出更好的搜索。視頻的搜索需要對視頻的內容有更好的理解,包括動作的理解、物體的檢測跟蹤,還有視頻裡的環境識別。也希望針對每一個視頻,AI都能理解它的情感和情緒。

連接人跟信息是一個人類社會的基礎設施。在這個設施的運作過程中,能夠利用大數據、豐富應用的場景、大量的活躍用戶,去不斷完善和迭代,進一步賦能。而技術的進步最終是服務於人類的。

截至2018年10月24日,頭條尋人共彈窗52

字節跳動將人工智慧結合產品功能積極服務於公益,兩年半時間成功尋回7254名走失者的「頭條尋人」,這是一個典型的運用人工智慧促進信息效率,進而服務公益的產品機制:結合智能推薦和地理推送技術,以走失者走失地為圓心,根據走失者行走速度等信息進行數據分析和計算,預估出可能的走失範圍,在此範圍內推送尋人信息,實現每條尋人信息的精準地理範圍覆蓋和人群觸達,從而大大提高尋人成功率。

9月底上線、目前已成功尋回30名走失者的「抖音尋人」和「頭條尋人」工作原理一致,只是推送的尋人信息變成了短視頻形式,運用自動生成視頻技術,一條文字版的尋人信息,不到10秒鐘,即可自動生成為一條抖音尋人視頻。

馬維英對字節跳動AI Lab的定義為:公司內部的AI技術提供商和服務商,於未來將成為公司對外輸出AI能力的重要部門。

AI實力全方位展示:問鼎CVPR、NIPS、NAACL等頂會,榮獲吳文俊人工智慧科學技術獎

一個人工智慧實驗室的成功,少不了頂尖「智腦」的相聚與思想的碰撞。而字節跳動AI Lab可謂是群賢畢至,包括大家熟知的馬維英、李航、李磊等。

除了擁有大量優秀的科學領軍人物之外,2018年字節跳動AI Lab團隊建設和成長方面也是收穫頗豐。計算機視覺、自然語言、機器學習、系統&網絡的團隊人數比去年增加一倍之多,而語音&音頻、安全以及美國AI Lab的團隊人數更是飛速增長。

不僅在團隊建設,字節跳動AI Lab在學術和項目成果方面也可謂是碩果纍纍。

11月11日,在字節跳動舉辦的2018 AI OPENDAY沙龍活動中,展出了AI Lab許多優秀的項目與研究。

Deep Understanding of Live Soccer Matches

已被CVPR 2018接收

項目介紹:基於計算機視覺技術,系統可以對足球比賽視頻進行深度理解和信息挖掘,豐富球迷的觀賽體驗。該系統在2018世界盃期間介入今日頭條客戶端直播間,實時提供精彩時刻剪輯動畫、雙方進攻防守統計、足球運動熱力圖等多種信息;並於賽後為自動寫作機器人Xiaoming Bot提供圖像素材,豐富文章內容。

目標檢測

軌跡跟蹤

生成鳥瞰視角

捕捉精彩瞬間

相關技術:

檢測&語義分割:基於SSD的目標檢測,逐幀輸出球員和足球的位置;基於DeepSORT的多目標跟蹤,使用Kalman Filter對球員和足球的運動進行建模使用度量學習對球員外觀建模。相機估計&語義分割:檢測球場上的關鍵點,計算單應性變換參數,以此來估計相機的拍攝角度。號碼識別&球員聚類:使用半監督的空間變換網絡(STN)在檢測框內提取號碼區域進行識別。精彩時刻檢測:對固定劃窗內的片段進行分類,包含射門、任意球、角球、受傷等多種類別。統計分析:基於上述多種結構化信息,輸出多種統計指標,包括雙方控球率、足球運動熱力圖及控球區域分布等。

相比於人類作者,小明的效率和產量高,2秒就能成稿,每場比賽賽後發稿,2年內生成12萬粉絲和10億閱讀。過去頭條平臺上許多體育播報是由小明寫的,他每天讀很多內容,綜合網上文字描述理解和圖片例子和視頻理解能夠自動生成一個內容,分發給對某一類信息感興趣的讀者。

xiaomingbot寫作機器人也因此獲得了吳文俊人工智慧科學技術獎。

BRITS:BidirectionalRecurrent Imputation for Time Series

NIPS 2018

項目介紹:

時間序列在許多分類、回歸任務中被廣泛用作信號。時間序列中存在許多缺失值,這是普遍存在的。給定多個相關時間序列數據時,該如何填補缺失值並預測其類標籤呢?現有的歸一化方法往往對潛在的數據生成過程有很強的假設,比如狀態空間中的線性動力學。

本文提出了一種新的基於遞歸神經網絡的時間序列數據缺失值估計方法,BRITS算法。該方法直接學習雙向遞歸動力系統的缺失值,沒有任何具體的假設。將賦值作為RNN圖的變量,在反向傳播過程中可以有效地進行更新。

算法優勢:

(a) 可以處理時間序列中多個相關缺失值;

(b) 推廣到具有非線性動力學的時間序列;

(c) 提供數據驅動的估算程序,適用於缺少數據的一般設置。

實驗結果:

在三個真實世界數據集上評估BRITS模型,包括空氣品質數據集,醫療保健數據和人類活動的本地化數據。實驗表明,該模型在插補和分類/回歸精度方面都優於最先進的方法。

Reinforced Co-Training

NAACL 2018

項目介紹:

Co-Training是一種流行的半監督學習框架,除了少量標記數據外,使用大量的未標記數據。Co-Training方法利用未標記數據上的預測標籤,並基於預測置信度選擇樣本來進行增強訓練。

然而,在現有的協同訓練方法中,樣本的選擇是基於一種預先確定的策略,這種策略忽略了未標記子集和標記子集之間的抽樣偏差,並且無法挖掘數據空間。

本文提出了一種新的方法——強化Co-Training,來選擇高質量的未標記樣本,以便更好地進行Co-Training。更具體地說,該方法使用Q-learning學習一個帶有小標記數據集的數據選擇策略,然後利用這個策略自動訓練聯合訓練分類器。

實驗結果:

實驗結果表明,本文提出的方法能夠獲得更準確的文本分類結果。

獨木難成林,AI Lab需產學研結合

AI Lab與高校合作

珠穆朗瑪計劃:徵集來自計算機科學領域的相關研究提案,為學者的技術研究提供數據、資金等多維度支持。

校企協同,教學人員雙向流動:一線工程師赴校宣講授課,舉辦AI競賽開放海量數據,頭條青年訪問學者。

AI Lab與學術機構合作

2018 Byte Cup:

2018 Byte Cup國際機器學習競賽是一項面向全球的機器學習競賽,旨在促進機器學習的學術研究和具體應用。Byte Cup 2018的主題是自動生成文本標題。

AI Lab與產業合作

字節跳動人工智慧實驗室不僅與高校與學術機構有合作,還與產業界有著密切的合作。

2018年人工智慧與實體經濟深度融合創新項目公示,字節跳動申報的「基於分布式機器學習平臺的通用人工智慧應用解決方案項目」入選;「面向移動端的低功耗超時AR-VR開放平臺項目」入選2018雙創周「顛覆性創新榜」TOP10;北京市市長陳寧領銜,北京市科委牽頭,集首都高校、科技專家及領軍科技企業智囊之力,為提高北京市新一代人工智慧科技創新能力而集中建設的「北京智源研究院」,字節跳動為智能研究院發起成立單位之一,字節跳動技術戰略研究院院長張宏江出任研究院理事長。

相關焦點

  • 全球三十大最佳 AI 創業公司公布
    、中國十大最強 AI 研究實力企業、中國十大最具潛力早期 AI 公司、三十大最佳 AI 應用案例。 機器之心根據研究實力、技術與產品、市場與行業潛力、運營能力、資本與財務狀況、創新性與實用性等多項標準,評選出四項大獎:全球三十大最佳 AI 創業公司、中國十大最強 AI 研究實力企業、中國十大最具潛力早期 AI 公司、三十大最佳 AI 應用案例。Drive.ai、流利說、追一科技等GGV紀源資本被投企業入選榜單。
  • 為增強AI晶片實力,英特爾又收購了一個7個人的初創公司Vertex.ai
    雷鋒網消息,為了進一步增強在人工智慧領域的競爭力,英特爾又收購了一家AI初創公司Vertex.ai,不過交易的金額並未透露,但英特爾確認了此項交易,整個團隊包括創始人都將加入英特爾的人工智慧產品事業部。
  • 智東西晚報:SpaceX載人龍飛船預計8月2日返回地球 字節AI副總裁馬維英離職
    2、字節AI副總裁馬維英離職 將加入清華7月28日消息,據Tech星球報導,字節跳動副總裁、人工智慧實驗室主任馬維英離職,下一站將赴清華大學智能產業研究院任職,加入正在籌備該產業院的原百度總裁張亞勤團隊。
  • Roadstar.ai又添砝碼:自建模擬器,邁向運營深水區
    一虛一實的結合也使得Waymo在自動駕駛的路上走得更為領先,最高峰的時候,Waymo 利用 Carcraft 一天能跑 800 萬英裡。到目前為止,Waymo 已經利用這套系統積累了 500 萬億英裡的裡程。 一組數據是,Carcraft 每天在谷歌數據中心工作 24 小時。而模擬車隊裡有 25000 輛測試車。
  • ai文件用什麼軟體打開_ai文件怎麼打開
    打開APP ai文件用什麼軟體打開_ai文件怎麼打開 胡哥 發表於 2012-10-16 11:31:57 後輟為ai的文件是illustrator軟體(在廣告、印刷包裝方面使用的軟體)製作的矢量圖文件,而矢量圖的優點是如何放大圖像都不會產生馬塞克現象,即不會虛。
  • 字節跳動AI副總裁馬維英離職,因「個人興趣」選擇加入清華...
    從微軟亞洲研究院到字節跳動翻開字節跳動AI Lab的大咖名單,可以發現AI技術大牛李航、李磊、郭傳雄均匯集於此,而馬維英則是AI Lab的負責人。那麼馬維英到底是何許人也?博士期間,其負責開發的網際網路圖像檢索系統Netra被認為是最具代表性的圖像檢索系統之一。1997年工作後,先是加入美國惠普實驗室,從事多媒體自適應傳輸和移動網際網路的分布式多媒體服務系統的研究。之後,於2001年正式加入微軟亞洲研究院,一做就是16年。
  • 騰訊AI Lab 2020 年度回顧
    行業應用,科技向善 「科技向善」是騰訊整個公司層面的核心使命願景。作為騰訊大家庭的一員,騰訊 AI Lab 也同樣秉承著這一使命。同時,作為 AI 科技的前沿探索者,騰訊 AI Lab 深知 AI 變革世界的潛力。
  • 高工AI · 前沿 | 梅奧診所成立初創公司 利用 AI 開發新藥
    7月16日,美國梅奧診所(Mayo Clinic)和Nference公司宣布共同創辦一家初創公司。據了解,這家公司名叫「Qrativ」,將結合Nference基於AI的知識綜合平臺與梅奧診所世界聞名的醫療專業知識和臨床數據,以推進藥物的開發。其中,在A輪融資過程中,Matrix Capital Management、Matrix Partners和梅奧診所為Qrativ提供了830萬美元。
  • AI是如何檢測色情片的?
    這才是未來應有的樣子:公司提供個性化,現成的解決方案,使其全部業務能夠在越來越多的數據上訓練更好的分類器。就像Stripe and Square為不想在內部處理支持的企業提供現成的支付解決方案一樣,而AWS已經確立了自己作為託管網站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等創業公司正在爭相成為在線內容審核的一站式解決方案提供商。
  • AI每日精選:北京地鐵研究刷臉安檢;LG電子波士頓開設機器人實驗室
    以下新聞選自人工智慧信息平臺「機器之心Pro」:花最少的時間,看最重要的新聞。2.超星未來與賽靈思達成戰略合作,加速車規級智能駕駛感控平臺方案落地1 月 16 日消息,智能駕駛初創企業北京超星未來科技有限公司(Novauto,下稱「超星未來」)宣布與自適應和智能計算的全球領先企業賽靈思公司(Xilinx, Inc.,(NASDAQ:XLNX))達成戰略合作。
  • 「行業動態」癌症AI初創公司Nucleai,在A輪融資中籌集了650萬美元
    該公司表示,該技術結合了計算機視覺和機器學習。Nucleuai執行長Avi Veidman在一份聲明中說:「通過檢查病理切片,可以清楚地看到腫瘤與免疫細胞之間的戰鬥,就像戰場上的衛星圖像一樣。Debiopharm創新基金執行長Tanja Dowe補充說:「我們的團隊很高興能夠踏上這一冒險之旅,可以進一步了解AI在多大程度上幫助病理學家和腫瘤學家在診斷和預測方面變得更加精確。而Nucleai的AI驅動平臺,可能會對藥物治療的臨床研究產生巨大影響。」
  • 小狸AI英語課怎麼樣?掌門旗下小狸AI課測評:來爆料了!
    隨著智能時代的到來,針對低幼齡孩子的線上教育課程也開始採用ai技術,在斑馬ai課大熱之後,2019年下半年掌門教育也開始研發AI課,並在今年2月上線了小狸AI課app,今天,魚sir就來給大家調研測評一下掌門1對1旗下的小狸ai課怎麼樣?小狸ai英語的效果到底好不好。
  • 這些優質的 AI 資源絕對不要錯過
    本文列出了一些優質AI學習資源。希望在閱讀本文後,能幫助你順利開啟AI學習之旅。當中最著名和最受推崇的課程之一就是吳恩達的斯坦福機器學習課程。其他的Coursera課程在7天免費試用之後會收取費用,你可以免費收看課程視頻等內容。在這些課程中,我推薦以下這幾個好評最多的課程。
  • Roadstar.ai 自動駕駛樣車上路,深度融合技術路線能否超越Waymo?
    這輛車來自Roadstar.ai,這是一家今年5月成立,橫跨矽谷與深圳兩地的自動駕駛公司。公司三位聯合創始人佟顯喬(CEO)、衡量(CTO)、周光(首席機器人專家),曾供職於Google、蘋果、特斯拉、英偉達、百度等公司,擁有豐富的自動駕駛經驗。佟顯喬在今年6月接受新智駕採訪時稱,公司的目標直指L4級別自動駕駛,希望成為中國最強戰隊。
  • Facebook AI 年度總結來啦
    我們更新的 XNLI 數據集(https://code.fb.com/ai-research/xlni/)中的語言包括兩種資源很少語言(斯瓦希裡語和烏爾都語),我們的方法有助於跨語言理解,從而減少了對監督訓練數據的需求。
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    工業界經驗:2017 年創立醫療 AI 公司——宜遠智能,該公司集結了 20 多名人工智慧博士以及眾多海內外醫學顧問,為醫療健康領域提供 AI 增強解決方案,並與多家知名醫院達成合作,並推出成型產品。創立宜遠智能之前,吳博曾在愛立信大數據研究院任職,還曾主導過百億級虛擬品電商、數字貨幣系統的業務及數據架構建設與運營。
  • Tend.ai 可培訓機器人,幫你同時操作多個3D印表機和雷射切割機
    Tend.ai 就是一個可以滿足您這種需求的新公司,它能夠幫助用戶訓練協作性機器人操作機械,而這種機械操作本來是需要重工業服務機器人來完成的。Tend.ai 的聯合創始人兼 CEO Mark Silliman 在一次採訪中說道:「有一次,我看到我的一個朋友有 20 臺 3D 印表機,為了讓這些機器保持運轉,他妻子必須每隔三分鐘就跑到機器那裡進行一些相關操作,於是我有了這個想法。
  • AI界的State of the Art都在這裡了
    機器之心編輯參與:劉曉坤、思源近日,來自 MIT 和 UNAM 的四名學生構建了一個收錄了最優算法的網站,他們按領域、任務和數據集採集了最先進水平(SOTA)的論文,並為不同的任務提供了不同的性能度量標準。如果我們需要處理特定數據集或任務,這能大大減少搜索論文的時間,同時還能快速了解當前最優的解決方案。
  • AI 遇冷?斯坦福年度 AI 報告來揭秘
    在 2019 年,斯坦福聯合 MIT、哈佛、OpenAI 等院校和機構,從研發、學術會議、技術性能、經濟、教育、自動駕駛與自動武器、公眾認知、社會考量、國家戰略與全球 AI 活力九個維度,對全球發展現狀進行了盤點。
  • 盤點國內排名前十強智能客服ai電銷機器人品牌商家
    智能客服ai電銷機器人的強大功能優勢讓很多企業都讚不絕口,那麼相必很多人都對智能ai電銷機器的排名榜也是非常感興趣的,在這裡就由我來和大家分享下國內排名前十強智能客服ai電銷機器人品牌商家,供大家參考!