文字作為一種極其高效的信息傳達方式,它有著數千年的歷史和傳統。隨著信息的概念逐漸普世化,於是人們開始使用機器來理解文字,從而實現更高效的文字工作。這種技術被稱之為自然語言處理,它有兩種分類:基於文本的應用和基於對話的應用。
基於對話的應用是指在預先的知識庫中搜索用戶問題的答案,比如這群AI黃埔老兵們的創業公司,要搞出一套「任性」的AI導購技術丨源創專欄一文所介紹的。基於文本的應用則是通過對文庫的解讀,進行提取文章關鍵信息、翻譯成另外一種語言、把文章歸類等操作。
本期的主角便是一家研發這種技術的公司——深度好奇。
什麼是深度好奇?
從模式上來講,深度好奇其實非常好理解,通過該企業的自然語言處理與文字相關的行業相結合,從而讓客戶企業達到更高效的業務效率。不過從技術上來講,深度好奇就變得異常難理解了,非常像是通用人工智慧技術的理念。
深度好奇創始人呂正東稱這種技術為神經符號系統,利用符號智能和深度學習結合所產生的新框架,可以用來理解複雜文本。
傳統的符號系統被稱之為單一符號系統,也被叫做傳統知識求精系統,典型的如SEEK/SEEK2、EITHER\NEITHER。這項技術雖然可以簡化知識庫,早在 1995 年的時候,浙江大學生物醫學研究所的王繼成、呂維雪等人就在利用神經符號系統來讓機器理解心電圖。但是傳統的符號系統效率和容錯能力都很低,因此並沒有得到良好的發展。而神經網絡可以實現大規模的並行運算,因此把符號系統與之結合,就能得到超高的效率和容錯能力。
所謂理解複雜文本,指的就是其字面意義。諸如法律訴訟、行業報告,甚至更原始的文本。目前,深度好奇已經把這項技術適用在了法律、公安和金融這三個領域之中。該企業有一項業務是生成法院判決文書,非常具有代表性。
深度好奇利用神經符號系統,把案情梳理、判決意見等文本進行理解,最後生成合乎標準的判決文書。呂正東告訴 DT 君:「在閱讀這些原始文本中,機器會去判斷,哪些可以直接複製粘貼以及哪些需要重新編寫。就像記者寫文章,要有素材也要有主編的修改意見。」
圖丨深度好奇的辦公室(來源:DT君)
深度好奇最早接觸的行業便是法律,當時呂正東的想法是合作以及解決辦法的銷售。隨著企業的發展,他改變了策略,深度好奇開始將被動轉向主動,即把行業資源拉入自己的業務之中。呂正東說:「早期的深度好奇是把方案給客戶,然後客戶做成產品拿去賣錢。」
呂正東接著強調,在公安方面其實深度好奇的業務空間是很大的。從報案開始,信息會以非結構化的數據形式錄入到公安系統當中,比如筆錄、證詞等等。在這些文字中,會出現很多的關鍵信息,不過文本本身還是比較混亂,如果與嫌疑人、受害人結構化信息(如身份證號)相匹配時,並不易於查詢。
深度好奇則是利用神經符號系統,把這些關鍵信息進行知識梳理,將其簡化以方便後續過程中的查詢。同時該企業還能進一步匹配信息,不同案情的屬性如果相似,就會相互連接,從而讓查案更高效。
呂正東認為,自然語言處理的發展方向就是理解。把知識從文本中提取,並歸納總結,最後便簡化了閱讀的過程。但是這種歸納總結和搜尋引擎所使用的關鍵字提取有著截然不同的區別,簡單的匹配技術對於文本的知識提取來說,遠遠是不夠的。以中文為例,「佟大為老婆生下女嬰」,在搜尋引擎的算法中,這極有可能是一位英雄父親為減少妻子分娩痛苦而做出的改變,然而事實上,是佟大為的老婆生下了女嬰。
實際上,做中文的自然語言處理是非常難的,中文詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態標記。因此,中文信息處理的特有問題就是如何將漢字的字串分割為合理的詞語序列,也就是漢語分詞。自然語言處理本身就要考慮語法、語義和語用,再加上分詞,複雜語言的處理過程就是難上加難了。
誰組成了深度好奇?
在創業之前,呂正東博士曾任職於微軟亞洲研究院、華為諾亞方舟實驗室。按照他本身的說法,呂正東早期從事的是比較泛用的機器學習。但是他並沒有那麼熱愛實驗室那種每年發表幾篇論文的感覺,呂正東更喜歡創一番事業。
呂正東很崇拜谷歌,也很喜歡 DeepMind。拋開後者資本驅動的一方面,DeepMind 是在朝著其研發的方向而前進,即研究人腦的計算方式反哺人工智慧以及強化學習等。
不過,呂正東也不想讓自己的公司變成 DeepMind,他覺得這家公司太過於方法導向,以至於很難在某一個領域成為標杆。他希望能讓企業達到 DeepMind 的高度,而不是變成這麼一家發散型的科技公司。
呂正東的想法是把聰明的人攢在一塊,在某一個領域取得突破,於是就有了深度好奇。
圖丨充滿文藝氣息的呂正東(來源:深度好奇官網)
在自然語言處理領域,許多人認為 Facebook 其實也是領軍人物,但呂正東卻持相反意見。他認為,Facebook 的閒聊機器人也不過是停留在自然語言處理的初級階段,並沒有真正理解文本。呂正東更進一步表示,現在行業變現難,最根本的原因就是技術沒有過關。
「雖然他們是小學生,其實我們在自然語言處理也只能算是個中學生。」呂正東自嘲道:「我想推動行業的邊界。就像是人臉識別,那個行業並不是因為什麼人臉識別才得到發展,而是有了 ImageNet 那樣的資料庫。」
呂正東沒少在 arxiv 上發論文,比如 2014 年發表的《A Parallel and EfficientAlgorithm for Learning to Match》。截止至今,該論文已經被應用了數百次。這是一篇在語義匹配領域奠基性的論文,大多數做語義匹配的科技公司都會用到其中的方法。
雖然呂正東是深度好奇的創始人,不過他並不是 CEO,而是 CTO。深度好奇的三位創始人都是 70 後,也都是在計算機領域發展多年的自身專家。
通用型自然語言處理會有多大市場?
通用型技術的最大特點就是市場大,深度好奇光是在法律方面,就已經有三種細分客戶:消費者、律師事務所、法院。事實上,想要搞清這家公司所面對的市場,就需要了解「語言」的市場。
先從消費者端來說,神經符號系統和搜尋引擎的匹配度是十分高的。2004 年到 2006 年期間,搜尋引擎的爆火推動了整個文本相關的計算機信息技術研究工作。生活在當下的我們,可以明顯感覺到搜尋引擎已經很難滿足人們獲取信息的需求。
在網絡環境下,面對的多是用戶不同的檢索需求和表達不嚴格的信息需求。而面對相同的查詢,可能因為用戶的信息需求不同,或同一用戶不同時間的需求不同,產生了對同樣結果的不滿意。
除了考慮採用更緊湊的數據結構和高效的算法外,自然語言處理可以起到至關重要的作用。在上文中提到,深度好奇有一項業務可以對知識庫進行簡化和歸類,方便人和機器的查詢。在搜尋引擎中,這是一種文本預處理技術,它可以對結果進行分類,面對用戶簡單而充滿歧義的檢索需求時,就能直接在相應的類別中查找,省去了用戶二次篩選的麻煩。
相當於在文檔結構中進行分段管理,按用戶可能需求的文本類別返回用戶,提高了針對性就意味著提高了效率。假設用戶搜索的關鍵詞是「微軟」,那麼他有可能是財經媒體,想要查看微軟財報,也有可能是想和小冰聊天。如果能夠用技術把不同類別的信息進行歸納,那麼用戶只需要在類別中查找他想要的信息就可以了。
其次,用戶的興趣可能不在於「查詢」,而是在「瀏覽」,以獲取某個領域中他們想要的知識。現實中這樣的用戶大有人在,但是他們在搜索中往往只會給出模糊且簡單的關鍵字。那麼,利用自然語言處理技術將網頁預分類,用戶就可以順著這樣的目錄層次找下去,逐步被引導至所需要的信息領域。
Yahoo!的層次目錄就是最好的例子,與之類似的還有 Open Directory Project。不過這些還不夠好,經常出現錯誤引導。比如,搜索「錨草論」,無論怎麼點選都離不開B肝和花錨草,永遠無法跳轉到魔獸世界 8.0 中草藥學錨草 2 級採集的任務物品中。
這是因為傳統的層次目錄沒有對文本信息進行理解,只是把關鍵詞以及其周邊進行了匹配,造成了一種「看似相關」的假象。
如果從呂正東所推動的「神經符號系統」來看,那這個市場就更大了。舉個例子,這項技術可以被用來做個人貸款審批。神經符號系統可以通過貸款人工作狀況、購買物品、性別、婚姻狀況、是否處於問題地區、帳戶存款餘額等訓練數據,就能得出其是否有還款能力的結果。
深度好奇有一家子公司,叫做深融科技。從事的就是普惠金融、保險等業務,這家公司就像呂正東強調的那樣,把被動變成了主動。
神經符號系統是片藍海?
科技公司是把技術變現的重要手段,人工智慧這項技術雖然仍處於起步階段,但是投資者早就開始瞄準「AI+X」了。這是因為人工智慧的基礎研究者們非常多,大量的算法充斥著市場,使得創業者們必須想方設法地找到「X」,才能把技術落地。
放眼全球,截止至今天已經出現了不少神經符號系統的研究者。Van 提出了一種如何將模糊規則輸入神經網絡的方法,從而為進一步的知識表示和知識求精做準備;Tsang 等人提出了一種新的模糊規則表示方法(FPRs),每條模糊規則都有兩種權重——局部權重和全局權重,再去利用不同的權重獲取知識。
然而,國內的研究現狀卻遠不如國外,從 1997 年至今,關鍵字為「神經符號」或者是「符號神經」的論文少之又少。因此,把這項技術變現的公司就更少了。
但是需要注意,獨特不一定好用。任何一項好的技術,它存在的前提就是要經歷市場的考驗,深度好奇也不例外。雖然呂正東的研究工作從很久前就開始了,但是這家公司僅成立不到一年。
呂正東表示,「雖然我們剛完成了天使輪融資,但是今年開始已經陸續有收入了。」
樂天派的創始人
深度好奇在先前已完成的天使輪融資金額為 1000 萬元人民幣,目前正在尋求 A 輪融資,數額約為 6000 萬到 1 億元人民幣。
據鯨準平臺的數據顯示,在自然語言處理相關的創業公司中,2017 年 9 月一共有 24 個投資項目,但今年迄今卻僅有 11 項,整體來看是處於下滑趨勢的。這類創業公司中,有超過 40% 的企業處於種子輪或天使輪,而完成 Pre-A 和 A 輪融資的則佔 30%。
自然語言處理類創業公司有一個特點,就是成立時間大多在 2016 年,佔比 18.95%。2015 年和 2017 年總和約為 20%。從人工智慧這個大類來看,2015 年、2016 年、2017 年成立的創業公司是相對平均的,均為 15% 左右。
整個人工智慧版塊的趨勢相對平穩,不像自然語言處理類這樣存在明顯的下滑。這可能是一個風向,代表著投資者對後者的看法。這其實很好的呼應了呂正東說過的話:「不是應用不行,而是技術沒達標。」
值得注意的是,在國內的融資列表中,做複雜語言理解的創業公司確實不多,而國外相關公司的狀況,又難與國內的創業公司類比。或許真像呂正東希望的那樣,他們能夠突破自然語言處理的邊界,在技術上達到 DeepMind 的高度。每一個科研工作者都有著一個造夢的心,這位樂天派的創始人也不例外。
源創專欄介紹:
社會的發展離不開科技,這個理念是無數莘莘學子努力鑽研科學技術的動力源泉。為了回饋於社會,他們把獲得的研究成果發展成產品,或許是解決方案,亦或是硬體,這便是所謂的技術轉化商用。不過做企業和實驗室搞科研是根本上的兩碼事,前者更需要的是渠道以及市場。自從人類發明了交易,流通終究是資本逐利的遊戲。縱使是再高端的技術,若經受不住市場的衝刷洗禮,依然在劫難逃。DeepTech 深科技作為一家從科學到科技,從科技到產業的內容知識服務提供者,我們執著於最先進的技術,同時也願意為這些高新技術型創業公司鋪路。通過深入企業內部,讓市場以及大眾來了解企業如何塑造出這些技術。這種創業公司的報導也致力於服務投資者,給予他們新鮮的投資方向。除此之外,我們也希望一些想要創業,或者正在創業卻找不清方向的高新技術人士能夠在閱讀他人創業的過程中得到啟發,早日步入正軌。我們會報導怎樣的企業?基於創業這個特點,DeepTech 深科技會報導處於早期的創業公司,大約是在種子輪到 A+輪之間。這樣的篩選範圍是為了保證報導能夠更加有可讀性,一些融完了 B 輪、C 輪的企業,他們往往已經找到了自身的發展方向,相關的報導只能起到點綴的作用,並不能幫上什麼大忙。相反的,對於剛開始創業的人來說,如果能夠起到作用,幫助資本與市場了解認知這些高新創業公司,那將是我們莫大的光榮。我們會怎樣報導?一篇合格的創業報導,理應寫清這家公司所在做的具體項目以及創始團隊的背景,就好像一份縮減版的招股書。因此我們需要對這家企業的創始人進行專訪,以便獲取優質的獨家素材。在這之後,我們也會給出獨立的觀點,比如如何評價這家公司的業務以及模式,它是否符合當下的市場需求等等。報導並不完全等於打廣告,這其中的差別在於媒體要保持一種客觀的態度,這也是 DeepTech 深科技所堅持的立場作法。當然這還不算完,上文提到,這是一篇同時服務於創業者以及投資者的系列,因此我們會對這家創業公司所處的領域進行分析,例如該行業目前的資本狀況如何,是否歡迎新玩家登陸等等。最後,當此系列所處同一領域的企業積攢了一定數量時,我們會製作「總集篇」。回顧這些公司,看看他們的經營狀況如何,以及這些創業者是否還保持著那份衝動的初心。根據目前規劃,「源創---鴻繹智庫DeepTech 投創集」專欄將自即日起,每兩周刊出一期。怎樣聯繫我們?正如讀者們往常看到的一樣,DT 君無所不通,也無所不及。如果你是一位正在初期的高新技術創業者,那麼無論是什麼行業,無論身處何方,我們都十分歡迎。動動你的手指,將你的創業公司簡介、創始團隊簡介以及聯繫方式發給我們,你就會在不久後收到我們的回覆。聯繫郵箱:zhuanlan@mittrchina.com 聯繫