一家「傳統」IT上市公司的人工智慧「新路」

2020-12-24 機器之能

智慧城市是什麼?國內一直沒有一個清晰的定義。業內各方從自身角度出發都做過一些嘗試,但目前還沒有形成一個共識。為了儘可能更準確地定義「智慧城市」,機器之心決定推出「智慧城市深度訪談」系列。我們希望通過多角度轉述業內專家的觀點,呈現出一個目前中國在「智慧城市」領域的發展現狀及所遇困難的全貌,以供各方參考。我們認為,智慧城市不應是高房大瓦與電子版「千裡眼順風耳」的簡單堆砌。而應從體驗出發,在軟性環境中體現出一個城市對居民的人文關懷。要做到這一點,第一步便是能感知市民的整體真實需求。其中,讓機器理解人的語言以及「數據打通」的能力必不可少。

撰文 | 周海聃

編輯 | 樊曉芳

作為機器之心「智慧城市深度訪談」的第一站,我們有幸採訪了一家在自然語言處理以及大數據領域已有多年項目經驗,並有自己獨特工程化思考的上市公司。與人們的印象不同,神州泰嶽通過多年的兼併重組,已經陸續發展出人工智慧、物聯網板塊,成為了一家多板塊綜合性企業。

本次訪談的嘉賓,神州泰嶽人工智慧研究院院長晉耀紅博士,與 AI 大數據副總裁張瑞飛,共同向我們介紹了神州泰嶽與眾不同的基於語言學知識構建的 NLP 語義分析平臺,及以「數據高速通道」取代「動遷式」做法的智慧城市大數據新思路,還介紹了神州泰嶽如何通過工程化的思路,讓人工智慧算法真正結合到實際智慧公安場景中的經驗。

以下為對話原文,機器之心做了不改變原意的整理:

需求驅動的語義分析工程特色

機器之心:神州泰嶽人工智慧聚焦自然語言處理技術,業界對神州泰嶽人工智慧業務最起初的認識也是從「DINFO-OEC 非結構化文本分析挖掘平臺」這個語義分析產品開始的,該平臺是如何設計並建設起來的?

晉耀紅:我之前在中科院主要做「HNC(Hierarchical Network of Concepts)概念層次網絡理論」的研究,這是一套涉及詞語、句子到篇章之間的關係全框架理論。

當時希望設計一套語義網絡把語義給符號化,比如「高興」和「傷心」是一對反義詞,但把這對詞直接輸入到計算機,計算機是無法理解這對詞之間的反義關係,我們希望通過用符號的語言描述讓計算機能理解這種關係。

後來在北師大時做的國家課題——「針對海量文本的知識表示和計算」,也是基於 HNC 理論上的擴充研究,是十二五國家 863 項目中中文信息處理語義相關的唯一課題。

再後來創辦了中科鼎富,做企業以後才發現一個個零散算法的研究,在面對客戶的具體需求時是遠遠不夠的,對方更希望直接看到產品在他們的業務場景下能產生什麼效果。後來在市場上慢慢打開局面的方法,就是推出「DINFO-OEC 語義分析平臺」。

DINFO 為「鼎富」的英文名,OEC 代表「Ontology-Element-Conception」,「OEC 模型」是由本體樹、要素樹和概念樹三棵樹組成。我們希望由本體樹、要素樹直接描述業務,由概念樹來對剩下的複雜語言的語義進行處理。

OEC 平臺主要做兩件事:1、把零散的算法按一定規則集成起來;2、根據業務建模,即把客戶的業務知識系統性地通過符號化處理表達出來,平臺底層算法自動把數據進行整理。平臺的定位就是把信息系統性地分類整理出來,將非結構化信息轉結構化,根據算法自動把信息進行分類、提取標籤。

比如在處理投訴業務的客服場景,客服系統接收到的是一條條非結構化的投訴文本信息,OEC 平臺能將投訴的「對象」、「內容」、「重要性」等結構化信息從文本中分析出來。一條投訴文本可能有 1000 字,客服想要看的可能就是幾個信息點,比如建議、表揚,還是投訴等標籤化的信息。

目前平臺底層中與 NLP 相關的算法有 200 多個。最簡單的如 word2vec 這些訓練的工具,在平臺底層都有集成。訓練的時候可以自行選擇 SVM、LSTM 等算法。平臺在金融、公安業務中的分類、提取功能的正確率和召回率都能達到 95% 以上。

機器之心:目前神州泰嶽的 OEC 語義分析平臺在業內有競品嗎?

晉耀紅:我們在業界暫時沒有競品。

在算法技術路線上,我們更強調對語言本身的理解,堅持以本體論為框架,把人的語言學知識符號化,局部結合機器學習的算法。從我們在中科院期間研究的 HNC 概念層次網絡理論到現在的 OEC 平臺,其實都是以本體論為核心。

我們在這個技術路線下,希望在更高、更抽象的層次,用本體論的思想把理解相關的根本性的知識解決掉,剩下的適合交給算法的局部再交給算法處理。

國內其他一些跟 NLP 相關的公司,目前主要還是在算法層面希望做的更精細。受到深度學習的影響,目前國內其他公司研究的重點更多是 seq2seq 的這類跟語音相關的問題。輸入的是語音的 sequence,輸出的是文字流的 sequence,對句子與句子之間語義關聯性,以及篇章中段落之間的關聯性關注要少一些。

這種方法適用性可能會更好一些,但最根本的問題是沒有真正的理解語言。單獨基於深度學習的算法,在測試集上看上去效果很好,但是實際落地的場景中基本很少看到。因為在實際落地的場景中,訓練的語料庫往往沒有那麼大。

機器之心:所以稱神州泰嶽 NLP 技術「自成一派」的原因主要還是在選擇以本體論為核心的語義理解技術路徑上。能否再具體介紹一下你們的技術研發方法論?

晉耀紅:NLP 對於語義領域的研究現有兩大學派:一派堅持用一定的語言學知識為基礎的研究方法;另一派是純計算機的,主張完全用計算機算法來拆解語言之間的關係,包括用統計學習、機器學習、深度學習等方法。這兩派暫時沒有孰優孰劣之分,要靠實踐來檢驗。

我們跟很多純計算機學派的研究者也是朋友,他們的觀點主要是,不管語言裡是什麼都標註出來。但這有點像大海撈針,需要考量背後的計算力及付出的代價。基於語言學的研究者則希望教會計算機人類語言的規則和知識。在這一點上,兩個派別不能達成一致。

神州泰嶽作為一家商業化運營的公司,主要服務企業客戶,目的是在有限的時間內有效解決問題,不參加學術研究路線之間的爭論。

我們從歷史工程項目中總結的經驗出發,把已有的人類語言學的知識,通過語義庫告訴機器。在多年的積累下,我們的語義庫已積累了 80000 餘個語義概念,主要是中文詞,包括上位詞、下位詞、同義、轉義等等,通過語義對一個詞在特定語境下的概念進行描述。

語義庫是人對常識知識和語言知識的積累和表示,所以我們希望把它符號化。目前我們有一個由 30 餘人的語義庫團隊在做語義符號化的工作,他們大部分是語言學背景的。

除此之外,還有語料庫,主要對客戶的文本數據進行標註,從中提取和分析出來其中包括的語言知識。前段時間神州泰嶽跟北師大聯合發布的 Chinese Word Vector 語料庫,這個語料庫生成的 word2vec 基礎資源機器可以直接使用。(機器之心報導:深度 | 自然語言處理的一大步,應用Word2Vec模型學習單詞向量表徵)

從語料到語義存在一個知識的提煉過程,語義庫和語料庫是一個相輔相成的關係。

把人的語言學知識告訴機器的做法,一個最明顯的優勢是在應用場景下可以做到冷啟動。比如公安、客服系統,用已有的語義分析框架使系統先啟動起來。雖然也許一開始效果並不一定特別理想,假設準確率是 50%,但這部分準確的語料就可以作為標註語料,作為算法學習的樣本,去做擴充,然後做一定的泛化。這樣形成一個良性循環,不斷的逼近客戶要求。

目前很多深度學習應用場景下,需要足夠的語料來訓練。假如光訓練預料就需要 1 個月,這 1 個月也許客戶就沒有耐心了。有些客戶就是想要兩天時間內就看到效果。另外很多客戶數據也不可公開,無法準備出符合要求規模的數據去讓機器訓練。

張瑞飛:80-90% 的客戶都有這樣的問題,比如中國電信,客服的動單分類有 2000 多項。電信自己整理了 3 個多月,每一個分類下的數據都很少,但電信也不可能在每一個細分小類都幫助我們訓練出那麼大量的數據,提供給機器學習算法訓練。

實踐過程中很多場景都有這個數據冷啟動的問題。晉博士提出的方法是在沒語料的情況下能產生一定效果,然後在效果上進行優化迭代。

晉耀紅:再比如,我們最近在給工信部做一個公文寫作的研究課題,其中一個模塊就用到深度學習的方法來對句子進行複述,把表達方式上弄得更豐富一些。但我們發現公文的語料就很少,我們把所有工信部的公文全部搜集起來才 18000 篇。18000 篇對於公文來說已經很多了,但是對於機器 seq2seq 的算法還是很少,這樣用深度學習訓練出來的算法還不可用。

所以我們就結合人的經驗知識,讓機器在 18000 篇裡面自動學習每一種公文類型,或者每一個發文對象寫作的規範或者寫作的格式。利用學習的結果去摘取或者自動寫一些句子,所以在這種場景中我們還是把人的知識結合起來。

工程經驗幫助平臺完善底層算法

機器之心:在面對自然語言理解的問題時,很多訓練語料都需要人工提前標註。但也是因為語言的範疇很大,語義特徵定義起來很困難。那語義模型的泛化能力的根本,是否取決於人們花多少時間去標註出多大規模的語料?

晉耀紅:這裡面其實涉及兩大類知識。

第一類是需要人工定義,用於理解基本詞彙語義的「常識性知識」。比如我們這個對話的場景下,很多關於人工智慧的知識都算是常識,開始對話前對話雙方就都理解了,這就建立在雙方都互相了解一些特定詞彙的概念的基礎上。在我們這個平臺模型裡,主要體現在常用詞彙的語義和語義關聯性,比如「高興」和「傷心」這兩個詞在各個行業場景中的意思基本不會變。這類常識性語義的知識基本靠人工來構建。目前我們已經構建了 80000 多個資源的語義庫,覆蓋了大部分的中文詞彙。

另一類是可以人工給的,但也可以通過人工標註讓機器自動學的「非常識性知識」。比如特定領域的分類體系,需要人工給定義,機器可以進行一定程度的學習,但主要還是靠人工。但也有一些領域可以通過語料標註來自動學的。比如司法領域裡,一些收集不全的專業法律術語就可以通過算法、語料讓機器自動學習。

張瑞飛:深度學習的方法要有泛化的能力,一定需要數據去驅動。

舉一個實際情況例子,我們對 A 市公安案事件的學習,模型對案件分類、要素提取的準確率,直接用深度學習的方法可能能到 70-80%,但是一放到 B 市、C 市公安案事件,準確率就會降到 50% 以下。因為比如一些 B 市、C 市的方言語料,系統在 A 市的文本中沒有見過。

那麼解決的方法,第一種就是疊加使用晉博士基於本體論的方法。因為本體論是可以通過小語料用符號規則來表示的,注入先驗知識。我們通過這個方法把深度學習模型 70-80% 的準確率提升到 90% 以上。

第二種是通過遷移學習的方法。

第三就是使用大量標註語料。我們對整個公安 400 萬個案事件進行了標註,提取了該領域的詞向量 20000 個。通過上面多種方法的疊加,最終準確率達到 99%。達到這樣的水平,我們才能說有泛化能力。

這個過程付出的成本還是挺大的,因為公安網不允許連外網,一定要駐場標註。同時還需要通過一線業務人員的反饋,才能知道提取的特徵的準確性。而且在模型黑箱訓練的過程中,還沒法進行修改。

所以不結合晉博士的先驗知識的能力,我們是沒有辦法在公安落地的。如果準確率只有 75%,肯定不夠,平臺就沒法用了。

機器之心: 就上述公安的項目,標註的成本和效率大概是怎樣?

張瑞飛:我們駐場了 50 多個人,標註了一年半,標註了 400 萬個案事件,基本覆蓋了國內至少 30、40 個地市級城市在過去十年的所有案事件。

案事件有一些特徵,就是例子特別少,數量跟新聞根本沒辦法比。另外案事描述一般特別短小,幾乎沒有統計的特徵,沒法根據詞頻統計重複出現的詞彙。

如果我們單純靠深度學習,其實效果並不好,就必須結合的晉博士的理論進行結合,當然結合方式有深淺之分。

機器之心:在公安場景中,每個刑警基於自己的斷案經驗,可能都會有一套專屬的斷案方法論,比如需要搜集哪些線索、哪些線索最有價值。OEC 平臺在建設過程中是如何使用人的經驗?並且在實際應用中如何與人的研判信息相結合、交互?

張瑞飛:我們的「神州泰嶽智腦 2」的系統裡,研判路徑是自學習的一個過程。

每個刑警在斷案的時候的確都有自己的思維規律,但是這些思維規律主要可以歸納為四種——圖譜、時間軸、地圖、標籤分類,這是我們總結的基本的研判模式。

對每一個研判路徑,我們定義了需要輸入的準確的數據類型,在界面上會要求業務人員輸入相關信息,系統在後臺就能形成一個參數。

也許在訓練半年以後,系統就可以根據案件自動分類,在沒有人工幹預前,沿著以前的研判路徑進行判斷。做到這種程度就可以減少反應時間,這種預處理在需要時就可以馬上針對大批量案件計算出來路徑,比以前可能要算 48 小時效率高很多。

另外,這個系統可以替代人對已有線索的遺忘。人在專注於一個焦點問題時,可能會忽略之前的線索,這時系統可以幫助人去處理一些背景信息線索,讓人可以把精力聚焦在最需要關注的問題上,而又不會忽略掉重要的背景聯繫。

這是我們倡導的一個人機互動的模型,做到這一步後,我們希望後續可以幫助公安去自動地發布作戰指令,甚至去建設一個真正的「公安大腦」。

在這個平臺的幫助下,當遇到重大案子而派出所沒有足夠研判的警力時,就可以申請技偵、現場勘查、刑偵等資源,像會診一樣,多個部門一起形成一個指揮方案;或者突發一些重要事件時,公安需要馬上將各種信息結合起來的時候,人工智慧的威力就能很好體現。合作作戰平臺帶來的應急和同步上案能力的提升是傳統的合作作戰方案給予不了的。

「數據打通」的新思路

機器之心:神州泰嶽除了語義分析 OEC 平臺,還開發了一系列大數據產品。自然語義處理技術要在實踐中落地,底層的數據打通是否必不可少?

張瑞飛:數據是實現人工智慧技術應用的必要前提。在未來的五年,我們覺得數據打通和共享是常態。

公安現在建大數據中心,就是想解決公安部內部信息打通、融合的問題。

政府最高層是有意要打破這個數據壁壘的。比如,公安部部長趙克志在深圳講:「要大力推進公安數據智能化建設,堅決打破部門警種壁壘,推進數據融合共享,加強高端集成應用,助推警務流程再造。」

我們覺得,我們目前在做的事情跟趙部長提的理念非常接近了。

為了幫助企業管理數據,我們做了三種數據打通:結構化數據和非結構化數據打通——「Dinfo-OEC 語義分析平臺」、網際網路外網數據和企業內網數據的打通——「蜂鳥信息採集系統」、企業各類應用系統和第三方系統之間的高速數據共享——「Buffer 數據流水線」。

機器之心:能否具體介紹一下「Buffer 數據流水線」是如何幫助機構內部和機構之間實現「數據打通」?

張瑞飛:傳統大數據公司做智慧城市的數據打通通常是「動遷式做法」,建一個大數據平臺把所有現有分布在機構內部各處的數據收上來。但我們做的是建高速的數據共享通道——「Buffer 數據流水線」,將企業內部各類應用系統和第三方系統之間建立連接。

我們認為,通道的方式比動遷的方式更好。如果把通道的做法比喻為修路,原來的資料庫比喻成村子或者樓也好,通過通道我們可以把它連成一個虛擬的數據資源池,就是數字的虛擬化。同時數據高速通道加速了數據處理速度,打通的過程中就可以開始服務客戶,而不是等建成後才服務客戶。比如運算速度不夠,就提高運算力;如果客戶把數據輸給我,我會把更多的數據接入進來幫你碰撞,然後把結果還給大家。這樣就避免了一些人為的壁壘。

另外,這背後其實有深刻的計算理論,我們認為傳統的 ETL(數據倉庫技術,Extract-Transform-Load,抽取-轉換-加載)應該要被顛覆掉了。這個說法也不是我們提出的,是 16 年 Kafka 的創始人在舊金山 Qcon 會議做了一個「傳統 ETL 已死,而實時流長存」演講。

兩年前,我們跟公安探討過如何替代掉大數據 Lambda 架構的方式。「Buffer 數據流水線」是我們當年理念的一個落地。

在 Lambda 架構裡,實時要寫一條程序,批量處理時要再寫一條程序,這樣就沒法維護數據的一致性,而且程序開發特別複雜。我們必須有一個通道去把實時數據和批量數據做在一起,然後就能處理近乎無限的數據源。

比如,亞馬遜今天可以在一個通道裡不區分實時、批量地去處理 50 萬以上的數據源。我們需要這樣的方法來適應大數據今天的變化速度,這樣我們才能在交換和共享的過程中去加載一些像深度學習這樣的算法,能在通道裡把數據都連接起來。

當然在這個過程當中,我們認為傳統的 Oracle GoldenGate 或者 Dell Shareplex 就沒有必要存在了,因為我們在適配這層當中就把這個傳統的做法取代了。

「Buffer 數據流水線」系統其實是幾個技術的結合:第一,流式數據處理技術,比如說像 Storm;第二,流數據和內存資料庫(數據空間)的映射,在這裡面可以處理事務和帶狀態的邏輯;第三,數據源端的適配,比如說 Hadoop 導到 GreenPlum,Oracle 9 到 Oracle 10,或者 Mysql。

國內的公司很多做的是開源的封裝,主要在表層,但我們主要是在大數據底層去改代碼。當然也會去借鑑一些開源的代碼,因為開源有好多豐富的場景因為錘鍊的成熟度比較高了,但是從底層去優化跟封裝就產生了完全不同的兩個體系。

用開源的封裝方法存在一些問題,比如封裝好了,Spark 的更新,系統是跟不上的。另外,封裝解決的問題比較表層,一個看起來有很多類別的平臺,但是遇到要如何分析這些大數據的問題時,往往會卡在很基礎的技術上。

數據的交換與共享是大數據應用的大趨勢。在底層去 Lambda 化和替代傳統的 ETL,以及打通數據流水線的高速公路,就是我們最近在技術上必做的事。

大數據+人工智慧如何結合落地?

機器之心:我們其實一直有意尋找在智慧城市中多元大數據結合分析語義的案例。之前提到神州泰嶽還與雲從科技這類做安防領域計算機視覺的公司合作,目的是將文本和視覺的語義信息進行融合嗎?

張瑞飛:語義和圖像在將來是必須結合的東西。

貴陽公安提出的「人像大數據」,所謂人像大數據其實就是人的大數據和像的大數據,以及大數據平臺三合一。像的大數據就是圖像。人的大數據從哪來?只能從文本來。

在刻畫人物時,公安主要是通過卷宗文本、DNA 檔案、現場勘查記錄、檔案、手機聊天信息、網際網路信息等,把大數據提取出來的線索串並起來,使人的特徵浮現出來,再跟圖像進行比對。這就是一個實際化的應用場景。

其實視覺目前也有不成熟的地方,今天的視覺識別都還是從一個較窄的領域去做識別,有較大的局限性。比如說人臉,一旦被遮擋了,對人腦去識別是沒有什麼區別的,但是對於機器就有區別。

應用領域窄,就限制了視覺技術在公安領域的應用。比如公安有一個億人臉的資料庫,機器通過身份證照片識別出 95% 相似度的人臉照片可能會達到幾百張。幾百張相似的人臉如果都要公安直接全部去跟蹤篩選、分析,數量就太大了,在人力物力成本都不可行。

對於公安來說要達到可用的程度,就必須壓縮到十幾張的數量,怎麼壓縮呢?一方面是案事件的串並,把人的線索提取出來。比如說戴眼鏡的,就從幾百張裡面調出戴眼鏡的幾十張;還有總穿牛仔褲或者總戴鴨舌帽的,走路姿態是右肩膀還是左肩膀比較高?這些特徵都可以從視頻學習中提取出來。

我們通過這種方法使視覺算法在一個大的數據集中的應用變得可行,通過平臺把算法和工程形成一個互補,從而能把人準確地從數據中挖掘出來,這就不是一家創業公司可以單獨做到的事情了。

我們在貴陽與雲從的合作,創業公司偏向於只提供視覺識別技術 API,不太喜歡駐場解決工程化的問題。因為對於像雲從這種創業公司來說,更重視的是短期內佔領更多的市場,而不是在一個點做深。但是總要人去把這件事情做深,所以神州泰嶽就集成整個應用,提供工程化解決方案。

我們雖然是做語義的公司,但是神州泰嶽在深圳公安是人工智慧的組長,團隊中包括騰訊、華為在內。我們集成的人工智慧就不能理解為語義本身了,而是整個人工智慧和大數據應用到底怎麼結合起來的課題。

所以越是接觸這類項目,我們就越認識到局部作坊式研究的一個個算法必須被聚集起來,這就是我們要做一個平臺的原因。

歸根到底,人工智慧就是個工程的事

機器之心:神州泰嶽做了那麼多產品,什麼時候決定要往工程化的路線去做人工智慧?

張瑞飛:當我們 16 年 8 月份啟動「智享雲平臺」的時候,對未來方向其實也還有點模糊,但是現在看來越來越清晰。

在未來我們認為單一算法很難構成競爭力,因為會有很多新的分支而且算法很容易被複製。比如 ITGCM,懂 GCM 算法的人如果要做 ITGCM 就很容易。我們考慮:單純專注算法研究能帶來的突破是不是太有限了?第一,單純的算法帶來的實際業務突破可能不會超過 2%;第二,算法太容易被拷貝了。

我們問過自己一個問題,企業在發展的過程中應該沉澱的是什麼?如果說是科學家和算法的話,那可能就錯了,因為其實沉澱不下來。

另外,我們也去真正思考成本的問題。比如神州泰嶽有 600 人的人工智慧團隊,這一年的人工成本如何解決。在人工智慧這麼火的時候,我們如何維持三年以上工程團隊的穩定性。這些問題就切切實實擺在企業面前。這些問題解決好了,某種意義上講,我們的項目管理就做好了。同樣一個項目,如果我們的成本是 400 萬,別人的成本是 4000 萬,我們覺得他們沒法跟我們抗衡。

第三點,人工智慧不太可能走向「魔幻人工智慧」,即算法不太可能輕易發生大躍進。我們其實試過特別新的算法,除了某些算法我們覺得確實有提升之外,大部分算法其實還是一種理論嘗試,最後還是回歸到一些傳統的深度學習模型中。

這樣我們就想,是不是今天的人工智慧走工程化的路線就是必然的選擇?

這個結論背後有兩個基礎理論:第一,人工智慧是基於形式推理的而建立的,而形式推理是可以機械化的;第二,資訊理論和控制論的發展,導致了形式推理可以工程化。

包括深度學習或者 CNN 神經網絡在 08 年以後逐漸發展,我認為都是對這兩個理論的擴充。在這兩個基礎理論不變的時候,我們不敢設想魔幻人工智慧的產生,只能是沿著工程化的方法去做人工智慧。

工程化的路線,就決定了我們要去做各種技術儲備,比如蜂鳥信息採集、Buffer 流水線、流程引擎(用於合成作戰)、底層大數據平臺、DINFO-OEC 語義分析平臺,智享雲平臺等等。

這些工程化平臺都是為了實現技術落地。沒有平臺,技術就落不了地。我們做了兩年,感覺到要實現產業化落地,這些付出是必須的。

我覺得我們這類面向大 B 的公司都可以嘗試:在原來在大 B 公司積累的資源和工程化的經驗的基礎上,再銳意突破一些深度學習的算法技術,做出自己的算法特色來,進而打造出獨特的落地場景。這種落地是很難被取代的,這種工程化的投入會把公司差異開來,而不是算法把大家差異開。

機器之心:我們了解到中國中文信息學會和神州泰嶽合作做了一個產學研平臺——「中文信息(深度處理)開放創新平臺 China-NLP」,能否介紹一下創辦這個平臺的初衷及意義?

張瑞飛:這個平臺的出發點是人工智慧需要從手工作坊的做法走向工業化的做法。

目前很多學校的老師做研究的方法依舊是手工作坊的作法,是在局部研究一個一個算法,對於全局的需求沒有明確的認知。我們認為,人工智慧除了算法本身之外,有很多問題是在產業落地的過程中才能發現並解決的。

比如數據本身的交換和共享問題;怎麼把 tensorflow,或者其他的深度學習工具,變成分布式的,或者極限化的一個資源池;能不能夠用最小的硬體,或者 CPU 的指令級去優化現在的計算。這些都是工程化的過程中,一個平臺要考慮的問題。

又比如一位教授做了一個針對醫療領域的深度問答引擎,跟醫院對接的時候就會遇到這個引擎如何與已有的系統對接的問題;另外,這個系統跟已有的病人病例系統是什麼關係?怎麼來評估這套系統能不能上線?上線後需要什麼框架?數據怎麼來?

這些問題的出現,就極大地阻礙了學術界的成果向工業界轉化,有時候基本意味著轉化不了。

我們推出這套平臺,就是希望把神州泰嶽在產業裡積累的工程化經驗,釋放給學術界的老師們,讓老師們依託這個平臺更好得把算法的應用到實際需求中,向產業化轉化。

自然語言處理的未來:語義終極特徵

機器之心:神州泰嶽在自然語言處理領域的研究有什麼未來的計劃?

晉耀紅:首先還是需要深入細化本體論設計,不同的場景下對本體的要求是不斷變化的。本體業務建模這塊還有很大的發展空間。

另外自然語言的能力包括理解和生成,後續可能考慮增加語言生成的能力。如公文寫作能力。語言理解和生成是硬幣的兩面,目前平臺主要著重於分析的能力。先分析公文寫作,句子、段落之間怎麼連接的,在這個基礎上分析文章框架,學習每一個詞、字的應用。

公文寫作複雜,是未來研究的一個方向。其中有很多困難,目前像市面上一些寫詩的應用屬於比較娛樂化的,但是公文寫作每一個字、每一句話都不能錯,不能有歧義。

我們希望做一個效果可控的公文自動生成應用。公文寫作有很多困難,有很多潛規則、隱知識,但因為是嚴格的八股文,也有優勢。根據我們的調研,一般寫公文都是先去研究原來的公文是怎麼寫的,然後在以前的公文基礎上進行修改。這個過程跟機器學習其實有相通之處。我們對於產品的設想是希望能讓公文寫作人員輸入感情色彩、表達方式、緊迫性等元素,讓機器自動生成文章。

作為公文寫作研究的中間結果,我們也做了一個自動寫詩的應用。但是這個跟別的寫詩應用的差別在於可以每一句話讓用戶輸入一個詞來表達整句詩的意境,比如鄉愁。

機器之心:深度學習算法目前在自然語言處理還沒有實現大的突破,對於這一點神州泰嶽有什麼思考?

晉耀紅:我們認為原因是語言的特徵更抽象一些,不像圖像 RGB 三種元素就是它的終極特徵,語言沒有終極的特徵。

我們在中科院做的 HNC 概念層次網絡的工作其實就是希望找到語言的終極特徵。這裡面有很多有意義的工作,但目前價值還沒有完全發揮出來,可能還很少有人能認識到語言終極特徵的重要性。

目前各種算法比賽,我們做企業的也要從客觀角度去看待,可能有時候是在封閉的集合去刷分,發現了問題針對性的改一下就能提高。但其實很多情況下也許不能體現實際應用過程的水平。

當然,比賽也許能一定程度促進算法的發展,對學術研究有用。但國內一些公司通過比賽來提高知名度,如果這個過程不能提升算法在實際工作中的效果,在資源上可能造成了一定的浪費。

現在的學術界更多的是在刷榜,做一個算法去刷分。國內的學術研究,很多時候就像一個老前輩說的,就是在做習題,別人在英語裡做了一個,咱們把它拿過來漢語裡做了一個,就是創新。但是其實很少有去研究這背後終極的問題,或者說去研究一個新的算法。這種創新性的工作還是很少。

張瑞飛:在研究方向的話,我們希望恢復機器學習的本來面目。

邢波教授前一段時間說,在做人工智慧模型算法梯隊裡存在一個知識退化的趨勢,因為人們開始把深度學習來代替整個機器學習。神經網絡是機器學習本來的分支,但還有其他的分支。

我們在工程實踐的時候,在做標註的時候,不在乎是否一定要用深度學習。

工程化的任務應該是去評估業務目標如何分解,需要把整個算法能力框架搭建起來,然後找最有效、最捷徑的算法。

也許對深度學習一個小的改變就是一篇論文了,但我們覺得這個沒有太大的意義。我們企業做人工智慧考慮的是成本,追求的是成本和成效的平衡。

相關焦點

  • 人工智慧的「苟且」與「遠方」
    經歷了 2016 、2017 上半年的瘋狂炒作之後,人工智慧的熱潮正在褪去。究其原因,如果按照 Gartner 的「炒作曲線」來解釋,則是由於新技術爆發時的公眾熱度更容易被媒體、資本所捕捉,而隨著技術落地過程中暴露出的一系列實際困難,會部分程度上導致公眾的悲觀,從而讓這項新技術逐步淡出公眾視野。
  • 「產品經理」傅盛的機器人亮相,獵豹的人工智慧轉型立起了「旗子」
    自 2016 年 9 月傅盛個人出資建立人工智慧公司獵戶星空後,傅盛已經將許多時間和經歷花在機器人和獵豹的人工智慧轉型方向。在本次的發布會上,傅盛也透露,機器人的語音語義、傳感器、視覺等技術都由獵戶星空團隊獨家打造。自 2014 年上市後,獵豹已經被證明為是一家「十分賺錢」的公司。
  • 高德重生:一家被併購公司的「不可能」奇蹟
    尤其是將時鐘撥回到 2014 年,那個中國網際網路極其關鍵的年份:即將上市的阿里巴巴大肆併購,O2O 是那時網際網路上最熱的關鍵詞,高德作為前網際網路時代走過來的一家老牌技術公司艱難也堅決的努力進化……資本吹起的熱點,巨頭的戰略藍圖和創業公司唯恐被時代拋下的焦慮混雜在一起,三年之後,當我們回頭來看,曾經歷史包袱沉重的高德既面臨重金押寶 O2O 的百度咄咄逼人的蠶食,又在艱難探索融入阿里並業務轉型的雙重使命
  • 「AI+教育」的英語流利說上市,線上教育的分界點來臨
    在新東方、51Talk 直接在線上複製線下的教育實驗沒能掀起多少浪花後,回答這個問題的任務交給了誕生於人工智慧時代的一批新網際網路公司。9 月 28 日凌晨,英語流利說(下簡稱「流利說」)正式在紐交所掛牌上市,流利說開盤價 16 美元,較發行價大漲 28%。整體來看,當日股價小漲,截止收盤,股價報 12.65 美元,較發行價上漲 1.2%,市值 6.07 億美元。
  • 「智能春聯」爆紅?傳統文化又變得「省事」了!
    央視網聯合百度人工智慧嘗試推出了「智能春聯」,人工智慧通過學習擁有創作春聯的能力。只需要在百度搜索「智能春聯」,打開H5頁面,然後輸入2到4個字的任意關鍵詞,「智能春聯」就會創作出一副個性化春聯。如輸入「大聖」,就會得到上下聯為「大聖登高歌盛世,金雞起舞慶新春」、橫批為「喜迎新春」的春聯;輸入「好運」,人工智慧就創作出上下聯為「一年好運滿園錦繡,萬眾同心遍地輝煌」、橫批為「春光滿園」的春聯。
  • 創投周報 Vol.39|「蛋殼」、「房多多」上市,「NEIWAI內外內衣」獲...
    有意思·項目集「聘聘英雄」「聘聘英雄」是一家以短視頻+微信小程序為主要產品模式的服務業招聘平臺。傳統招聘平臺的企業信息和求職者信息展現方式以圖文為主,企業難以展示其企業文化、工作氛圍與工作環境,求職者簡歷也難以體現其言談舉止等軟實力。
  • 觸寶:「隱形冠軍」的新故事
    數據的重要性當然無需多言——但這基本成為了每家公司都在強調的「口號」。而且每一家」入口級「產品和公司都理所當然的被看做是接下來這一場人工智慧浪潮裡擁有絕對優勢的選手。但事實上,儘管輸入法、社交、電商等工具都有可能成為流量黑洞,但不同產品背後數據的價值卻不相同,也就是說,並不是所有的流量都能帶來有效的數據。「有些流量是能獲得縱深數據的,有些卻不能。
  • 星巴克其實是一家「賣卡公司」?星禮卡「存款」賽過一家小銀行
    星巴克其實是一家「賣卡公司」?星禮卡「存款」賽過一家小銀行 本文來自微信公眾號「營銷有一套」(ID:cbocmo),作者阿慕,原標題《星巴克其實是一家銀行?
  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    「訊能集思」即是一家專注人工智慧決策的人工智慧公司。通過增強型分析,其人工智慧決策平臺 Xavier能讓基礎數據分析人員和有數據分析需求的業務人員完成數據分析,並利用自動化機器學習(auto-ML)為企業業務提供多樣化的數據決策方案,助力企業的數位化和智能化轉型。
  • 創投日報|「鮮沐農場」完成新一輪融資,「51CTO」獲 2000 萬美金 C...
    36氪最近接觸到的一家公司,成立於2019年初,公司旗下產品海納人事,定位於智能人事管理系統,希望利用AI和大數據,幫助企業提高組織效率。天眼查顯示,公司已完成兩輪融資,分別為2019年3月太極資本的股權融資以及於2019年9月由溪山夥伴基金完成的天使輪融資……(查看更多請點這裡)關注企業在家辦公安全性,「阿里雲」推出新一代雲桌面服務36氪獲悉,近日,「阿里雲」升級並推出新一代雲桌面產品,可以更好地支持重視數據安全管控的企業在家辦公
  • 上市後首份財報:「良品鋪子」正在重新定義「小零食」?
    文丨妮 可出 品丨零售氪星球(ID:LS-KXQ)4月28日,休閒零食品牌「良品鋪子」發布2019年年報。2019年,「良品鋪子」實現營業收入77.15億元,同比增長20.97%;歸屬上市公司股東淨利潤3.40億元,同比增長42.68%。
  • 專訪| 卡內基梅隆大學:人工智慧引領「鋼鐵城」匹茲堡的蛻變
    通過機場安檢口滾動的宣傳片大力推送「創客」、「科技」、革新」可以窺見一斑。人工智慧是重頭戲。去年,卡內基梅隆大學深度學習部門錄取的 8 博士生裡有 6 名華裔,隨著 AI 熱潮,越來越多的中國學生慕名在此就讀。今年,卡內基梅隆宣布了新的人工智慧研發計劃「CMU AI」,項目涉及 100 多名學者和 1000 名學生。
  • 「新一代人工智慧院士高峰論壇」開幕,概覽中國人工智慧企業最新...
    「新一代人工智慧院士高峰論壇」現場2018 年 12 月 17 日,由鵬城實驗室、新一代人工智慧產業技術創新戰略聯盟共同舉辦的「新一代人工智慧院士高峰論壇」在深圳隆重開幕。本次論壇將持續兩天,由 17 日的主論壇和 18 日的醫療專題論壇組成。
  • 傅盛的自我翻譯:一個網際網路「躍遷者」
    這家公司進入新業務的節奏向來饑渴。2017 年以來,它所宣布涉足嘗試的新業務包含了從機器人、智能音箱,覆蓋到了區塊鏈錢包和辦公室無人貨架。如果再加上前幾年的信息流、直播、短視頻等內容產品,這是一家不想放過任何機會和「熱點」的公司。
  • 創投日報|「豌豆公主」完成53億日元新融資,「Indigo AG」籌集 2...
    (查看更多請點這裡)融資披露:美國農業科技公司「Indigo AG」籌集 2 億美元融資,利用大數據分析幫助提高作物產量Indigo AG 是一家農業大數據提供商,成立於2014年,總部位於美國大波士頓地區,由David Berry、Geoffrey von
  • 渾水摸「YY」、「俠盜」蘋果和辛巴的「麥乳精」|極客一周
    對於此次做空,渾水給出了詳盡的調研方法,一方面是傳統的財務和帳目審查,另一方面則利用技術收集了超過 1 億筆交易進行分析。被做空一天後,歡聚時代發布聲明指責渾水對直播生態「無知」,做空報告邏輯不清,數據混亂,包含大量錯誤。但不得不說,相對於做空報告翔實的數據,歡聚時代的反駁聲明顯得有點無力了。
  • 創投日報|「東久中國」獲貝恩資本信貸3億美元投資,「福貝寵食」獲...
    創投日報收錄了今天「36氪創投頻道」報導的融資新聞,以及我們正在關注的各個領域早期創業項目,enjoy~融資新聞報導「東久中國」獲貝恩資本信貸3億美元投資,聚焦1-1.5線城市新經濟產業園區寵物經濟持續火熱,「福貝寵食」獲B輪三億融資衝擊環保界獨角獸,「蓋亞科技」完成近億元 B 輪融資在礦業、紡織等行業落地工業網際網路,「創聯科技」
  • 創投日報|「浪潮健康」獲1億元A輪融資,新型方便食品公司「白家...
    「白家食品」是國內快銷粉面行業的代表公司,業務包括食品研發、生產製造、產品銷售等。目前有「阿寬」、「白家陳記」兩大品牌,產品覆蓋傳統方便食品、新型方便食品、複合調料、即食醬料、休閒食品5大品類,共21個系列,100多款SKU。品牌主要面向中產、白領、藍領和學生等群體,滿足消費者在日常學習、工作、生活場景中對便捷主餐的需求。
  • K12公司「掌門1對1」獲3.5億美元E輪融資 | 投資速遞
    卓盈資本戰略投資 SPACE CLUB2019 年 1 月 18 日,新疆卓盈投資控股集團有限公司(簡稱「卓盈集團」)旗下品牌「卓盈資本」與天恒基控股有限公司(簡稱「天恒基」)就新疆史貝斯文化娛樂有限公司(簡稱「SPACE CLUB」)的戰略投資事宜籤訂投資協議。
  • 創投周報 Vol.32| 「同程生活」「鯨靈集團」完成1億美元融資,周內...
    企業服務賽道方面,「安元科技」和致力於物聯網通訊和位置服務的科技公司「普玄物聯」獲得過億融資。 上交所魏剛:落地科創板紅籌企業上市政策,打開包容性 在2019世界人工智慧大會論壇上,上交所發行上市服務中心總經理魏剛表示,我們下一步把科創板紅籌企業上市政策落地執行下去,進一步打開包容性;現在審核節奏慢下來了,前期主要是因為補充半年報。