2015年年底,上海張江一處20平米的房間內,十幾個熱火朝天的年輕人寫下了第一行代碼。
2020年,上海達觀數據(Data Grand)和這裡的工程師們已走進了更多企業的視野。步入大數據時代,他們以文本智能處理技術助力企業破浪前行。
什麼是文本智能處理?即通過自然語言理解、自然語言生成、知識圖譜等人工智慧領域方面的技術,實現文本的自動抽取、審核、糾錯、搜索、寫作等功能。
如今,達觀數據已成為文本智能處理行業當中的引領者。保持創新、不斷積澱,年輕的航船載譽而歸——公司成為中國唯一入選2020 IDC創新者的文本智能處理企業、獲中國智能科學技術最高獎「吳文俊人工智慧獎」;而公司創始人陳運文憑藉在人工智慧領域取得的研究成果,入選為全球科學企業家200人名單。
不久前,陳運文獲評共青團中央2020年「全國向上向善好青年」(創新創業)。他表示:「非常光榮,將繼續努力,把產品技術推向更廣的應用天地。」
將一塊塊積木拼出藍圖
陳運文低調而謙遜。在創業前,他已是科技部「萬人計劃」專家,後帶領團隊在數據挖掘方面的國際大賽之中斬獲冠軍,還在由國際計算機學會(ACM)主辦的全球最高級別的國際數據競賽中,以「社交網絡推薦算法」在全球1000支隊伍中獲得亞軍,創造了大陸企業15年來歷史最佳戰績。
選擇創業後,陳運文是篤定的:服務傳統行業,為企業轉型升級賦能。而探尋「AI+傳統行業」的道路並非一日之功,但他走得不疾不徐、少見焦慮,更多地是一份堅定和惜時如金的水到渠成。
從復旦大學計算機系博士畢業之後,陳運文先後擔任盛大文學首席數據官、騰訊文學高級總監、百度核心技術研發工程師。
在軟體開發的各類實戰當中,他深感國內網際網路企業技術水準的領先,但同時也注意到,「許多傳統行業裡面的計算機技術運用得相對落後,填寫、核對文檔等仍需手工完成。
以技術提高傳統行業的運行效率,我覺得這是非常有價值的事」。在上海張江集團創業孵化器的一處20平方米的辦公室,陳運文仍記得,那時和創始團隊的不舍晝夜。
儘管公司成立之初,雲集了各大網際網路巨頭當中的風雲人物,但由於新成立公司的知名度並不高,新鮮力量的補充步履維艱。雖然各方面的條件都很艱苦,但陳運文形容:「痛並快樂著,就像搭積木一樣,看著想做的事情一點一滴地實現,心中的藍圖逐漸成形,充滿著期盼,這種感覺還是很好的。」
那時,陳運文要考慮的是如何生存。「小公司沒有知名度和客戶,產品技術還在打磨,人員規模也很少。而創新創業都是從小公司一步步走過來的,如何發展壯大其實是非常困難的。」
創業之殘酷,如穿越逆境寒冬。為了活下來,陳運文團隊努力將每一項技術服務做到極致,把專項技術做出特色。
「就像國際上許多巨頭公司,例如日本專門做拉鏈的公司YKK,已有近百年的歷史,他們把拉鏈做到世界第一。對於我們來說,就是把一項技術打磨成行業裡面最好的。哪怕我們做的事情很小,也依然可以爆發出很強的生命力。」
陳運文團隊最先實現了文檔材料的自動化解析,可以從Word、PDF、Excel等文檔中,實現精準識別和自動審核,受到了市場的歡迎,逐步建立起了口碑,也成為一些投資人眼中穩健、靠譜的優質項目代表。
三個月時間,公司實現了盈虧平衡;三年的時間,公司實現了盈利。
積木一塊一塊地累搭,陳運文說,雖然道路暫時窄一點、黑一點,但心間自有光明。「我們常用的漢字雖然約有5000個,但漢字組合起來千變萬化、語義豐富,如何讓計算機像人一樣去思考、理解、識別非常艱難,技術到今天為止,都不能說是成熟,還有許多問題和挑戰。」
達觀數據團隊在一年一臺階穩步壯大,在不斷解決問題、保持創新之中,行至更加寬闊的智能時代。
更多可能,更多創造
作為人工智慧領域中的獨角獸,達觀數據始終保持著穩步增長,不斷升級迭代。在深耕NLP(自然語言處理)技術方面,陳運文已經帶領團隊建立了完備的語料庫,獲得了60餘項發明專利。
2018年,達觀數據獲得了寬帶資本1.6億元的B輪融資,累積融資額超過兩億元,刷新了中國NLP融資紀錄,發展駛入快車道。不過,陳運文始終保持著冷靜而理性的態度,不疾不徐地布局、前進,「創業者要在恰當的時機正確引入、使用資本」,「做企業服務,要慢工出細活,著急不來」。
這年,RPA(機器流程自動化)成為業界炙手可熱的概念,由美國最先風行,並已獲得許多場景當中的實際應用。而達觀數據也開始從NLP(自然語言處理)發展到RPA階段。如何針對中文使用習慣,開發出適合中國企業的RPA產品,陳運文和團隊開始了新一輪的徵戰。
在團隊成員的努力下,達觀數據成功發布國內首款自主研發集OCR(光學字符識別)與NLP(自然語言處理)於一體的RPA系列產品。RPA可以理解為軟體機器人或虛擬勞動者,可以記錄人在計算機上的操作,並可重複運行,全程嚴格監控以保障信息安全性。
因為RPA的技術突破,RPA+NLP可以適應更多更加複雜的應用場景,讓AI技術真正賦能金融、物流、零售、政務、醫療等行業的流程自動化,從而創造價值。
比如,針對國際結算系統自動開戶這一實際應用,RPA軟體首先可以通過自動識別已上傳的公司營業執照信息,自動完成登陸國家外匯管理系統、獲取客戶信息、登陸國際結算系統、代填客戶信息並開戶,極大地加速、準確且優化地完成金融系統相關工作流程。
陳運文坦言,國內的智能文本行業目前仍處於早期的技術產生、中期的推廣應用發展階段,雖然諸如中國銀聯、招商銀行、工商銀行等企業都已經開始使用達觀數據的產品,但整體來看還不是通用的級別,市場仍然廣闊。「我們可能很容易理解外賣、共享單車等的運行邏輯,但對於智能文本處理,讓大家理解這項技術的價值,並且可以使用它,還需要下功夫。」
談及人工智慧技術的「數學氣質」,這位本科就讀於數學系、後獲得復旦大學計算機博士的「80後」創業者表示:「表面上看是文字處理問題,實際上確實都是數學問題。漢字的排列組合背後都是數學的概率、組合。用數學化的方式去解讀文字的規律,還是非常有意思的。」
在陳運文上海的辦公場所,每間辦公室的名字都來自於數學的一種算法或模型:最大熵、傅立葉、貝葉斯網絡……「數學還是非常神奇的,定理、規律非常優雅」,他希望給團隊夥伴們創造一種良好的技術氛圍,「走到哪裡都像走在數學公式裡一樣」。
採訪當中,陳運文總會提到團隊之間的「犧牲和支持」、「配合與成就」,而求真、務實的企業文化,將大家凝聚在一起,共同耕耘、共同期待未來枝葉繁盛。
正如陳運文喜歡的一本書《文明之光》中提到的計算機的「無所不能」那樣,「如果說工具是人類手腳的延伸,那麼計算機就是人腦的延伸」,陳運文希望,未來有一半的日常文檔資料是由達觀數據所支持的機器人助手去完成,人們從繁重的工作中解脫出來,去做更多更有創造性的工作。
【本文刊於《中華兒女》雜誌第10期】