沉睡的數據是負債,你要花費大量的人力、設備來管理、維護。
流通的數據是資產,能發揮數據的作用,創造不一般的價值。
如何讓企業或者政府的數據由「負債」變成「資產」呢?
中國社科院發布的《中國大數據應用發展藍皮書》指出,中國大數據正快速發展為對數量巨大、來源分散、格式多樣的數據進行採集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。
中國軟體網記者近期對DataPipeline創始人&CEO陳誠進行了專訪。他表示,在數字經濟時代,企業、政府對數據價值的認知正在不斷提高,企業要建立數位化企業,政府要成為數位化政府。
再進一步,業務部門對於數據的認識和需求不斷提升,科技部門希望用智能化、平臺化、柔性化的方式更好地賦能業務,實現數據驅動。然而因數據量過大、變化過快、數據源過多,導致企業內部對現有數據存在不可知、不可取、不可控、不可用的情況。
如何擺脫人工堆砌、重複加工腳本的方式,敏捷地為業務用戶提供數據,以切實可行的元數據管理實踐推動數據資產管理體系的建設,是眾多企業數位化轉型面臨的最基礎的問題之一。
目前,中國企業在大數據流通、交換、利用方面大部分還處於起步階段,關鍵原因是沒有做好數據集成、數據清洗、數據同步等基礎工作。
由此誕生了企業應用數據集成市場。Forrester數據表明,全球2017年數據應用集成市場純軟體規模是320億美元。Gartner數據也表明,應用數據集成的細分領域iPaaS在2017年首次突破了10億美元,增長72%。
在數據應用集成領域,既有Oracle、SAP、微軟、Informatica等傳統的IT大佬,也不乏創新型企業,如中國本土企業DataPipeline等。
DataPipeline正如其名字一樣,數據管道,通過提供數據集成、數據清洗、數據同步等服務,幫助企業連接內外部的數據孤島,實現數據的交換與融合。
陳誠,畢業於上海交大,留學於美國密西根大學,前Yelp大數據研發工程師,曾就職於美國Google、Yelp等。擁有6年多的大數據、計算機算法等實踐經驗。
陳誠說,AI不能代替人類的創造性思維,但工具可以解決重複低效的體力密集型開發與維護,加快數據的流通。當設備、應用和數據隨時隨地可獲取時,連接將促進價值的裂變。
鍾情數據應用
記者:您曾就職於Google、Yelp等國際知名公司,在這些公司主要做什麼工作?
陳誠:畢業之後,我曾經在谷歌、Yelp等幾個公司工作,就是做數據工程師。主要工作是構建大數據應用軟體,節省用戶使用數據、數據流轉方面的成本,提高效率。同時也在數據應用方面有了不少技術積澱,為後來的創業打下了基礎。
記者:後來您創立了DataPipeline,當時創立這家公司的初衷是什麼?
陳誠:就像我剛才所說的,即便是在大公司裡搭建大數據應用平臺,也需要耗費巨大的人力、財力等資源。當時我就想,是否能把平臺做成相對標準化的解決方案,提供給更多的客戶,而不需要自己去搭建,讓他們能直接從產品中獲得比較成熟的解決方案,賦能客戶。
因此,在2016年公司創立時確定的願景就是:連接一切數據、應用和設備。現在大家常說的萬物互聯,其實連接的就是數據,實現的就是數據的流轉與交換。為了能夠幫助更多的公司、企業、個人做到這一點,DataPipeline想提供更好的服務和更好的軟體。
認知數據應用集成賽道
記者:DataPipeline所在的賽道是數據應用集成,怎麼理解這個行業?
陳誠:隨著時代的發展,科技的進步,以及甲方需求的不斷變化,我認為數據應用集成主要會有三個變化:
第一,比以前更加複雜了。複雜體現在存儲形式,原來可能只有一些資料庫中的結構化數據,但是現在有結構化、半結構化、非結構化數據,雲上、雲下、混合雲的途徑,資料庫和數據倉庫的對象存儲等。在過去的十年裡,有太多的複雜度被加入到需求當中來。
第二,時效性更強了。以前的數據流轉比較慢,商業整體運轉的速度也會慢一些。而現在企業根據數據做決策的速度加快,時效性也隨之不斷提升。
第三,對於數據或者是業務變化導致數據需求變化,從而導致數據架構變化,變化頻率越來越快了。這就意味著用戶的IT架構、軟體和整體發展戰略都需要能適應這種變化。
相對於數據量變多或者是數據源變多了這些老生常談的問題,這三大變化點——複雜度變高,時效性變快,架構變化的程度更加深,是數據使用面臨的三大挑戰,與此同時也一定會誕生新的機會。
記者:那麼,目前數據應用集成的市場規模和潛力有多大?
陳誠:之所以選擇數據應用集成作為創業領域,就是考慮到其蘊含著較大的市場規模和潛力。
首先數據和應用集成是所有大數據項目必不可少的組成部分,數據項目或者數據應用、大數據變現,一定要完成數據的採集、清洗、整合,採用自動化和時實化軟體,讓數據利用變成一個低成本,高效率的過程,否則就和傳統數據應用過程一樣效率低,成本高。
其次,隨著越來越多的大中型企業開始重視大數據,投入到相關項目或是產品中的資源也相對增加了。
相關數據表明,2017年全球數據應用集成市場純軟體規模是320億美元,如果包括人工在內,將達到3940億美元。
市場格局遠沒有定型
記者:數據集成這個賽道,都有哪些競爭對手?市場的格局如何?
陳誠:因為市場足夠大,參與市場競爭的企業很多。但在新一代雲化、大數據實時化的數據應用集成方面,相對來說新的玩家偏少。
總體而言,在中國數據應用集成企業實際上是比較缺失的。一方面,一些企業偏重數據集成,一些偏重應用集成;也出現了像阿里這樣做數據中臺的企業,覆蓋面會比創新企業廣,或多或少都會有一些差異化;而在基礎技術創新方面的企業更少。
另一方面,市場上也有一些應用長達十年的工具,都是基於傳統的軟體架構;而新出現的偏雲化,能部署在雲上,以分布式架構支持大量數據和實時應用的工具還是比較少。
記者:其實做數據中臺的企業最近突然變多。數據中臺與咱們的做法不一樣嗎?
陳誠:其實我們主打的理念叫做DataOps,實際上講的是養數據,運營數據的概念,主要是做數據的採集、清洗、融合,以及元數據管理、數據質量管理等。
不同企業關於數據中臺的概念和架構多少都有所差異,切入點和功能也不盡相同,但是總體而言比我們範圍要大,它可能包括出倉、主題域等。
記者:當前市場的競爭焦點是什麼?戰勝對手的關鍵點在哪兒?
陳誠:大家都來搶數據應用集成的蛋糕,但是不同企業所採取的策略和維度是不一樣的。有的企業主打實時化,有的企業主打雲化,有的企業主打SaaS化。
金融行業經過了十年的積累,在雲、大數據和實時性的要求下,已經進入發展階段,其他行業還處於起步階段。
差異化戰略
記者:DataPipeline在數據應用集成賽道參與競爭,採取什麼樣的差異化發展戰略?
陳誠:我們的目標客戶主要集中金融、零售、製造,地產、網際網路行業。
主要服務的客戶具有一些特徵:大中型企業、數據價值密度較高、看重數據的時效性。
差異化戰略包括:第一,支撐有大數據應用需求的大中型企業;第二,應用可以部署在雲上;第三,實時性要求高,與以前批量化的不太一樣;第四,能夠支撐業務、數據、架構的變化;第五,用戶體驗方面,更強調自動化、智能化。
記者:當前,DataPipelie公司的差異化競爭戰略的效果如何?
陳誠:目前已經成功服務了星巴克、金風科技、龍湖地產、財通證券、叮噹快藥等大型企業客戶。
在技術上,DataPipeline基於Kafka的開源框架,聚焦流式數據處理、高性能同步,快速解決數據融合問題。
在產品上,DataPipeline是一款實時數據融合產品,無需任何代碼,通過可視化圖形配置界面在極短時間內便可完成實時數據管道連接,是一款提供數據管道搭建、數據任務管理、數據質量管控、可視化運維管理、錯誤隊列管理、用戶管理以及元數據管理等一站式的數據融合平臺。
獲得資本支持
記者:最近DataPipeline獲得新一輪融資,能否介紹融資情況。融資主要用於哪些方面?
陳誠:DataPipeline公司於2017年年底完成2100萬元的A輪融資,由經緯中國領投,峰瑞資本跟投。最近,公司已完成了數千萬元的A+輪融資,本輪融資主要由BV百度風投領投,經緯中國、清流資本跟投。本輪融資後,DataPipeline將重點補強銷售市場團隊、產品技術團隊,以及完善客戶拓展和客戶成功體系。
記者:現在可以說是資本的寒冬,DataPipeline為什麼會受到資本的青睞?
陳誠:目前企業服務或是產業網際網路發展進入了快車道;應用數據集成市場增長可期,用戶需求也比較大;資本願意投資企業服務細分領域的頭部企業;DataPipeline在市場上得到了客戶的認可,客戶也願意為我們背書。
記者:未來,公司的發展想法和戰略是什麼?
陳誠:我們會繼續堅持既定的策略,堅持以技術驅動來服務客戶。同時會持續投入資源在客戶成功上,為客戶帶來更大的價值。