DataPipeline創始人陳誠:連接一切數據、應用與設備

2021-01-18 中國軟體網

沉睡的數據是負債,你要花費大量的人力、設備來管理、維護。

 

流通的數據是資產,能發揮數據的作用,創造不一般的價值。

 

如何讓企業或者政府的數據由「負債」變成「資產」呢?

 

中國社科院發布的《中國大數據應用發展藍皮書》指出,中國大數據正快速發展為對數量巨大、來源分散、格式多樣的數據進行採集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。

 

中國軟體網記者近期對DataPipeline創始人&CEO陳誠進行了專訪。他表示,在數字經濟時代,企業、政府對數據價值的認知正在不斷提高,企業要建立數位化企業,政府要成為數位化政府。

 

再進一步,業務部門對於數據的認識和需求不斷提升,科技部門希望用智能化、平臺化、柔性化的方式更好地賦能業務,實現數據驅動。然而因數據量過大、變化過快、數據源過多,導致企業內部對現有數據存在不可知、不可取、不可控、不可用的情況。

 

如何擺脫人工堆砌、重複加工腳本的方式,敏捷地為業務用戶提供數據,以切實可行的元數據管理實踐推動數據資產管理體系的建設,是眾多企業數位化轉型面臨的最基礎的問題之一。

 

目前,中國企業在大數據流通、交換、利用方面大部分還處於起步階段,關鍵原因是沒有做好數據集成、數據清洗、數據同步等基礎工作。

 

由此誕生了企業應用數據集成市場。Forrester數據表明,全球2017年數據應用集成市場純軟體規模是320億美元。Gartner數據也表明,應用數據集成的細分領域iPaaS在2017年首次突破了10億美元,增長72%。

 

在數據應用集成領域,既有Oracle、SAP、微軟、Informatica等傳統的IT大佬,也不乏創新型企業,如中國本土企業DataPipeline等。

 

DataPipeline正如其名字一樣,數據管道,通過提供數據集成、數據清洗、數據同步等服務,幫助企業連接內外部的數據孤島,實現數據的交換與融合。

 

  陳誠,畢業於上海交大,留學於美國密西根大學,前Yelp大數據研發工程師,曾就職於美國Google、Yelp等。擁有6年多的大數據、計算機算法等實踐經驗。

 

陳誠說,AI不能代替人類的創造性思維,但工具可以解決重複低效的體力密集型開發與維護,加快數據的流通。當設備、應用和數據隨時隨地可獲取時,連接將促進價值的裂變。

 

鍾情數據應用

 

記者:您曾就職於Google、Yelp等國際知名公司,在這些公司主要做什麼工作?

 

陳誠:畢業之後,我曾經在谷歌、Yelp等幾個公司工作,就是做數據工程師。主要工作是構建大數據應用軟體,節省用戶使用數據、數據流轉方面的成本,提高效率。同時也在數據應用方面有了不少技術積澱,為後來的創業打下了基礎。

 

記者:後來您創立了DataPipeline,當時創立這家公司的初衷是什麼?

 

陳誠:就像我剛才所說的,即便是在大公司裡搭建大數據應用平臺,也需要耗費巨大的人力、財力等資源。當時我就想,是否能把平臺做成相對標準化的解決方案,提供給更多的客戶,而不需要自己去搭建,讓他們能直接從產品中獲得比較成熟的解決方案,賦能客戶。

 

因此,在2016年公司創立時確定的願景就是:連接一切數據、應用和設備。現在大家常說的萬物互聯,其實連接的就是數據,實現的就是數據的流轉與交換。為了能夠幫助更多的公司、企業、個人做到這一點,DataPipeline想提供更好的服務和更好的軟體。

 

認知數據應用集成賽道

 

記者:DataPipeline所在的賽道是數據應用集成,怎麼理解這個行業?

 

陳誠:隨著時代的發展,科技的進步,以及甲方需求的不斷變化,我認為數據應用集成主要會有三個變化:

 

第一,比以前更加複雜了。複雜體現在存儲形式,原來可能只有一些資料庫中的結構化數據,但是現在有結構化、半結構化、非結構化數據,雲上、雲下、混合雲的途徑,資料庫和數據倉庫的對象存儲等。在過去的十年裡,有太多的複雜度被加入到需求當中來。

 

第二,時效性更強了。以前的數據流轉比較慢,商業整體運轉的速度也會慢一些。而現在企業根據數據做決策的速度加快,時效性也隨之不斷提升。

 

第三,對於數據或者是業務變化導致數據需求變化,從而導致數據架構變化,變化頻率越來越快了。這就意味著用戶的IT架構、軟體和整體發展戰略都需要能適應這種變化。

 

相對於數據量變多或者是數據源變多了這些老生常談的問題,這三大變化點——複雜度變高,時效性變快,架構變化的程度更加深,是數據使用面臨的三大挑戰,與此同時也一定會誕生新的機會。

 

記者:那麼,目前數據應用集成的市場規模和潛力有多大?

 

陳誠:之所以選擇數據應用集成作為創業領域,就是考慮到其蘊含著較大的市場規模和潛力。

 

首先數據和應用集成是所有大數據項目必不可少的組成部分,數據項目或者數據應用、大數據變現,一定要完成數據的採集、清洗、整合,採用自動化和時實化軟體,讓數據利用變成一個低成本,高效率的過程,否則就和傳統數據應用過程一樣效率低,成本高。

 

其次,隨著越來越多的大中型企業開始重視大數據,投入到相關項目或是產品中的資源也相對增加了。

 

相關數據表明,2017年全球數據應用集成市場純軟體規模是320億美元,如果包括人工在內,將達到3940億美元。

 

市場格局遠沒有定型

 

記者:數據集成這個賽道,都有哪些競爭對手?市場的格局如何?

 

陳誠:因為市場足夠大,參與市場競爭的企業很多。但在新一代雲化、大數據實時化的數據應用集成方面,相對來說新的玩家偏少。

 

總體而言,在中國數據應用集成企業實際上是比較缺失的。一方面,一些企業偏重數據集成,一些偏重應用集成;也出現了像阿里這樣做數據中臺的企業,覆蓋面會比創新企業廣,或多或少都會有一些差異化;而在基礎技術創新方面的企業更少。

 

另一方面,市場上也有一些應用長達十年的工具,都是基於傳統的軟體架構;而新出現的偏雲化,能部署在雲上,以分布式架構支持大量數據和實時應用的工具還是比較少。

 

記者:其實做數據中臺的企業最近突然變多。數據中臺與咱們的做法不一樣嗎?

 

陳誠:其實我們主打的理念叫做DataOps,實際上講的是養數據,運營數據的概念,主要是做數據的採集、清洗、融合,以及元數據管理、數據質量管理等。

 

不同企業關於數據中臺的概念和架構多少都有所差異,切入點和功能也不盡相同,但是總體而言比我們範圍要大,它可能包括出倉、主題域等。

 

記者:當前市場的競爭焦點是什麼?戰勝對手的關鍵點在哪兒?

 

陳誠:大家都來搶數據應用集成的蛋糕,但是不同企業所採取的策略和維度是不一樣的。有的企業主打實時化,有的企業主打雲化,有的企業主打SaaS化。

 

金融行業經過了十年的積累,在雲、大數據和實時性的要求下,已經進入發展階段,其他行業還處於起步階段。

 

差異化戰略

 

記者:DataPipeline在數據應用集成賽道參與競爭,採取什麼樣的差異化發展戰略?

 

陳誠:我們的目標客戶主要集中金融、零售、製造,地產、網際網路行業。

 

主要服務的客戶具有一些特徵:大中型企業、數據價值密度較高、看重數據的時效性。

 

差異化戰略包括:第一,支撐有大數據應用需求的大中型企業;第二,應用可以部署在雲上;第三,實時性要求高,與以前批量化的不太一樣;第四,能夠支撐業務、數據、架構的變化;第五,用戶體驗方面,更強調自動化、智能化。

 

記者:當前,DataPipelie公司的差異化競爭戰略的效果如何?

 

陳誠:目前已經成功服務了星巴克、金風科技、龍湖地產、財通證券、叮噹快藥等大型企業客戶。

 

在技術上,DataPipeline基於Kafka的開源框架,聚焦流式數據處理、高性能同步,快速解決數據融合問題。

 

在產品上,DataPipeline是一款實時數據融合產品,無需任何代碼,通過可視化圖形配置界面在極短時間內便可完成實時數據管道連接,是一款提供數據管道搭建、數據任務管理、數據質量管控、可視化運維管理、錯誤隊列管理、用戶管理以及元數據管理等一站式的數據融合平臺。

 

獲得資本支持

 

記者:最近DataPipeline獲得新一輪融資,能否介紹融資情況。融資主要用於哪些方面?

 

陳誠:DataPipeline公司於2017年年底完成2100萬元的A輪融資,由經緯中國領投,峰瑞資本跟投。最近,公司已完成了數千萬元的A+輪融資,本輪融資主要由BV百度風投領投,經緯中國、清流資本跟投。本輪融資後,DataPipeline將重點補強銷售市場團隊、產品技術團隊,以及完善客戶拓展和客戶成功體系。

 

記者:現在可以說是資本的寒冬,DataPipeline為什麼會受到資本的青睞?

 

陳誠:目前企業服務或是產業網際網路發展進入了快車道;應用數據集成市場增長可期,用戶需求也比較大;資本願意投資企業服務細分領域的頭部企業;DataPipeline在市場上得到了客戶的認可,客戶也願意為我們背書。

 

記者:未來,公司的發展想法和戰略是什麼?

 

陳誠:我們會繼續堅持既定的策略,堅持以技術驅動來服務客戶。同時會持續投入資源在客戶成功上,為客戶帶來更大的價值。

 

  




版權聲明:

凡本網註明」來源:中國軟體網(http://www.soft6.com)」的所有作品,版權均屬於中國軟體網或崑崙海比(北京)信息技術有限公司,未經本網書面授權,不得轉載、摘編或以其它方式使用上述作品。

任何行業、傳播媒體轉載、摘編中國軟體網(http://www.soft6.com)刊登、發布的產品信息及新聞文章,必須按有關規定向本網站載明的相應著作權人支付報酬並在其網站上註明真實作者和真實出處,且轉載、摘編不得超過本網站刊登、轉載該信息的範圍;未經本網站的明確書面許可,任何人不得複製或在非本網站所屬的伺服器上做鏡像。

本網書面授權使用作品的,應在授權範圍內使用,並按雙方協議註明作品來源。違反上述聲明者,崑崙海比(北京)信息技術有限公司將追究其相關法律責任。

相關焦點

  • DataPipeline——為客戶連接一切數據、應用和設備
    DataPipeline 實時數據融合產品通過多種實時數據技術,支持廣泛的數據節點類型,協助企業構建以業務目標為導向的數據鏈路,按需快速定製、部署、執行數據任務,以支持從傳統數據處理到實時數據應用的各類場景。
  • Pipeline 和 Transformer
    data: {y_train_pred}")# 預測測試數據y_test_pred = pipe.predict(X_test)print(f"Predictions on test data: {y_test_pred}")你可能已經注意到,一旦我們訓練了一條管道,進行預測是多麼簡單。
  • 深入對比數據科學工具箱: SparkR vs Sparklyr
    Parquet 是一種高性能列式存儲文件格式,比CSV文件強在內建索引,可以快速查詢數據,目前普遍應用在模型訓練過程。它要求先定義數據源表,再通過一系列dplyr操作惰性求值,直到執行 head() 或者 collect() 等觸發函數,才會執行計算過程,並將數據返回。如此設計是因為大數據集如果立即處理是無法優化數據處理流程的,通過惰性求值的方式,系統會在遠程機器上自動優化數據處理流程。
  • 工業4.0在能源場景中的應用(二)——非常規汽油田
    · use of logistics rather than just fixed pipeline infrastructure to move product to the customer.· environmental management in tune with regulations and public relations.
  • FATE1.0重磅發布:首個可視化聯邦學習產品與聯邦pipeline生產服務...
    作為全球首個聯邦學習工業級技術框架,FATE支持聯邦學習架構體系與各種機器學習算法的安全計算,實現了基於同態加密和多方計算(MPC)的安全計算協議,能夠幫助多個組織機構在符合數據安全和政府法規前提下,有效和協作地進行數據使用和聯合建模。
  • 微軟專為Win10設備推出定製版SIM卡和應用
    【天極網IT新聞頻道】【Yesky新聞頻道消息】 為了讓消費者能夠更輕鬆地用上LTE數據網絡,微軟計劃為Windows 10設備推出定製版SIM卡和Cellular data應用。微軟專為Win10設備推出定製版SIM卡和Cellular data應用  據悉,微軟SIM卡允許用戶在沒有合約束縛的前提下,用上各大運營商的行動網路。
  • 如何使用pipeline function獲得實時輸出
    如果要在pipeline中執行DML操作,則必須使用自治事務,否則會報ORA-14551錯誤 create or replace function f_pipeline_testdmlreturn MsgTypePIPELINEDasbegin for i in 1 .. 10 loop insert into test
  • 陳誠的部隊快打光了,他奉令增援,速度之快令陳誠感動的淚流滿面
    陳誠的18軍眼看支持不住,向蔣介石請求,讓薛嶽速來南京增援。薛嶽接到命令後,只用五天便火速從貴陽趕到南京。到了南京後,薛嶽隻身來到總統府晉見蔣介石,急不可待地要求任務。蔣介石對薛嶽部不到一星期就能從貴陽趕到前線感到驚訝:「你這隻老虎仔,跑得可真快。莫急,仗有得你打。具體的事,陳誠司令官已做安排。」
  • 機器學習中不平衡數據集分類示例:乳腺鉬靶微鈣化攝影數據集分類
    header=None)# retrieve numpy arraydata = data.values# split into input and output elementsX, y = data[:, :-1], data[:, -1
  • 如何使用PySpark來利用機器學習模型對流數據進行預測?
    對於離散流,其數據流可以直接從數據源接收,也可以在對原始數據進行一些處理後接收。構建流應用程式的第一步是定義要從中收集數據的數據資源的批處理持續時間。如果批處理持續時間為2秒,則將每2秒收集一次數據並將其存儲在RDD中。這些RDD的連續序列鏈是一個DStream,它是不可變的,可以通過Spark用作一個分布式數據集。考慮一個典型的數據科學項目。
  • 蔣介石一聲令下陳誠就地上任
    陳誠得令後,立即自草山過入臺北。行動之敏捷,為國民黨執政以來所鮮見。由此可知蔣先生事先布置得周密。"1949年年初,任命陳誠為臺灣省主席。1949年1月18日,蔣介石以軍事委員會委員長任命陳誠兼任臺灣省警備司令。1949年3月,蔣介石以中國國民黨總裁任命陳誠為臺灣省黨部主任委員。連下三道任命,至此臺灣省的黨政軍大權由陳誠牢牢掌握。
  • ML7345C在物理驅鼠設備中的應用
    編者按:以搭載羅姆小無線的驅鼠器為基礎,綜述了小無線設備在農業物聯網中的應用優勢,重點介紹了基於ML7345C的超聲波驅鼠設備的遙控方案。作者 吳紹聰 許路 上海大學(上海 20072)本文引用地址:http://www.eepw.com.cn/article/201806/382300.htm  *2017「羅姆杯」上海大學大學生創新設計大賽最佳創意獎摘要: 以搭載羅姆小無線的驅鼠器為基礎,綜述了小無線設備在農業物聯網中的應用優勢
  • 英語流行語:「大數據 big data」英文怎麼說?
    新東方網>英語>英語學習>語法詞彙>流行語>正文英語流行語:「大數據 big data」英文怎麼說?The four-day event has attracted 448 enterprises from 59 countries and regions to show the latest products, solutions, technologies, achievements and patterns on big data.
  • 陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型
    雖然簡單,但這一 pipeline 模型非常有效:在 3 個標準基準(ACE04、ACE05、SciERC)上,使用相同的預訓練編碼器,該模型優於此前所有的 joint 模型。為什麼 pipeline 模型能實現如此優秀的性能呢?
  • TalkingData正式對外發布數據觀象臺
    這是一款免費對公眾開放的移動網際網路數據查詢產品,除了提供諸如熱門機型、系統等基礎移動端數據查詢功能外,TalkingData移動觀象臺是國內第一款提供完整Android平臺應用排行榜的數據查詢產品。眾所周知,國內的Android市場碎片化現象比較嚴重,雖然各大第三方應用市場均有自家的應用排行榜單,但國內缺乏一個能夠全面洞察整體市場環境下,應用排名走勢的公開榜單,TalkingData藉助與國內眾多第三方應用分發平臺的良好合作關係,將各方數據有機整合,得以將國內Android平臺應用排名情況呈現出來。
  • GATK pipeline鑑定基因組變異的scripts
    前面我已經和大家分享了我的GATK-pipeline,最近GATK更新到了4.0,於是這裡有一些更新,我把我更新的scripts和大家分享。
  • Data-verse|數據之詩​
    日本視覺藝術家池田涼治(Ryoji Ikeda)與制表公司愛彼(Audemars Piguet)合作,展示了「 Data-verse」,該裝置捕獲了可以維持我們生存的大量知識,將處理後的信息轉換為自然界中隱藏的圖像和聲音,從視覺上讓參觀者沉浸在我們生活的巨大數據中。
  • 陳丹琦新作:關係抽取新SOTApipeline挫敗joint
    近期研究多採用 joint 方式建模兩個子任務,而陳丹琦等人新研究提出一種簡單高效的 pipeline 方法,在多個基準上獲得了新的 SOTA 結果。這使得該模型可以在實踐中快速準確地應用。在兩個數據集上,近似模型的推斷速度顯著提升。
  • China, Russia launch gas pipeline
    The two presidents, Xi in Beijing and Putin in Sochi, Russia, greeted each other, and Xi expressed gratitude toward the workers building the pipeline.