【IT168 專訪】在數據智能時代,面對海量數據的爆發式增長,傳統資料庫面臨著成本、性能方面的挑戰,與此同時也為新參與者帶來了機遇。
近兩年國內資料庫市場發生了變化,越來越多的企業和人才投身其中。2016年成立的偶數科技便是是一家非常年輕的資料庫創業公司,不過其創始團隊絕對是資料庫行業的老兵,公司也先後獲得紅點中國、紅杉中國的投資,目前其產品已在金融、公安、電信、工業、能源和網際網路等行業得到廣泛應用。
站在巨人肩膀上不重複造輪子
提起偶數科技或者其產品OushuDB你可能不太熟悉,但是提到Apache HAWQ你應該不陌生。2018年8月HAWQ畢業成為Apache的頂級項目並受到國內外開發者的青睞,而偶數科技的創始團隊是HAWQ創始人及團隊,OushuDB是Apache HAWQ的企業版本。
偶數資料庫首席架構師陶徵霖
近十年來偶數資料庫首席架構師陶徵霖一直專注資料庫內核研發,對PG社區與生態有自己的熱愛與貢獻,Apache HAWQ和OushuDB也是基於PG開發。這兩年國內對基礎軟體自主可控的呼聲很高,陶徵霖覺得大家都是站在巨人的肩膀上前進。
「你從頭開始造輪子是很沒有必要的,你可以在一個產品的基礎之上,融入創新的技術和想法,讓它能夠解決客戶痛點。」陶徵霖說,而PG社區和生態便是那個巨人。
2006年Hadoop誕生以後,數據分析領域產生了兩大技術路線,一種是基於Hadoop,另一種是MPP的大規模並行處理路線,Greenplum資料庫是其中的代表。但是兩大技術路線各有優缺點,Hadoop可以支持大規模的節點,但是性能很慢,而MPP快、兼容性好,但是節點規模並發度擴展性差。
陶徵霖介紹HAWQ結合了Hadoop以及Greenplum的優點,打造出了一個高性能的針對分析型資料庫的系統,此外,團隊實現了新一代雲資料庫架構,使計算和存儲完全分離。存儲與計算分離已經被工業界無數的案例所驗證,是目前比較好的一種架構方式,相比於傳統資料庫,在處理高並發、擴展性方面有極大的提升。
2016年偶數科技成立,OushuDB對HAWQ進行了兩大方面的提升,首先是開發了全新的SIMD執行器,可以充分榨取CPU性能,經過TPC-H測試,性能可以提升10 倍。另一方面,在今年9月份發布的OushuDB 4.0版本中,開發了分布式表存儲Magma,並將其作為OushuDB的新一代數據存儲底層實現。從此,OushuDB擁有了自己的原生表存儲。Magma和HDFS並駕齊驅,解決了HDFS不能高效支持的特性,比如Magma支持表數據Update/Delete/Index功能,提供自動的數據存儲和服務高可用。
從HAWQ畢業的2018年開始開源資料庫發生了一些動蕩,Redis Lab、MongoDB、CockroachDB等開源資料庫宣布修改許可協議,引起了業內人士的多方解讀。陶徵霖認為這是公司的商業行為,並不會影響到PG,PG依然很開放,偶數科技也在積極擁抱開源回饋開源。
「我們擁抱開源,現在HAWQ是Apache的頂級項目,我們接下來OushuDB一些新的功能也會不斷往開源社區合併,希望進一步提升社區的活躍度,也希望越來越多的小夥伴能夠加入Apache HAWQ這個社區。」陶徵霖說,他知道相比國外,國內的開源發展還比較初級,需要時間積累與打磨。
資料庫上雲要循序漸進
現在越來越多的企業上雲上平臺,而資料庫也被稱為是雲計算的終極戰場。國內外的雲計算廠商都在布局雲資料庫,Gartner預計2023年將有3/4的資料庫遷往雲端。
陶徵霖認為雲化是大勢所趨,但是國內用戶會稍微滯後一些,很多企業出於合規性以及隱私的考慮會從私有雲開始,然後將不太敏感的數據遷移到公有雲上,最後慢慢擁抱公有雲。目前國內企業的觀念和行為習慣還沒有培養成,需要循序漸進。
我們都知道「不能為了上雲而上雲」,陶徵霖從架構層面對這句話進行了解讀,「能不能很好的上雲更多的是分布式資料庫原有的一些架構方面的考量,是不是完全做到計算存儲相分離,是不是能夠做到動態加減節點,是不是能夠做到彈性伸縮。如果做不到這幾點其實你只是為了上雲而上雲,但是你和雲結合的並不好。」這幾點特性在資料庫方面知難行易,資料庫本身是一個很重的系統,需要投入大量的時間和精力,團隊從2013年HAWQ 1.0開始 ,重寫了很多模塊,相當於在資料庫內部動了很大的手術,一直做到2018年才把一個傳統的MPP資料庫打造成了雲原生資料庫。
今年,除了OushuDB核心的系統以外,偶數科技還推出了LittleBoy人工智慧套件,以及Lava雲平臺,期望為客戶提供一體化的系統以及更為全面的智能化分析,OushuDB可以部署在私有雲也可以部署在公有雲。
目前業內對雲數據並沒有一個統一的定義,資料庫也是最難遷移的軟體技術之一,上雲涉及到對原有IT資產的改造問題,是上雲並不是純粹的技術考量,也要權衡原有IT資產以及相關成本。陶徵霖認為一切還要看客戶的需求,「資料庫上雲相當於給客戶多了一種選擇。」
資料庫經過40多年的發展,從Oracle、DB2、SQL Sever傳統資料庫,到以MySQL、PostgreSQL為代表的開源發展,以及現在的雲時代。技術的迭代和市場的變化,使傳統資料庫廠商國內外的差距正在縮小,也為國內廠商帶來了機會。越來越多企業和開發人員擁抱開源,HAWQ能夠畢業成為Apache的頂級項目也證明國內技術人員並不比國外差。是否開源,是否上雲,如何上雲,在變革的當下,在百花齊放的今天,都是探索者。
「希望無論是HAWQ社區還是PG社區,都能越來越好。只有他們做好了,依託於這些社區的公司才能辦得越來越好。」這是陶徵霖真切的期望,他和偶數科技也將繼續站在巨人的肩膀上前進。