無論是「小數據」時代還是現在的「大數據」時代,對數據的挖掘、存儲、分析和使用從來就不是一件簡單的事兒,而且這件事的難度還會隨著數據量的增長而變得越來越大。同時,單個企業若是僅僅想要進行數據的存放和處理,去配備一整套Hadoop集群也並不經濟。於是,阿里雲準備將這件事做成一門生意,幫助企業對他們手中的數據進行存儲和分析。
不久前,阿里雲正式對外公布了一個叫做ODPS的商用服務。ODPS的全稱是Open Data Processing Service,也就是開放數據處理服務。企業可以將來自前端的大量數據集中導入到阿里雲中存儲,這一點類似於亞馬遜此前推出的Redshift數據倉庫。
不僅如此。官方還表示,在這個基礎上,阿里雲將會開放更多的數據分析服務。目前,ODPS開放了SQL功能,以用於數據倉庫和日誌分析。這就像是Google此前推出的BigQuery——它可以讓開發者可以使用Google的架構來運行SQL語句對超級大的資料庫進行操作。同樣地,現在企業也可以使用ODPS來對數據進行處理了。
在價格和性能方面,ODPS是按照使用量付費的:存儲1GB的數據,每個月收取大概0.5元錢左右;阿里雲還官方公布了一個數據處理能力供參考:6個小時ODPS可以處理100PB的數據。至於至關重要的商用後的SLA(服務等級協議),ODPS產品經理湯子楠披露了一部分:在技術層面,阿里雲承諾放在ODPS中的數據不會洩漏,阿里巴巴和阿里雲也不會查看;在服務層面,鑑於不能承諾所有提交的數據處理作業都能計算成功,如果是阿里雲方面的原因導致作業失敗,那麼阿里雲則不會收費,而且對於離線作業來說,只對作業成功的那次進行收費。
在此前,ODPS一直被應用於阿里內部的業務系統中,一個典型的應用就是阿里小貸公司的審核和放款流程。阿里巴巴的官方數據稱,有超過36萬人從阿里小貸借款,最小貸款額為1元,並且能夠實現3分鐘申請、1秒放款、0人工幹預。在這些背後,阿里小貸每天需要處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,運算100多個數據模型……這些都是放在ODPS上存儲和分析的。阿里雲還表示,淘寶和支付寶等阿里巴巴的部分核心數據業務,也都運行在ODPS平臺之上。而在ODPS的產品頁面則拿出了阿里巴巴的關聯公司天弘基金和眾安保險作為案例來進行宣傳。
從目前來看,ODPS開放的還只是針對大量數據的數據倉庫功能,以及部分數據分析服務。但阿里雲顯然並不想止步於此。
你可以把阿里雲此前一個叫做「御膳房」的服務看作ODPS未來發展方向的縮影。簡單來說,「御膳房」實際上是對淘寶和天貓電商數據的挖掘、存儲、分析和服務輸出的整套服務。在「御膳房」中,淘寶和天貓平臺上的大量電商數據被放到ODPS上進行存儲,阿里巴巴還引入了第三方ISV(獨立軟體開發商)來針對這些數據開發分析工具和模型進行分析,最後他們將分析結果拿到服務市場上去銷售給賣家——所謂針對淘寶天貓用戶進行的精準廣告營銷,就是通過這種方法得來的。
在ODPS被開放出來之前,「御膳房」完全是阿里巴巴內部的電商平臺上生長出來的產物,從數據來源,到數據取向,都是服務於淘寶和天貓平臺。而在開放以後,就會有更多類型的企業和數據(包括一些阿里巴巴內部不太擅長處理的非結構化數據)被放在ODPS上,而使用範圍也將不僅僅局限於阿里巴巴平臺了。
用更加直白的語言來解釋就是,ODPS此次作為PaaS被開放了出來進行商用,接下來,企業自身、或者借用ISV開發的工具再在ODPS之上進行數據分析,然後使用這些分析結果。
不過,ODPS現階段仍有不少問題。湯子楠坦言,對非結構數據的支持將會是ODPS面臨的一大挑戰。因為ODPS最早是基於阿里巴巴內部的業務成長起來的,而阿里巴巴分析的數據主要是交易數據和用戶行為數據——這些數據大多都是結構化和半結構化的。這決定了,ODPS最初開放的服務面向的也都是結構化數據,比如無人分析、數據倉庫、BI(商業智能)分析。而隨著更多的企業使用ODPS,一定會有大量非結構化的數據放到這個平臺上來,這將會是ODPS接下來要探索的很重要的一個方面。
另外則是數據的傳輸問題。阿里雲官方的建議是直接使用ODPS的數據倉庫,這樣就可以直接調用ODPS之上的分析工具;但如果客戶的數據並不存儲在阿里雲上,也想使用ODPS對數據進行分析,則只能通過API使用https協議傳輸——這意味著網絡傳輸不得不受到網速的限制。當然,企業還可以選擇把數據裝進硬碟裡,寄給阿里雲。
註:題圖來自Shutterstock