針對星圖數據CEO谷熠的採訪正好趕在「雙11」附近,這個鑄造中國電子商務一個新裡程碑的同時,也留下了一串光輝的數字:星圖數據對這個一年一度的網絡購物狂歡進行了全網銷售數據直播。作為國內唯一一家對全網銷售情況直播的企業,創始人兼CEO谷熠表示做到這些主要依賴兩點: 一是自身的數據獲取方式,區別於傳統的市場調研機構的」抽樣推總「方式,星圖數據利用」全網普查「方式獲取數據;二是直播效率的問題,目前他們的直播僅有三個小時左右的延時,這是傳統方式完全無法做到的,而做到如此高的數據獲取和處理效率,主要還是依賴他們自主研發的iNebula和WarpEngine這兩套系統。
創立不到一年,已經獲得A輪數百萬美元的融資,星圖數據已經在幾個方面開始快速發展,其中主要包括更多領域的數據監測、商務合作的推進以及新業務的研發,後期會將更多精力放在打磨產品和擴充數據方面。以下是對谷熠的採訪實錄。
星圖數據創始人兼CEO 谷熠
CSDN:首先介紹下自己和星圖數據,以及技術團隊情況如何?
谷熠:我是星圖數據的聯合創始人谷熠,現在在星圖數據擔任CEO一職。星圖數據(Syntun)是一家新銳的網際網路大數據服務公司,致力於大數據技術在消費領域的行業應用,專注於通過大數據的技術幫助傳統企業解決線上零售方面所遇到的實操問題。技術團隊目前在星圖數據佔據70%以上的團隊規模,其中涵蓋了數據的採集、清理、模型計算、產品開發等環節,數據處理的技術構成主要以Java、Hadoop為主,前端產品開發則採用了開發效率和靈活度都比較高的LNMP環境.
CSDN:你們目前的產品種類和業務方向如何?具體的應用場景有哪些?
谷熠:目前星圖數據主要專注於為傳統的品牌製造企業和渠道流通企業提供大數據解決方案。所提供的產品主要以SaaS+DaaS的形式提供,並且我們的產品區別於傳統的報告或者是資料庫的交付形式,主要針對企業日常工作流程中的職能與環節,通過工具化和服務化的方式,幫助企業相關人員解決場景化的實操問題。
應用場景:以傳統的品牌製造企業為例,我們全流程地幫助企業在線上零售過程中的產品管理、渠道管理以及營銷管理等多方面解決問題。舉例來說,我們曾經幫助一些傳統的品牌製造企業在產品的策劃和設計環節提供服務,通過對於消費者的評價評論的輿情反饋、消費者的購買習慣和選擇偏好等數據,在一款產品的各個細分維度提供設計支持,打造真正符合線上消費者需求的單品。經過該過程所設計生產的產品,至今依然是銷售名列前茅的明星單品。
CSDN:目前的客戶規模如何,有哪些重量級客戶?
谷熠:星圖數據目前主要服務的是傳統的品牌製造企業和渠道流通企業,從2014年3月份開始進行市場推廣和商務拓展後,目前共服務了數十家企業。其中包括耐用消費品類的美的集團和快速消費品類的蒙牛等知名企業。
CSDN:目前國內外做大數據行業的企業很多,專注海量數據分析的也不少,相比其他,你們的優勢何在 ?
谷熠:我認為競爭優勢主要體現在以下幾個方面:
更懂技術:我們利用開源的Hadoop等技術,自主研發出iNebula(數據星雲)大數據獲取和存儲系統,以及WarpEngine(曲速引擎)大數據處理和分析引擎等具有自主智慧財產權的大數據系統,構建了自有的大數據供應鏈。通過這套供應鏈系統,極大地加強了數據的吞吐能力,提升了效率。因而能夠減少人工操作所帶來的延遲和風險,從而做到更為實時的數據供給。
更懂數據:我們的團隊具有專業化的豐富的大數據處理的經驗和能力,能夠通過系統化的方式,快速準確地進行數據的清洗、標準化、挖掘以及數據模型演算的過程,從而很大程度上提升了數據的準確性和可用性,並且將數據的顆粒度細化到SKU級別。
最重要的是我們更懂客戶:我們通過與上百家的傳統企業所進行的服務與接觸,深入地了解企業在線上零售方面整個的業務流程和所遇到的困難。這也是我們能夠設計出符合客戶需求的產品的最本源的出發點。
CSDN:據我了解,星圖數據作為唯一一家對「雙11」當天進行全網銷售情況直播的企業,能否分享這背後的技術基礎?
谷熠:能夠做到在雙十一當天進行全網銷售情況的直播,主要依賴於以下2點。
一是我們自身的數據獲取方式的問題,我們區別於傳統的市場調研機構的」抽樣推總「方式,而是利用」全網普查「方式獲取數據。我們對於全網18家主流的綜合性B2C和垂直性B2C進行實時監測,從而匯總出了我們所發布的全網銷售情況數據。
二是直播效率的問題,目前來講我們的直播僅有三個小時左右的延時,這是傳統方式完全無法做到的。如此之高的數據獲取和處理效率,主要還是依賴於我們自主研發的iNebula和WarpEngine這兩套系統,「零人工幹預」的方式極大地提高了系統的效率。
iNebula是一套針對網際網路海量信息的實時監測和數據獲取系統,通過分布式解偶採集和智能解析,從常態監控或定向的web頁面中提取結構化數據,並通過動態地址池、智能任務路由、網絡環境自適應以及多樣化的數據校驗及存儲技術確保數據獲取的完整性和效率。目前iNebula平均每分鐘獲取的頁面數量為50000個以上,每日常態化獲取並存儲的網際網路數據超過3TB。
中臺的大數據處理及分析引擎WarpEngine,主要完成數據的清洗挖掘、QC和標準化、以及建模計算和語義分析。通過應用Hadoop平臺上的各項技術以及機器自學習技術,目前WarpEngine每分鐘處理的數據超過6000萬條。
星圖數據的雲服務產品線目前已上線三款產品:D-Matrix、SkyScope及Atom.Power,主要採用主流的LNMP架構來提高產品系統的效率和擴展性,其中資料庫主從方式和Redis熱數據緩存的應用,使大數據產品在雲端服務的承載量級更高、展現速度更快;而數據可視化部分使用了目前主流的Chart圖方式,讓數據的易用性更強,展現更加生動。
但是我們相信這仍然還有可提升的空間,我們希望在明年「雙11」的時候能夠通過和今年天貓採用的大屏直播的方式進行全網銷售情況的直播。
CSDN:能否介紹下星圖數據背後的技術架構和平臺打造歷程?
谷熠:星圖數據技術團隊的前身是2010年組建於美國加州的BDTAC團隊,核心來自於USC和CMU等高校,聚焦於大數據前沿技術及應用。星圖數據的國內研發團隊在2014年初組建完成後,在首席科學家糜萬軍博士的帶領下,基於美國團隊的技術研究和積累,歷經數月的本土化和行業化,開發了現在星圖數據底層的大數據採集及存儲系統iNebula和中臺的大數據處理分析引擎WarpEngine兩個系統的裡程碑版,並在此之上逐步研發了針對消費領域的企業雲服務產品線。
CSDN:你們在Hadoop等開源技術實戰這一領域具有非常豐富的經驗,有哪些經驗可以分享給讀者?
谷熠:這個我們的技術人員也是通過不斷摸索、優化來逐漸完善的。Hadoop做一款支持數據密集型分布式應用的開源軟體框架,配合其子項目使用,對於大數據的處理和模型計算是具有天生的優勢的。但是最為一個開源軟體框架,它的版本更新頻率和是比較頻繁的,雖然版本更新帶來了更高的性能,特別是從1.x版本升級到2.x的大版本升級,改動比較大,我們的技術團隊也走了不少彎路。所以建議大家在獲得更新的版本和穩定性兩方面做好平衡。
CSDN:站在客戶的角度,你覺得目前客戶們最關心的問題集中在哪些方面,你們有無應對之策?
谷熠:從我們和數百家的傳統企業的接觸來看,我們認為目前我們的客戶,尤其是傳統的品牌製造企業客戶核心關注的問題實際上是如何完成自己內部工作流程和方式的轉型升級。企業已經越來越從銷售結果導向,開始轉為消費者導向了。這正好符合星圖數據所構建的數據體系,即零售數據體系和消費者數據體系。我們所追求的正是這兩套體系的打通,從而完成從企業到消費者的完整閉環。舉例來說,企業可以通過消費者數據進行所有的生產、銷售和營銷的決策,並最終通過銷售數據來進行驗證和考核。
CSDN:國內外目前的大數據分析領域發展趨勢如何?星圖未來有哪些計劃能透露下嗎?
谷熠:大數據領域無疑是最近幾年最為火熱的領域,越來越多的企業開始意識到大數據的重要性,也有越來越多的企業開始投身於大數據服務的浪潮之中。從個人角度來講,我認為無論服務的目標對象是誰,都需要充分地了解你所服務的對象,了解他的業務流程、使用方式、應用場景以及所遇到的問題等等。只有深入了解你的目標對象,才有可能實現蘊藏在海量數據背後真正的大數據價值。大數據時代的到來,數據量的極大豐富,導致了數據價值密度的降低,因此,更需要有真正懂得大數據規律的企業來起到提煉價值、貢獻價值的作用。星圖數據也正在朝著這個方向努力。
備註:2014年11月25日更新,持續更新中......
備註:雲先鋒系列文章是由CSDN雲計算頻道打造的,主要報導(免費)國內外在雲計算、大數據方面具有獨特競爭優勢的企業,以傳播技術為目的,推動中國雲計算技術的發展,歡迎投稿!weiwei@csdn.net。
CSDN誠邀您參加中國大數據有獎大調查活動,只需回答23個問題就有機會獲得最高價值2700元的大獎(共10個), 速度參與進來吧!
全國大數據創新項目評選活動目前也在如火如荼進行中,詳情點擊這裡。
2014中國大數據技術大會(Big Data Technology Conference 2014,BDTC 2014)將於2014年12月12日-14日在北京新雲南皇冠假日酒店召開。傳承自2008年,歷經七屆沉澱,「中國大數據技術大會」是目前國內最具影響、規模最大的大數據領域技術盛會。本屆會議,你不僅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼項目管理委員會成員)、Yi Liu,以及Apache Hadoop和Tez項目管理委員會成員Bikas Saha等分享的通用大數據開源項目的最新成果和發展趨勢,還將斬獲來自騰訊、阿里、Cloudera、LinkedIn、網易等機構的數十場乾貨分享。 當下門票團購還有些許優惠, 預購從速。
免費訂閱「CSDN大數據」微信公眾號,實時了解最新的大數據進展!
CSDN大數據,專注大數據資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機器學習、智能算法等相關大數據觀點,大數據技術,大數據平臺,大數據實踐,大數據產業資訊等服務。