【CTO講堂】Growth Hacking背後,數據分析平臺的架構調整

2021-01-13 CSDN技術社區

為了幫助IT從業者職業之路擁有更多收穫，在諸多C粉的殷切期待下，由 CTO俱樂部打造的CTO線上講堂自登場以來獲得大家好評。本期邀請諸葛io創始人&CEO孔淼帶來「Growth Hacking背後，數據分析平臺的架構調整」的主題分享。

歡迎加入CTO講堂微信群與業界大咖零距離溝通，11月6日本期講堂報名方式拖至文末查看。

分享嘉賓：諸葛io 創始人&CEO 孔淼

嘉賓簡介：孔淼，90後，諸葛io 創始人/CEO，畢業於華中科技大學軟體工程專業。大學期間獲得全球最大學生技術創新比賽微軟創新杯兩項一等獎，騰訊校園之星大賽全國第二，全國大學生計算機設計大賽一等獎，HTML5 code jam武漢冠軍。曾受邀實習於創新工場，擔任李開復博士的技術主力，負責處理工場各部門以及李開復的技術需求。畢業後放棄保研以及各大公司offer，加入37degree團隊開始創業。在37degree期間，曾帶領團隊服務過CCTV、海爾、寶馬等知名企業。過去4年間，孔淼專注於對數據分析、數據挖掘領域的探究，並於去年起打造了新一代的數據服務平臺——諸葛io。

公司簡介：諸葛io (zhugeio.com) ，作為國內首屈一指的精細化運營分析工具，一直強調數據分析的應用與價值。自2015年3月上線，已擁有圍繞產品業務邏輯展開的一系列功能，如：自定義事件、自定義留存、漏鬥轉化、群組細分、用戶畫像等。諸葛io旨在以先進的用戶跟蹤技術和簡單易用的集成開發方法，幫助產品與運營者挖掘用戶的真實行為特徵。產品上線運營半年，已擁有暴走漫畫、墨跡天氣、小影、尋醫問藥網的諸多樣板客戶，總覆蓋設備數超過一億。目前，諸葛io支持Android、iOS和HTML（JS）三個平臺。

以下是10月29日CTO講堂現場完整速記：

主持人：講堂開始啦~今天嘉賓是諸葛io 創始人兼CEO孔淼，請您做個自我介紹吧。

孔淼：大家好，我叫孔淼，諸葛io的創始人，現在也是CEO，之前是創新工場也是微軟創投加速器項目37degree的CTO，所以也應該算第二次創業了，過去幾年一直是專注於分布式技術和數據挖掘領域。在過去的幾年積累的經驗，也意識到了數據分析的困難，所以這次打造諸葛io也是為了幫助更多的企業更高效快捷的開始利用數據驅動決策。

主持人：什麼情況下開始的諸葛io的創業呢，最初的創業方向是怎麼確定的？

孔淼：最初創業方向應該是我還在37degree的時候，大概是13年底，就和合伙人討論了當時如何將數據分析標準化服務更多的企業，討論了當時非常常用的百度統計，友盟，talkingdata，Google Analytics等統計類工具，後來總結他們的弊端有兩點：

一是幾乎是外部環境和通用的維度數據（DAU, PV, 設備，運營商等等），很難反映業務的情況，並且稍微和業務相關的類似頁面訪問這些數據粒度也太粗了；二是這些數據大多都是忽略人的行為路徑，純從行為發生進行統計，高度匯總的統計平臺。沒有基於用戶進行分析。

後來也討論了Splunk這種日誌處理分析工具，但是這種工具場景離業務太遠了，也會限定用戶群是能夠收集日誌，有一些分析能力的團隊。但是沒有想到合適的方法，直到14年初一個和手機廠商合作的SDK項目讓我們有些開竅了，找到解決問題的方式和辦法了，然後連續半個月，我和合伙人每天晚上聊到11點多，到14年10月就開始DEMO，12月就開始現有版本的開發了。

主持人：請介紹一下目前諸葛io的情況以及技術團隊構成。

孔淼：目前諸葛io有二十多人，現有的標準化產品是zhugeio.com，暴走漫畫，小影，尋醫問藥，墨跡天氣，365日曆等知名應用和服務都已經是我們的用戶了。現在註冊的開發者超過1000，創建的應用也逼近500個了，我們提供javascript，Android，iOS等三個平臺的數據分析服務，已經覆蓋超過2億的設備。

同上面講的差異，諸葛io目前提供的主要是基於用戶行為進行實時多維度的交叉分析，幫助更多企業將產品黑盒子打開，幫助他們提高客戶留存和客戶忠誠度，也能看到更多自己的業務相關指標變化以及背後的人群，目前提供無碼布點（無需更新應用實時可視化埋點跟蹤），自定義事件、自定義留存、漏鬥轉化、群組細分、用戶畫像，通知推送等服務。並且我們在持續迭代，旨在打磨更好，更易驅動決策的產品。

技術團隊的構成目前是十多人，包括了前端工程師，web開發工程師，服務端工程師，大數據工程師，數據倉庫工程師，運維，DevOps，後臺開發工程師，SDK開發工程師, 數據分析師。

主持人：近期「Growth Hacking（增長黑客）」的概念越來越火，很多創業團隊都把這個為Facebook、Dropbox、Airbnb等公司帶來巨大用戶增量的概念奉為聖經。然而，究竟什麼是Growth Hacking？該如何理解呢？

孔淼：Growth Hacking我在之前分享過一篇文章

也在創新工場講過一次課

大家可以看看，Growth Hacking更多的是基於一些產品現狀的數據分析，通過一些策略獲取快速的增長，Growth Hacking不同與市場或者BD，後者更多是面上的覆蓋，用通用的方法帶來流量或者以資源互換帶來增長，它更多的是圍繞AARRR的用戶生命周期，也就是Acquisition（用戶獲取），Activation（用戶活躍/激活），Retention（留存）， Referral（傳播），Revenue（收入），這樣一個用戶從獲取到產生價值轉換的過程，其實也是一個漏鬥轉化，針對某個轉化比較糟糕的階段進行分析，提出策略，然後針對性改善，獲取爆發增長。所以是基於數據，更有針對性，也更Hacker一些。

主持人：那麼Growth Hacking與數據分析的關係是怎樣的？

孔淼：Growth Hacking不是完全拍腦門，我們可能會經常腦洞打開提出很多策略，但是數據分析的支撐越少，語境就越大，就越靠直覺和猜測了，而Growth Hacking大多是基於數據分析，例如剛剛講到的2A3R（AARRR）的用戶轉化情況，所以就把策略和決策能夠focus在更準確的地方，通常就是我們所說的OMTM( One Metric That Matters)最有影響的指標或因素。

主持人：研發團隊在其中扮演著怎樣的角色？都面臨哪些挑戰？

孔淼：我們提供的數據分析，是從採集到交互式分析，所以剛剛講到的這些職位自然就有相應的對應。SDK工程師（數據採集），服務端工程師（數據收集），大數據工程師（數據處理清洗），數據倉庫工程師（建模分析），web開發工程師（網站應用），前端工程師（交互效果），然後運維和DevOps會支撐內部的一些服務和數據分析，數據分析師也會基於數據幫助企業探索一些價值產出。

面臨的挑戰也挺多的，如何處理更加實時，以及更加大量級的（微信，今日頭條等）分析，SLA等等。

主持人：談到今天分享的主題，為什麼說現有的數據分析架構不能支持Growth Hacking需求？

孔淼：其實剛剛對Growth Hacking已經解釋了，更多的是圍繞用戶分析而來，而開始也提到了現有的數據分析系統解決方案大多數是基於Hadoop的統計分析平臺，開始會抽出一些待交叉分析的維度，然後針對維度進行計數，所以丟掉了人的行為路徑。

主持人：目前諸葛io是如何在架構上解決傳統分析平臺的不足？可否展開詳細談談。

孔淼：我們的架構還是現有數據分析常見的lambda架構，我們的數據處理過程分層比較平行，並且基本上都是分布式技術，沒有單一的使用一種資料庫，例如用到了mysql，infobright， Elasticsearch, Hadoop分別存儲和處理不同類型的業務。也把一些高複雜度的分析進行拆解，不太好用單一技術解決的問題，會從業務拆解。

可以分享一個我們的架構圖：

我們的消息隊列用的是Kafka，這種就把子業務系統的處理變成了多層消費者，支撐不同業務條件下的分析。

我們的架構做過一次變遷，最開始的時候，中間的業務數據清洗，寫的是java進程消費Kafka進行處理，後來改成了Samza，也是為了擴展性。

主持人：請介紹一下諸葛io目前的產品及服務？諸葛io提供哪些工具來協助提升技術團隊的效率？

孔淼：諸葛io的產品和服務剛剛已經介紹過了，我們內部用Gitlab進行代碼管理，用JIRA跟蹤bug，用Teambition進行項目管理，內部堅決不造輪子，也會用ELK這種跟蹤內部的日誌。

主持人：相比同類型產品，主要優勢有哪些？

孔淼：我們是國內最早基於用戶和業務數據的實時多維交叉分析工具，相對於傳統的分析工具，主要差異如下：

主持人：請談談你們是從哪些方面來做好安全保障和提升服務質量的？

孔淼：我們目前的是基於標準伺服器和資料庫的埠權限管理保證基礎的安全，並且諸葛現有的數據上傳和數據查看也逐步全面切換HTTPS服務，我們同是在數據上傳和處理也做了多級備份的策略，上周末我們的伺服器硬碟突然異常損壞，但是整個過程基本上沒有用戶的數據丟失，這是對內的，對外我們也在評估一些安全廠商，希望通過外部的力量幫助我們提早發現漏洞和保障安全。

主持人：看到您簡歷，屬於年輕的一代的創業者，請結合您的切身體會談談您眼中年輕一代人身上的特點，以及對即將走上創業之路的年輕人有什麼建議？

孔淼：我是連續創業，第一次是深度參與創業，所以也很感謝我第一次創業的老闆也是我現在的合伙人，讓我了解到了創業中得很多問題，而這一次以CEO身份創業也從更多方面上感受到了挑戰和壓力，但非常值得！

對於年輕一代人，我其實還是不太理解的哈哈，所以大家看我都以為我是85年，其實我是91年出生的，我女朋友比我小一歲，也叫我叔叔，包括身邊的朋友大多也是70後和80後一些創業經歷豐富的朋友，也一直是我學習的目標。總的來說，我還沒有創業成功，也沒有太多資格去給別人建議，但我的體會是有價值和值得的。

主持人：那麼平時諸葛io的技術團隊都通過什麼渠道來提升團隊？技術團隊氛圍是怎樣的？公司招人過程中，您比較看重新人的哪些特質？不大接受哪一類型的人？

孔淼：我一直堅持的是讓大家要發現自己所做事情的價值，也努力讓大家認同公司產品的價值，並且幫助每個人找到自己合適職位和工作內容，比如我們的大數據工程師就是從web開發轉過來的，興趣和passion是最好的提升方法。

技術的氛圍是鼓勵大家學習，挑戰和反思。根據職位不同，看重的不一樣，但最重要的還是學習能力。不大接受的是自然也就是牴觸學習的人。

主持人：推薦一些您覺得非常不錯的書籍或者學習資源吧。

孔淼：《精益數據分析》（《Lean Analytics》）相信對很多公司的數據分析部分有幫助，然後架構方面，就是多看類似InfoQ上一些公司分享的slides，國外的就是slideshare、 highscalability 可以找到很多資源，不過還是提醒下大公司的架構不見得借鑑性那麼強，核心還是弄清自己業務，以及相關技術棧的特點。

我推薦技術人員不要過多只限於技術，更多也要多了解業務，有的放矢。

互動環節：請問的系統會爬取公網的網頁消息用作數據分析麼？
孔淼：不會，我們做第一方數據分析，只分析您自己的數據互動環節：您現在的業務收集數據和數據報告延時多少？主要是哪個環節延遲最大，是什麼原因呢？
孔淼：數據收集是實時，這個實時是不考慮終端數據上傳策略，數據報告是on demand的。實時的數據報告不包含今日的數據。
問：個人拙見這是得客戶自己不斷的改進才能拿到最多給自己的組合。當然可以反饋給孔老師：）
孔淼：嗯，分析也是迭代的，過往錯誤的觀念是把所有數據都收集起來，結果也都不會分析的，本身版本迭代過程，你也不會一個月解決所有的問題。互動環節：您能舉一個真是的google analytics 幹不了的你的可以幹的了的案例嗎？
孔淼：自定義留存，比如滴滴用諸葛io可以看到搶了紅包持續打車或者沒有打車的的留存率怎樣。並且這些數字都能看到背後每個人最近的使用情況。
問：同意。 youtube 只關注 watch time, what's app 就關注 messages per day,fb 關注 dau。
孔淼：是的，過去大家用百度統計，友盟看到的都是一樣的留存，DAU，但是其實更加關注的應該是自己的業務情況，比如滴滴打車留存，知乎日報是閱讀的留存。互動環節：不需要hdfs分布式文件系統存儲，直接流式處理數據放入資料庫中，是這樣嗎？
孔淼：流失處理數據是過程，HDFS分布式存儲是其中一種消費應用，也有入到Redis做技術統計，也有入到Elasticsearch做索引的，還有其他的。所以不是唯一只存在一個地方，每一種資料庫有各自的應用場景，並列的消費者。互動環節：您講的觀點非常贊同。有這麼一個問題請教一下：app行為日誌和業務相結合，但可能存在你們對於公司的業務不夠熟悉，這種情況下如何達到預期效果？
孔淼：我們的SDK接口抽象了，業務抽象成了事件名稱和屬性的組合。我們捕獲數據後，就會自動成為我們的篩選條件。所以每一家應用使用諸葛io篩選條件都不一樣。互動環節：實時的多維分析主要是基於那種存儲呢？是mysql麼？還是mongoDB呢？
孔淼：還是關係型資料庫，但是每天凌晨結合業務生成了一些中間表，降低複雜度。互動環節：大數據分析固然重要，你們如何對待你們收集的數據裡包含的個人隱私？還是還是目前不管這一塊？
孔淼：我們做第一方數據分析，不會自己基於數據賣錢，本身就是收費服務，這是我們商業模式。關於安全性，剛剛也講了我們的措施。互動環節：使用開源軟體過程中有沒有遇到一些不好解決的難題？
孔淼：有，有一些限制，但是我們目前遇到的問題不大，往後肯定會有更多問題，下個階段可能就需要基於源碼做深度的修改開發了。想與業界大咖零距離溝通，歡迎加入CTO講堂微信群，參與CTO講堂！【CTO講堂第22期預告】

分享主題：淺析工業級物聯網項目的快速開發

嘉賓簡介：劉洪峰，網名葉帆，葉帆科技創始人兼CEO，前微軟（中國）.NET Micro Framework開發團隊成員，微軟全球最有價值專家(MVP)，CSDN十大MVB。以微軟.NET Micro Framework系統為核心，研發了物聯網智能網關、物聯網智能終端，YFIOs和YFHMI等物聯網中間件軟硬體平臺。

劉洪峰有十餘年工控經驗，是國內最早一批接觸微軟.NET Micro Framework技術的人，從2007年.NET Micro Framework剛開始引入中國就開始研究。並於2008年加入微軟亞太集團.NET Micro Framework項目組，進行了為期四年的深入學習。不僅完成了.NETMicro Framework第一個版本的文件系統（FAT32），也是全球第一個成功把.NET Micro Framework移植到ARM Cortex-M3架構上的人。（博客、微博）

公司簡介：北京葉帆易通科技有限公司（簡稱:葉帆科技）是一家軟硬結合的高科技公司。專注於物聯網中間件、物聯網二次開發和軟硬體集成技術方案研究和開發，以成熟的.NET Micro Framework技術為核心，用組態軟體的架構和思想去構建物聯網應用方案。

分享時間地點：11月6日（本周五）10:30 , CTO講堂群

加入方式：掃描二維碼加「C粉兒小助手」好友，申請入群。

還不是CTO俱樂部成員的各公司技術負責人，歡迎立即加入俱樂部：cto.csdn.net 。

更多俱樂部動態，歡迎掃碼關注微信號：

本文為CSDN原創文章，未經允許不得轉載，如需轉載請聯繫market#csdn.net(#換成@)

【CTO講堂】Growth Hacking背後,數據分析平臺的架構調整

相關焦點

關於神秘的Growth Hacking,Facebook都做了什麼?(中)

【CTO講堂】如何構建高可用和可伸縮的架構?

大數據下的數據分析平臺架構

【CTO講堂】將「簡單快速」滲透到移動開發測試每個環節,從fir.im...

【CTO講堂】如何用Python一門語言通吃高性能並發、GPU計算和深度...

初創公司如何利用Growth Hacker實現加速?比如,Airbnb

【CTO講堂】從開發到上線,一個人的兩周產品研發之旅

對比解讀五種主流大數據架構的數據分析能力

2020年,數據分析能力是考核CIO和CTO的硬指標

深信服:防火牆、UTM產品硬體平臺架構分析

宇視全數據智慧監控架構:智能分析新時代

大數據架構流程圖

七牛雲「機器數據分析平臺 Pandora」榮獲金鈴獎「數據平臺增效獎」

阿里雲羅慶超:基於雲存儲的智能數據與分析處理架構

浪潮大數據分析平臺專題及常見問題 - CSDN

貝殼總監分享數據中臺與大數據平臺架構，數位化房企早該如此

點米科技CEO焦學寧:BAT們紛紛進行架構調整、人事調整背後的效率...

【CTO講堂】請在還年輕的時候,儘量多踩些坑

LeaTech全球CTO領導力峰會

神策數據技術VP付力力親述產品架構演變:變與不變的背後思考