|0x00 正在發生的數位化轉型
這是一個數位化的時代,不論你從事怎樣的崗位、身處怎樣的行業,我們都被捲入其中。「數位化轉型」的口號喊了很久,但2020的年末,發生了兩件事情,卻讓這件事情陡然加速。
一個是「被動的數位化轉型」,一個是「主動的數位化轉型」。
「被動的數位化轉型」
成熟的雙邊市場,是商業能夠繁榮的前提,一個能夠高效的聚合消費者和生產者的場所,其商業價值能夠得到規模效應的倍增。中國過去二十年的網際網路化進程,催生了一個關鍵詞:「數位化平臺」,通過將線下商品不斷的進行線上化,進而加速了行業的標準化進程,而交易的方式越標準化,反過來越能夠催生行業的繁榮。電商行業如此、廣告行業亦如此。
那麼什麼樣的行業能夠催生出「數位化平臺」呢?顯而易見,能夠將商品或者服務進行標準化的行業,就越容易進行「數位化轉型」,進而催生出一個非常巨大的時長。典型的行業,就是出行和外賣。
有一些行業因為標準化難的問題,之前並沒有進入巨頭們的視野,隨著網際網路行業整體的增長乏力,它們迫切的需要開拓新的時長,於是「社區團購」被盯上了。「社區團購」通過巨頭們成熟的電商平臺,將產品供應鏈、物流、倉儲、訂單分發進行了標準化,配合「團長」這個具有人情味的中間角色,能夠將過去買菜這種年輕人體驗極不好的事情,迅速的標準化起來,省去了砍價、走路、挑菜等繁瑣的環節,將消費者和直接的生產者高效的聚合了起來,提升了生鮮等商品分發的效率,從而對傳統的行業,再一次的實現了「降維打擊」。
儘管國家出面批評,但這麼重要的流量入口,誰又能輕易放棄。
「主動的數位化轉型」。
可口可樂最近在微信推出了一個小程序,雖然過程沒有什麼波瀾,但意義卻不一樣,因為這是可口可樂國內的第一家線上化平臺,傳統巨頭們,坐不住了。如果你感興趣,可以在微信中搜索「可口可樂+」,注意,要帶一個「+」號。
與「賣可樂」的印象不同,可口可樂這次不僅沒有賣飲料,反倒是與其他品牌合作,賣起了文創、家居、箱包、珠寶等各種周邊文化產品。這些年來,可口可樂一直將社交化傳播作為自己的重要策略,通過更多場景的滲透,來與消費者連結起來。
可口可樂這次有三個變化值得注意:
提供了IP產品的定製;
聯合多個品牌方,打造IP形象;
直播成為重要的流量標籤入口。
把IP化、直播這兩個今年熱門的標籤,帶到了線上,足以表明可口可樂對商業變化的敏銳程度。過去,可口可樂活在廣告裡;現在,可口可樂活在了「數位化平臺」中。
所以,不管是「主動的」,還是「被動的」,大家都在拼命的「數位化」,玩命的「標準化」。
|0x01 數據的標準化越來越重要
回到技術本身,我們看待「數位化」這件事情,其實更多的應該聚焦在「標準化」上。數據人往往會對自己有個定位,叫:「輔助決策」,但怎樣才能叫「輔助」,做幾個報表算嗎?還是跑幾個模型能算?
決策是由管理層掌握的,考察的是人的決策力,決策力是由決策者自身的視野、資源、人脈、領導力、商業嗅覺等組成的。一線員工需要經歷較長時間的打磨,才能具備決策力。因此,數據從業者,不能直接跨越階段,需要經過描述、分析、輔助決策的逐步歷練,才能成長為決策者。
因此,在「輔助決策」之前,數據人的首先目標,是要能把事情闡述清楚,把數據做好「標準化」。在去搶業務價值之前,先問問自己,這個領域的數據是否標準化了,如果還沒有,我們應該怎麼去做。別看這是一件很基礎的事情,它卻是「數位化轉型」最核心的部分。
最近這些年,我們對結構化數據的處理已經有了非常成熟的手段,包括對業務資料庫的同步,以及處理日誌要用到的「數據埋點」。與業務資料庫已經標準化好的數據不同,如何設計一套規範的「數據埋點」體系,是非常重要的。
從分類上來講,「數據埋點」主要分為前端埋點與後端埋點。
前端埋點是在用戶端,如APP、網頁等嵌入數據採集代碼,著名的例子有友盟的統計SDK和淘寶的SPM碼。前端埋點能夠對網頁訪問的信息進行採集,更容易收集到用戶在界面上的行為,如點了哪個按鈕、在某個頁面上停留時間有多長,等等。前端埋點的優點是能夠收集更全面的數據,內容更加豐富,但缺點是採集的數據量較大,增加了終端流量的消耗和伺服器的存儲負擔,而且對於需求的變更無法及時的相應。
後端埋點是在伺服器上記錄日誌,當用戶訪問某個在線的產品模塊時,由伺服器將此次訪問的信息記錄下來。後端埋點是針對前端埋點的缺陷而設計的,主要用於解決數據的時效性和需求變更效率等問題。
埋點不是某個人的開發工作,而是需要業務鏈路上下遊的協同來完成,從埋點需求的評審,到埋點方案的制定,再到埋點應用的開發,最後是埋點數據的統計,PD、數據開發、BI、前端、後端、測試同學都會有參與。因此,我們在做一個產品的初期,就需要考慮好埋點的問題,如果等到產品上線之後,再進行開發,早期版本的數據就無法採集到的,而且對業務的侵入性也會更強。
掌握數據標準化能力的人才,將會在未來越來越多的「被動的數位化轉型」中,尋找到自己的一席之地。
埋點具體的設計,歡迎查看木東居士的《七天數據埋點之旅》。
|0x02 非結構化數據在尋求突破
除了我們能看到的結構化數據外,還有80%的非結構化數據。它們的特點是:數據量大、格式多樣、處理方法複雜、高度的不標準化。這些數據包括了各種的辦公文檔、圖片、音頻、視頻、機器日誌等信息。
從數據的角度看,非結構化數據有三個非常顯著的特徵;
首先是缺少統一的管理方式。結構化數據雖然對於數據開發、數據分析等崗位十分友好,但當我們需要深入挖掘數據的內容,比如刻畫一個消費者的行為數據時,往往需要很多非結構化的數據作為輔助。而非結構化數據並沒有統一的管理視角,導致零散的分布在各個地方,這時候非結構化數據就無法成為產生價值的資產。
其次是開發成本高,因為非結構化數據往往需要算法同學的接入,需要針對非結構化數據一些特徵做定製的開發,而沒有形成一套體系化的技術能力,因此上手的難度非常高,能參與的數據開發同學並不多。
最後是非結構化數據的價值並沒有被充分挖掘。非結構化數據更多的是以新的視角,來補充結構化數據的內容,對原有的業務做增量服務。當我們沒有意識到非結構化數據能做什麼的時候,它的價值也就難以被挖掘出來。
通過算法來標準化數據,會對現有的建模理論和開發模式,產生一定的衝擊。作為數據開發的同學,學習部分的算法,也許是未來的一種職業要求。
2016年10月,Gartner發布了分布式文件和對象存儲魔力象限白皮書(《Magic Quadrant for Distributed File Systems & Object Storage》。Gartner在這個白皮書中,表達了一個觀點:文件和對象存儲的融合趨勢,在客戶看來,這是一個面向非結構化數據的存儲市場(The markets for distributed file systems and object storage are merging. That is the reason Gartner is publishing a single Magic Quadrant on the combined segments —- it will eventually be one market. The distinctions between the two segments are slowly blurring, but the buyers are already treating it as one market.)
海量的非結構化數據,意味著海量的存儲,意味著複雜的管理和合規性需求,意味著大數據分析能力的進一步提升。當前無論是AWS、Azure還是阿里雲,對於非結構化處理主要提供工具、算法,並沒有針對數據本身提供解決方案。
因此,非結構化數據的標準化,隨著細分市場爭奪的愈加激烈,也將成為一個熱門的方向。
|0xFF 業務能力的標準化
除了數據本身的一些變化趨勢,對於領域模型的理解,也是對未來數據人才的一個要求。
回想你第一次使用UML設計系統時的場景,往往自信滿滿的學會了工具,可以大展身手的時候,卻對著要做什麼糾結許久,不知道如何把腦中的想法去落地。
其實這就是對自己所從事的領域,抽象概念的理解不夠到位。很多同學往往拿我們做維度建模的數據模型,來理解領域模型,其實是把技術的一些概念帶入了業務之中,會導致自己的理解產生偏差。
領域模型所關注的,並不是擴展性、功能性等技術特徵明顯的特點,而是考慮如何通過模型的顯性化,來清晰的表達業務語義。換句話說,聽得懂、看得明白是第一目標,如何實現是其次要考慮的。
技術同學往往在做一些匯報PPT的時候,腦袋很大,這就是無法對自己做的事情做一個清晰的領域模型,不清楚自己所處的位置,以及能夠為業務帶來的價值。
按照Robert在《整潔架構》裡面的觀點,領域模型是核心,數據模型是技術細節,這兩個模型之所以容易被混淆,是因為兩者都強調實體和關係的概念,很容易在E-R圖的設計上產生混淆。
的確,一個好的數據模型應該是易於擴展的,畢竟改動資料庫或者是修改業務過程,可是一個系統的大工程,都涉及到不少的工作量。但不論怎樣,領域模型是面向領域對象的,要儘量具體,儘量要明確,顯性化的表達業務語義是其首要任務,擴展性是其次。而數據模型是面向數據存儲的,要儘量可擴展。
過去,我們用維度模型把網際網路業務跑了起來,但面對業務複雜性更加多元和個性化的傳統行業,尤其是製造業,能夠把業務講清楚,就已經是一件不容易的事情了。這也就是為什麼近年來「領域模型」被重新提起,而「維度建模」卻不再火熱的原因。因為時代變了,「數位化轉型」到來了,要求我們更多的去改造傳統行業,而不是繼續留在原有業務的一畝三分地中去做深耕。
大多數人都不會在一個崗位上一直做下去,總有換到其他行業去尋找機會的時候,而在數位化工具做的非常完善、各種雲設施將開發的門檻急劇拉低的時候,對業務知識的理解和抽象能力,就是區分數據人能力的最重要評判標準。
回到本文的開頭,巨頭們在尋找一個又一個可以標準化的行業,以此來推動「數位化平臺」的建設,拼多多存在強制轉到買菜業務的情況,但細細想來,如果我們沒有掌握抽象業務的方法論,在「被動轉型」時無法勝任,會不會像過去軟體時代的程式設計師一樣,承擔被「優化」的後果呢?
不論怎樣,學會對結構化數據做標準化,探索學習非標準化數據的開發,掌握對業務能力的抽象方法,都是「數位化轉型」時代裡,數據人應該關注的內容。