數據中臺實戰(二):基於阿里OneData的數據指標管理體系

2021-01-12 人人都是產品經理

本文將通過具體案例來介紹OneData的實施流程,繼而介紹阿里OneData數據體系中數據指標的管理和數據模型的設計,最後再為大家講數據看板的設計。

上一篇文章講了《數據中臺實戰(一):以B2B點電商為例談談產品經理下的數據埋點》,本文我們先以一個例子實戰介紹OneData實施流程。接著再講阿里OneData數據體系中數據指標的管理、數據模型的設計。最後講一下數據產品中,數據看板的設計。全是實戰乾貨,看完本文你就會知道數據中臺最核心的內容。

阿里OneData實施過程實戰

比如當時我們運營提了一個比較有指導意義的數據指標叫爆款率,我們以爆款率為例先說一下OneData每個步驟實施的流程和涉及的角色。

第一步:要確定指標的業務口徑

業務口徑應該由數據中臺的產品經理主導,找到提出該指標的運營負責人溝通。首先要問清楚指標是怎麼定義的,比如運營說爆款率的定義分子是是專場中商品銷售件數超過20件的商品數,分母是專場內的總商品數(專場如上圖所示,商品會放在運營人員組的一個一個專場裡面)。

這裡面有幾個坑:

1. 這個20件可能是運營拍腦袋定義的數據,這時要協調我們的數據數據分析師看下歷史專場銷售件數的分布找出最合理的值,然後和運營基於數據再一起定義最終的閾值。如果歷史數據專場銷售件數大部分都遠遠超過20件那麼這個指標就所有的專場都是爆款專場,就沒什麼意義了。

2. 商品的銷售件數超過20件,其中有一個十分有爭議的字眼那就是銷售,怎麼定義銷售?是下單就算,還是支付才算?考慮不考慮退款?如果考慮退款是發起退款就算還是退款實際發生後再算?其實是有很多問題要考慮的。最終和運營確定為該專場支付後的商品件數除以專場商品的總件數。

3. 銷售的商品件數是按商品銷售的件數還是按照商品下SKU的銷售件數,這個是要搞清楚的,可能運營不關心這個事,但是影響到模型的設計。

處理完這些坑後關於指標的定義還需要問這幾個問題。我們統計的維度是什麼?比如爆款率的計算維度是專場內商品的維度,一個是要專場內,一個是商品,原子指標就是銷售款數。還有就是統計周期,一般統計周期分為按小時、按天(當天)、按業務周(運營自己定義的統計周期)、按自然周周、按自然月月、按年,還有就是截止到昨天也是比較常用。爆款率的統計周期是統計專場開始到結束時間內的銷售件數。

接下來要問清楚這個指標有什麼用,給誰用。

不是所有的指標都有開發的意義,因為後面你會發現我們數據中臺前期每做一個指標都會花費大量的人力資源,所以一定要考慮這個指標的性價比,我們投入這麼多資源,能夠給公司帶來什麼,要麼直接和交易額相關,要麼就是能節省運營同事大量的工作時間,節省人力成本也是為公司省錢嘛。

比如我們的爆款率是給商品負責人看的,專場的商品是由商品運營人員組的,爆款率就決定這個運營人員的組貨能力,組貨能力強的商品運營一定是能夠給公司帶來更多的交易額。這樣公司就應該多投入資源給那些爆款率比較高的那些運營人員。這樣就很清楚了,我們的爆款率是給運營負責人和商品運營看的。

另外我們的商品運營會長時間在市場選貨,那我們團隊決定把這個指標做成移動端可看,並且商品運營人員可以實時查看爆款率這個指標。

第二步:要確定指標的技術口徑

技術口徑是由建模工程師主導,此時數據中臺產品經理要和模型設計師溝通整個指標的業務邏輯,另外就是要協調業務方的技術開發人員和我們的建模工程師一起梳理資料庫層面需要用到表結構和欄位。

一定要精確到欄位級別,比如我們的爆款率涉及到專場表、商品表、訂單表、涉及的欄位有商品的銷售款數(需要關聯專場和商品表)、專場的總商品件數等欄位。

這些欄位都確定好後,就能初步定下來這個指標能不能統計,如果不能統計這時產品經理應該主動協調運營告知,並且還要告訴運營同事做了哪些功能才能統計這些指標,接下來就是協調業務方產品經理討論是不是要做這些功能。

第三步:原型設計和評審

此時由數據中臺產品經理主導設計原型,對於爆款率來說我們要一方面要展示他們的實時銷售件數,另外一方面要實時展示爆款率的變化趨勢,加上專場的轉化率(支付人數/UV)就可以綜合判斷這個專場的質量,當運營人員發現轉化率和爆款率比較低時再結合商品的數據及時把一些表現比較差勁的商品下架,讓銷量好的商品得到更多的曝光機會。

原型的評審分為內部評審和外部評審。

內部評審要拉上我們的架構師、建模工程師、數據開發工程師、後端開發工程師、前端開發工程師、UI,一起說明整個功能的價值和詳細的操作流程,確保大家理解的一致。接下來就要和我們的運營根據原型最終確定問題。比較重要的功能要發郵件讓我們的運營進一步確認,並同步給所有的運營同事保證大家的口徑一致。

第四步:模型設計

此時主導的是我們的模型設計工程師,按照阿里的OneData建模理論的指導,模型設計工程師會採用三層建模的方式把數據更加科學的組織存儲。分為 ODS(操作數據層),DWD(明細數據層)、DWS(匯總數據層)、ADS (應用數據層),這是業務對數據分層常用的模型。模型設計工程師要清楚的知道數據來源自那裡,要怎麼存放。

關於數據建模下一篇文章會更加詳細的介紹,在此就不再多說。

第五步:數據開發

此時主導的是大數據開發工程師,首先要和數據建模工程師溝通好技術口徑明確好我們計算的指標都來自於那些業務系統,他們通過數據同步的工具如DataX、消息中間TimeTunnel將數據同步到模型工程師設計的ODS層,然後就是一層一層的通過SQL計算到DW*層,一層一層的匯總,最後形成可為應用直接服務的數據填充到ADS層。

另外大數據開發工程另外一個比較重要的工作就是設置調度任務,簡單來講就是什麼時候計算提前寫好的計算腳本如T-1每天凌晨處理上一天的數據,隨著業務的增長,運營會對實時數據的需求越來越大,還有一些實時計算任務的配置也是由大數據開發工程師完成。

第六步:後端開發

此時由後端開發主導,後端開發工程師基於產品經理的功能定義輸出相應的接口給前端開發工程師調用,由於ADS層是由數據開發工程師已經將數據注入常規的關係型資料庫(如MYSQL等),此時後端開發工程師更多的是和產品經理溝通產品的功能、性能方面的問題,以便給使用者更好的用戶體驗。

第七步:前端開發

此時主導的是前端開發工程師。原型出來後產品經理會讓UI設計師基於產品功能的重點設計UI,UI設計師經過反覆的設計,UI最終定型後,會給我們的前端開發工程師提供切圖。前端開發工程師基於UI的切圖做前端頁面的開發。

第八步:聯調

此時數據開發工程師、前端開發工程師、後端開發工程師都要參與進來。此時會要求大數據開發工程師基於歷史的數據執行計算任務,數據開發工程師承擔數據準確性的校驗。前後端解決用戶操作的相關BUG保證不出現低級的問題完成自測。

第九步:測試

測試工程師在完成原型評審後就要開始寫測試用例,那些是開發人員自己要自測通過才能交上來測試的,那些是自己要再次驗證的都在測試用例寫清楚。此時有經驗的產品經理會向運營人員要歷史的統計數據來核對數據,不過運營人員的數據不一定準確,只是拿來參考。最終測試沒問題產品經理協調運營人員試用,試用中發現的一些問題再回爐重新修改,此時整個研發過程就結束了。

第十步:上線

運維工程師會配合我們的前後端開發工程師更新最新的版本到伺服器。此時產品經理要找到該指標的負責人長期跟進指標的準確性。重要的指標還要每過一個周期內部再次驗證,從而保證數據的準確性。

經歷了以上步驟數據中臺的一個指標終於開發完成,可以看得出一個小小的指標需要調動8個角色在一起溝通、確認好久才能完成上線。所以產品經理一定要把握好指標的價值,把有限的資源花費到最有價值的指標上去。下面介紹一下完成這些步驟最核心的數據指標的定義與數據模型的建立。

基於阿里OneData的數據指標管理體系數據指標的定義

我們在梳理公司的數據指標時發現每個部門對同一個指標定義的不一致,就好比交易額這個指標在電商產品中就是一個模糊的指標,是下單金額、還是支付金額(無包含優惠)、或者有效金額(剔除退款),這樣沒有一個統一的標準,就很難對部門間做橫向的對比。

甚至部門間對同一個指標的口徑也存在不一樣的情況,更不用說整個指標的開發要涉及運營同事、產品同事、技術同事等,只要一個環節出問題,指標計算就會不準確。我們也是採用阿里的一套針對指標的規範定義,讓大家在一個標準下看數據消除歧義。

其中的名詞定義我們簡單過一下:

數據域:面向業務的大模塊,不會經常變。比如我們公司有環貿快版打版服務、億訂電商業務、供應鏈業務等等大的業務模塊類似產品線。

業務過程:如電商業務中的下單、支付、退款等都屬於業務過程。

時間周期:就是統計範圍,如近30天、自然周、截止到當天等。

修飾類型:比較好理解的如電商中支付方式,終端類型等。

修飾詞:除了維度意外的限定詞,如電商支付中的微信支付、支付寶支付、網銀支付等。終端類型為安卓、IOS等

原子指標:不可再拆分的指標如支付金額、支付件數等指標

維度:常見的維度有地理維度(國家、地區等)、時間維度(年、月、周、日等)

維度屬性:如地理維度中的國家名稱、ID、省份名稱等。

派生指標:原子指標+修飾詞+時間周期就組成了一個派生指標。

阿里就是用這一套嚴格的指標拆分體系來管理每個指標。之所以拆這麼徹底,就是要消除歧義。條件允許的話可以協調開發同事、測試同事、產品同事口述一下對這個指標的理解看看有什麼不同。最大程度的消除指標的歧義。

關於數據指標還有two more thing要談:

1. 怎麼分出指標的重要性。當你不是從0到1跟一個產品,那麼此時你可能沒你們的運營懂產品的各項數據,當你問你們運營問那些指標是比較重要的,因為他們所處的崗位不同,看事情的角度不同,最後你會發現得到一個結果:一大堆的指標,都重要。此時有個技巧,你可以問人事或者他們的部門負責人要一下部門的績效考核指標,也許這些就是他們最重要的指標。另外這些指標你可以和部門的負責人溝通,那些是他比較關注的指標,那就應該從這些指標做起。

2. 關於虛榮指標。產品經理需要識別那些是虛榮指標,那些是更有用的指標。比如常見的PV、UV、月活、總用戶數、總商品數等等都是虛榮指標,因為他無法直接促進交易額的增長。uv、月活再多有什麼用,用戶就是不購買。 比如電商行業的主路徑的專戶率,訪問-商品列表、商品列表-商品詳情、商品詳情-加購、加購-下單轉化率這些都是降低流失就能提高交易額的。還有用戶的次日留存、7日留存率(新用戶7日後是否再次訪問)、30日留存率等能直接反應用戶的質量和運營做的好壞。商品的動銷率(銷售款數/上架款數),能直接反映這批商品的好壞。總結一下一般能直接促進交易額、類似轉換率這種帶分子、分母的指標都是非虛榮指標。

基於阿里OneData的模型設計體系

首先你要知道這些概念。什麼是數據倉庫、數據倉庫和資料庫的區別、數據倉庫的分層、數據模型的定義。

什麼是數據倉庫

我用個比喻解釋這個概念。

馬雲:做個報告,我要知道開年到現在還沒進入工作狀態的有哪些人。

我:好的。

我開始收集:上/下班打卡數據、門口探頭統計上廁所頻率的數據、手機wifi上網數據、微信群活躍數據、發出零食聲音最恐怖的工位數據、有事沒事熬電話粥的數據…一周之後,分析報告上我們部門主管的名字佔據第一,他讓我加了一周的班……

我收集的這些數據我需要把它放在一個地方,我暫且把它放在一個叫「新年好」的文件夾,這些來自不同地方的數據,我需要做維度統一處理、欄位命名規範處理、去噪處理(比喻年齡為100這種數據)等等。這是做一份報告,如果做一個平臺或者一個項目呢?

比如支付寶的年度帳單;網易雲音樂的年度報告;那區區一個新年好就應付不過來了,所以,需要一個儲藏這些數據的資料庫來替代上面的「新年好」,這個用來儲存按照我們需要的、對我們有用的、已經清洗過、很規範的東西就是我們的數據倉庫。

數據倉庫與資料庫的區別

資料庫與數據倉庫都用來儲存數據,在本質上其實作用是相同的,當從業務出發,兩者的區別就很大了。

​數據倉庫是層級分明的

既然要做數據處理,我們數據前後肯定有變化,那麼為了保險,我們需要將各個維度的數據分層儲存,比如一個訂單數據,讓我羅列我可以整出二、三十個欄位,可是最後我們真正用到的只有:uid、time和goods id,這個過程需要不斷的過濾。每過濾一層就需要在新的一層儲存一次。業務是分層的參考標準,不同的業務,分層不一樣,比如阿里的數據分層分為:ODS、DWD、DWS、ADS。

ODS(操作數據層):是數據倉庫第一層數據,直接從原始數據過來的,經過簡單地處理,爆款率涉及到的表結構比如訂單表、專場表、商品表、用戶表等。

DW*(匯總數據層):這個是數據倉庫的第二層數據,DWD和DWS很多情況下是並列存在的,這一層儲存經過處理後的標準數據。增加了維度形成了統計寬表,比如專場的爆款商品有哪些。

ADS(應用數據層):這個是數據倉庫的最後一層數據,為應用層數據,直接可以給業務人員使用。比如某日某個專場爆款率是多少、總的爆款率是什麼。

看到這裡,你也許會問,為什麼要分層?

在這篇文章裡,過多解釋這個原因,沒有意義,這個階段,你就記住,分層是為了更清晰的掌控、管理數據。了解了數據倉庫的基本概念,我們就得實戰啦,如基本的數據模型。

數據模型有很多,如:範式模型、維度模型、Data Vault 等等。感興趣的可以自行查閱資料,今天我們重點講一下維度模型中的「星型模型」。

星型模型的基本概念

星型模型中有兩個重要的概念:事實表和維度表。

事實表:一些主鍵ID的集合,沒有存放任何實際的內容。

上圖是我自己畫的一個星型模型表結構(僅輔助說明),如上圖中的「報告表」就是一張事實表,這個報告表會隨著用戶的購買行為不斷的優化和更新,每個ID對應維度表中一條記錄。

維度表:存放詳細的數據信息,有唯一的主鍵ID。如上面的商品表、用戶表等等。

星型模型適用的業務場景:

電商網站:某寶、狗東等分析用戶的買買買行為。新聞網站:虎嗅*、36kr*、推酷*等分析用戶的閱讀行為。寫作網站:知乎*、簡書等用戶的創作回顧分析。……

星型模型的特點:

數據冗餘小(因為很多具體的信息都存在相應的維度表中了,比如用戶信息就只有一份)結構清晰(表結構一目了然)便於做OLAP分析(數據分析用起來會很開心)增加使用成本,比如查詢時要關聯多張表數據看板的設計

到現在為止指標已經定義好了,也採用三層建模的形式存儲了下來。在這裡就跳過數據開發這塊,太過於偏技術化。指標計算好後最重要的就是指標的展示了,此時有個坑,你會發現每個人關注的數據不太一樣,老闆關注的和部門領導關注的是有差別的、部門領導關注的和一線的執行人員關注的還是有差別的,我們做了很多看板還是無法滿足住全公司每個用戶的數據看板需求。

最後決定採用自定義看板的方案,我們數據中臺提供的是看板庫,所有的指標已經在數據中臺分門別類的定義好,計算好。

如果遇到新的數據指標,現在的看板庫無法滿足,數據中臺會進行新一輪的開發,開發完成後將指標計算的結果放到看板庫中。看數據的同事可以通過查看、搜素自己想要的指標,通過拖拉拽的方式形成自己的個性化看板,並能通過微信、小程序形成自己的每日看板報告。

這樣老闆想看的指標數據中臺自己定製頁面,定製看板的權限交給每個同事,不過要注意權限的設定,有些同事是不能看到特別關鍵的指標。

看數據人員選擇自己想要的指標通過拖拉的方式定製自己的看板,可以選擇顯示方式如折線圖、餅圖、柱狀圖等常規圖表,也可以選擇統計周期等屬性。

在此放一張配置後的數據看板DEMO, 左側的看板都是看數據的同事自行配置的。

定製完看板後可以對接微信、內部的小程序、APP等。進行數據指標的個性化推送。

接來下會講數據中臺產品設計、用戶畫像、個性化推薦模塊。

相關閱讀:

《數據中臺實戰(一):以B2B點電商為例談談產品經理下的數據埋點》

 

作者:Wilton(董超華),曾任職科大訊飛,現任富力環球商品貿易港大數據產品經理。微信公眾號:改變世界的產品經理。簡單、簡短、有用,堅持原創、堅持做感動你的好文章。

本文由@華仔 原創發布於人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash, 基於CC0協議。

相關焦點

  • 《數據中臺實戰》:數據中臺的分層建模體系
    各層數據模型之間的關係如圖1-1所示。圖1-1 分層模體系第一層是ODS和DIM層。ODS層數據是數據倉庫的第一層數據,是業務資料庫的原始數據的複製,例如,每條產品線的用戶信息、訂單信息等數據一般都是原封不動地同步到數據中臺的ODS層中。
  • 基於財務管理中臺及數據分析雲平臺,元年科技推出企業數據智能應用...
    前端:以語音輕鬆交互完成數據獲取從具體設計思路來看,智答助手的前端為與NLP及語音交互接口,而後端則通過內置的智能算法和底層數據中臺管理模型,用類似微服務的方式接通企業數據,幫助用戶快速找到需要的數據。
  • 從0到1建立數據分析指標體系的底層邏輯
    編輯導讀:隨著公司業務規模擴大,各類相關的數據量增加,數據指標也越來越多。如果缺乏數據指標體系和分析方案,就會難以判斷整體業務發展狀況、難以衡量產品/活動效果等等。本文作者就如何從0到1建立數據分析指標體系的底層邏輯展開分析,希望對你有幫助。
  • 基於區塊鏈的鏈上數據安全共享體系研究
    本文針對當前第三方傳統中心化數據共享平臺和機構上存在的數據管理、多方交互數據不可信以及當前區塊鏈共享平臺交易公開等關鍵問題,將醫療數據共享中患者體檢報告中的各項指標數據作為本文的數據分析主體,研究智能合約(smart contract)、基於屬性加密的訪問控制算法、同態加密(homomorphic encryption)算法等,探索基於區塊鏈技術的鏈上數據安全共享體系
  • 百度智能雲時空數據管理平臺亮相 打造一體化數據中臺
    原標題:百度智能雲時空數據管理平臺亮相 打造一體化數據中臺
  • 數據中臺建設四步方法論:採、存、通、用
    業務中臺和數據中臺有什麼關係?其實沒有必然的聯繫,沒有業務中臺也是可以搭建數據中臺的,但是如果已經搭建了業務中臺,搭建數據中臺會事半功倍,因為大部分的業務數據我們都可以從業務中臺直接獲取。 2.什麼公司適合搭建中臺?
  • 馬蜂窩數據中臺起步建設:數倉的架構、模型與應用
    一、馬蜂窩數據倉庫與數據中臺最近幾年,數據中臺概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數據中臺探索之路。數據中臺到底是什麼?要不要建?和數據倉庫有什麼本質的區別?相信很多企業都在關注這些問題。我認為數據中臺的概念非常接近傳統數據倉庫+大數據平臺的結合體。
  • 數據中臺的雲原生機會
    李居真打了一個比方:「雲服務有點像微信,只有微信普及之後,才會產生像微商這樣的商業活動,以及基於微信的數據管理需求。雲原生體系架構就是雲服務時代的數據管理方法論。」從技術角度來說,雲原生的興起是為了解決企業IT系統越來越複雜而帶來的管理難題。
  • 數據中臺,將決定企業數位化轉型的深度與廣度
    因此,為了彌合前端與後端系統的速度差,中臺的概念出現了。簡單說,就是梳理和規範企業業務和管理數據,將數據存儲、數據計算和數據應用的能力統一到「中臺」中,在為前端業務提供決策、快速響應迭代需求、實現精細化運營的同時兼顧後端系統的穩定。廣義的數據中臺包含了數據模型、算法服務、數據產品、數據管理等,和企業的業務有較強的關聯性,是企業獨有的、能復反覆使用的。
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    到 20 世紀 90 年代,數據倉庫的概念誕生。此時的數據倉庫概念更多表達的是如何管理企業中多個資料庫實例的方法論,但受限於單機資料庫的處理能力以及多機資料庫(分庫分表)長期以來的高昂價格,此時的數據倉庫距離普通企業和用戶都還很遙遠。人們甚至還在爭論數據倉庫(統一集中管理)和數據集市(按部門、領域的集中管理)哪個更具可行性。2. 階段二:大數據技術的「探索期」。
  • 劉新海談本人數據管理:個人數據管理和處理的新模式
    2021年1月11日中國人民銀行關於《徵信業務管理辦法(徵求意見稿)》公開徵求意見的通知,由於涉及個人徵信數據的應用和監管,更是一石激起千層浪[3]。隨著移動互聯和線上交易在社會生活中日益深入,消費者面臨著空前的威脅。
  • 數據中臺、數據湖到底是怎麼回事兒?
    基於大數據相關的日誌採集、Kafka、Flink實時分析、Elasticsearch、HBase和Druid等技術和組件,構建了愛奇藝全鏈路監控平臺,通過調用依賴關係分析、服務間調用關係指標、程序異常分析、日誌關聯查詢等功能,有效提高了鏈路故障和風險的定位和解決效率。本次議題將重點介紹愛奇藝全鏈路監控平臺的架構及相關大數據技術的應用實踐經驗。
  • 終於有人把數據中臺講明白了
    而數據倉庫的建設則相對單一,專注於維度模型如何設計,如何拆解指標和維度,卻很少關注基於人、貨、場這些主體進行實體拉通,然後做出全局的畫像數據供前端業務調用。數據湖是一種數據存儲理念,作為一個集中的存儲庫,它可以以自然格式存儲任意規模的數據,包括來自關係資料庫行和列的結構化數據,XML、JSON、日誌等半結構化數據,電子郵件、文檔等非結構化數據,以及圖像、音視頻等的二進位數據,從而實現數據的集中式管理。 目前Hadoop是最常見的實現數據湖概念的技術。
  • 乾貨| 基於 Python 的信用評分模型實戰!|python|離散化|dataframe...
    4.變量選擇 ,該步驟主要是通過統計學的方法,篩選出對違約狀態影響最顯著的指標。主要有單變量特徵選擇方法和基於機器學習模型的方法。  5.模型開發 ,該步驟主要包括變量分段、變量的WOE(證據權重)變換和邏輯回歸估算三部分。
  • 眾安保險智能中心孫谷飛:如何搭建一個「體系化」的數據中臺?
    在數據管理層面,數據中臺可以對每張數據表進行自動掃描,並和過去積累的近3000多種規則進行比較,自動預警出哪一張表或哪一事業部的數據質量問題,自動發郵件提醒業務部門改正。我來自於眾安保險,目前主要從事眾安保險AI、大數據的研究和落地。數據價值體系的現實困境數據中臺這兩年非常火,我今天跟大家分享下我們對這個概念的理解,以及數據中臺在眾安的實際落地經驗,在眾安我們是如何保障數據管理、加速數據流通,促進數據價值挖掘。
  • 數據中臺的雲原生機會 | 甲子光年
    李居真打了一個比方:「雲服務有點像微信,只有微信普及之後,才會產生像微商這樣的商業活動,以及基於微信的數據管理需求。雲原生體系架構就是雲服務時代的數據管理方法論。」 從技術角度來說,雲原生的興起是為了解決企業IT系統越來越複雜而帶來的管理難題。
  • EA、Twitter、Airbnb、Uber,都怎麼建數據中臺?
    在建設過程中,我們也有一些原則,這些基本是矽谷的科技公司建設數據中臺都在採用的: 一是擁抱開源,不重複造輪子,比如大數據平臺基本都基於 Hadoop 生態; 二是基於公有雲的混合架構,遊戲伺服器部署在私有雲,但數據中臺部署在
  • 民生銀行大數據體系架構設計與演進
    :   銀行有很多面向客戶的數據,數據積累非常快也非常多,以流水數據為例,為了保證系統服務質量,通常是縮短可查詢的周期,依託大數據的海量數據存儲能力,基於分布式體系構建了歷史數據管理平臺來滿足業務場景中海量數據的存儲和查詢服務需求。
  • 研究論文|基於簡歷數據的科技人力資源與產業結構的指標刻畫研究
    Alabdulkareem等[10]同樣利用人力資源數據構建「職業-技能」網絡,從而觀察到技能網絡空間內基於認知能力高低的聚類現象。基於上述文獻的啟發,本文試圖基於計算社會經濟學的理論刻畫出能從不同視角描述我國各省級行政區域(不包含港澳臺)的產業結構和科技人力資源的指標。
  • 簡化基因組數據分析實戰(一)
    所以放假回家之後,我先處理了一篇回家當天公司才給我的回交混池數據,然後開始學習如何分析簡化基因組。大概會在這7天時間內全部更新出來。這裡感謝我那臺在實驗室不眠不休的電腦,不然,我的8G內存的電腦根本帶不動。儘管目前已經有大量物種基因組釋放出來,但還是存在許多物種是沒有參考基因組。