大數據BI系統實操總結:如何做數據採集?

2020-12-06 人人都是產品經理

本文圍繞數據採集為討論主題,從三個方面——業務流程梳理、原型注意點、項目上線後復盤總結進行了分享。

隨著數據量的不斷增速,數據價值也逐漸被很多公司所關注,尤其是偏重於業務型的企業,大量數據的產生,在未被挖掘整合的過程中通常被看作是一堆無效且佔用資源的;但一旦被發掘,數據的價值將無可估量。尤其像電商,銀行,服務行業等等。近段時間有幸參與負責了一個大數據項目,今天主要對採集系統做一次簡單的復盤:

數據採集系統故名思意就是將數據從數據源採集到能夠支撐大數據架構環境中,從而實現數據的採集以便後期對數據的二次加工建立數據倉庫。

一、業務流程梳理

在業務流程梳理的過程中,我們先預設個場景,如:

當公司運營人員提出一個訂單轉化率的需求,作為產品人員,首先要確定分析訂單轉化率與哪些因素有關,最終確定從用戶下單,支付這兩個環節中分析,如當月有多少用戶提交了訂單,之後有多少用戶確認了訂單,有多少用戶最終支付訂單等;最終呈現了漏鬥形的分析主題;因此分析時就需要確定所需要的這些數據要從哪些表獲取,都需要獲取哪些數據,獲取到後要採集存儲到哪個數據倉庫的表中,最終被使用到。

因此從上面的例子中我們可以從以下幾點思考業務流程:

確定主題,確定主題模型;確定表和數據口徑;確定需要與目標的映射關係;確定表與口徑需要從哪些源下獲取,以及如何數據更新的頻率等;從以上幾點我們可以看出,第一點主題模型我們今天不做過多的介紹,著重從2~4點分析可以將採集系統劃分為數據源配置、表結構的管理、源表管理、映射配置和採集任務管理幾大模塊。

數據源管理包括新增,編輯,刪除等;表結構管理包括表結構的批量導入,查看等;因為採集過程中表是要參與映射的,結構一旦導入是不允許修改的,以免影響後面的採集配置文件的輸出。映射配置主要是配置表與表,欄位與欄位的映射關係,過濾條件與增量的設置。作為採集的配置模板使用;為什麼不是在之前就與數據源關聯的目的是因為解耦表與數據源的關係,方便於後期的擴展和用戶易用性。採集任務管理主要是建立源與源之間採集過程以及任務的執行情況。

二、原型注意點

1. 數據源管理

數據源一般會分為很多種類型,因此,我們需要建立數據源類型;如ORECAL、mysql、hive等。

添加數據源時,對於所填寫內容的校驗一般會根據需要來決定,需要填寫的欄位大致包括源名稱,伺服器,埠,用戶名,密碼等。

2. 表管理

表結構的獲取一般會有兩種方式,一種是通過連接資料庫獲取,一種是本地保存,直接從本地獲取。具體使用哪種方式根據實際情況來決定。如果是用的第二種,則需要將表結構整理預先導入系統,以便後期使用。

hive的表結構有一些特殊,比一般資料庫的表結構多幾列,如:分列名稱,分區值等。

3. 映射配置

映射配置主要是確定源表和目標表,同時建立欄位映射關係;亦可設置過濾條件,數據採集的周期配置設置等。

4. 任務管理

主要是建立源與表,源與源的關係;同時可以對任務的執行周期來進行設置;任務配置的過程中,可以是以目標源為維度,亦可以以目標表為維度建立任務,同時可對歷史任務進行監測。

三、項目上線後復盤總結

1. 需求方面

採集系統在理解前期,產品和研發考慮的點有所不同,導致原型、規則在評審後的開發初期有一些小的改動,不過整體需求上還算可以接受。

2. 交互方面

由於是B端的後臺系統,一般會選用一套共用的的系統框架,因此在出具需求的過程中,只著重說明了需要注意的交互方式,一些共用的交互方式並未做過多的說明;因此在交互這多了很多的溝通成本。

3. 項目執行

整體進度還好,不過由於一些組件的提前打包定義,導致在開發過程中有些不能滿足需求,耽擱了一些進度。

4. 個人方面

對數據倉庫的了解和認識上有所提升,對SQL的學習也算是一次鞏固,同時在做的過程中對自己以前遇到過的數據需求也有了一些新的思考思路和總結復盤。總之是收穫滿滿。

#專欄作家#

本文原創發布於人人都是產品經理。未經許可,禁止轉載。

題圖來自 Pexels,基於 CC0 協議

相關焦點

  • 大數據下的技術運營:數據採集系統設計與實現 - 大數據_CIO時代網...
    監控系統是整個IT架構中的重中之重,小到故障排查、問題定位,大到業務預測、運營管理,都離不開監控系統,可以說一個穩定、健康的IT架構中必然會有一個可信賴的監控系統,而一個監控系統的基石則是一個穩定而健壯的數據採集系統。
  • 如何做一個校園大數據轉移整理系統方案
    這導致了各系統間存在著或大或小的差異,各個業務系統的很難深度「集成與共享」。隨著現代高校教育行業的發展,信息化校園建設的需求已經發生了改變,逐步轉化向學校全局範圍內開展綜合應用的需求,對數據的共享利用逐步加大,對數據質量也提出了更高要求,建設整個學校範圍的主數據管理平臺的需求已經迫在眉睫,學校希望有效解決各應用系統之間的主數據共享與交換,並積累高質量數據,希望有良好的工具和手段來運行管控整個過程。
  • 關於BI商業智能的「8大問」|一文讀懂大數據BI
    這裡不再闡述商業智能的概念了,關於BI,就從過往的了解,搜索以及知乎的一些問答,大家困惑的點主要集中於大數據與BI的關係,BI的一些技術問題,以及BI行業和個人職業前景的發展。這裡歸納成8個問題點,每個問題都做了精心的解答,希望能給大家帶來幫助。問題1:商業智能BI和大數據是什麼關係,如何選擇?
  • 乾貨丨一篇文章讓你了解大數據採集技術
    因此在大數據時代背景下,如何從大數據中採集出有用的信息已經是大數據發展的關鍵因素之一,那麼什麼是大數據採集技術呢?本期就為大家介紹大數據採集技術,讓大家輕鬆了解大數據採集。  ▌什麼是數據採集?  ?數據採集(DAQ),又稱數據獲取,是指從傳感器和其它待測設備等模擬和數字被測單元中自動採集信息的過程。
  • 深入業務,打造行業背景下的BI系統
    如何打造行業背景下的BI系統?筆者認為需要做好這兩步:通過需求分析深入業務,明確係統解決的問題;以及,結合業務,整理源數據,制定指標和算法,設計展現形式,完成數據分析設計。在搭建BI(商業智能)系統時,通常有兩種選擇:一是選用市面上的BI產品;另一種則是自建BI系統。直接購買BI產品相比自建BI系統的優點是:能快速使用、更加成熟、節約成本。
  • 怎麼做數據採集,才會高效便捷不返工
    作為一個苦逼的數據人,在公司裡不僅要承擔報表分析的工作,天天取數做報告,然而最後的報告卻總是因為數據質量問題被領導批評。「九層之臺,起於累土。」在形成一套可被洞察的數據之前,數據採集是最基礎也是最關鍵的步驟。只有數據採得準,這個洞察結果才能在你做商業決策時提供幫助。否則將適得其反,再漂亮的數據分析也帶不來實際的效果。
  • 電動助力轉向系統(EPS)數據採集的實現 (1)
    1 前言  電動助力轉向系統已成為現代汽車發展的必然趨勢。只有精確實時的採集到車輛轉角數據,助力轉向系統才能根據這些數據採用各種先進的算法來控制助力電機的轉動。所以說,車輛轉角數據的採集是電動助力轉向系統的重要組成部分。此文章詳細的講述了電動助力轉向系統數據採集的硬體和軟體。
  • 高性能測試測量數據採集分析系統
    在測試測量過程中及時進行數據採集或波形輸出。在持續在線動態監測情況下,需要同步保存數據。對於採集前端的非標信號處理,GE智能平臺提供的DSC-2200可用於前端應變信號的處理,主要提供全橋、半橋、1/4橋接入方式的信號調理。對接入的橋路信號實現將應變信號進行放大、濾波、調偏、調零等功能。
  • 智能電錶製造數據採集系統的原理及設計
    今天為大家介紹一項國家發明授權專利——智能電錶製造數據採集系統。 內容說明 本發明涉及電錶生產管理領域技術,尤其是指一種智能電錶製造數據採集系統。 發明內容 本發明針對現有技術存在的缺失,提供一種智能電錶製造數據採集系統,用於物料追溯,電錶質量數據查詢,客戶服務,並為電錶設計持續改進提供資料庫。
  • 基於CPLD和ISA總線的數據採集系統設計
    計算機通過ISA總線實現與數據採集系統的指令和數據傳輸。通過VHDL編程實現CPLD對12位串行模數轉換器ADS7816的控制。最後,給出該系統設計的仿真波形和測試結果。關鍵詞:CPLD;數據採集;ISA總線;VHDL本文引用地址:http://www.eepw.com.cn/article/191750.htm 數據採集是工業測量和控制系統中的重要部分。它是測控現場的模擬信號源與上位機之間的接口,其任務是採集現場連續變化的被測信號。
  • 基於組合導航的汽車姿態數據採集系統設計
    編者按:本文設計了一個基於組合導航的汽車姿態數據採集系統,該系統利用集加速度計和陀螺儀於一體的高精度高靈敏度的慣性測量晶片MPU6050,結合地磁傳感器形成的九軸傳感器,對汽車的線性加速度、角速度參數數據進行直接採集,以互補濾波實現九軸傳感器的誤差補償,用四元數法對其姿態解算
  • 一種應用於虛擬示波器的雙通道數據採集系統設計
    利用虛擬儀器技術只需配備必要的數據採集硬體,不僅可以實現傳統示波器的各項功能,而且還具有存儲、回放等特點。 鑑於虛擬示波器的各種優點和廣泛用途,研製出性能優越的虛擬示波器具有重要的實際應用價值。數據採集系統是整個虛擬示波器的重要組成部分,其性能的優劣直接關係到整個系統的品質,所以需要專門為其設計高速、高精度的數據採集系統。本文引用地址:http://www.eepw.com.cn/article/195558.htm1 系統總體設計方案 本數據採集系統的總體結構如圖1所示。
  • 三相電信號數據採集系統的設計方案
    因此,根據應用的需要,開發具有高便攜性和實用性的三相電信號數據採集系統,完成對液壓設備運行中三相電信號實時準確的採集、存儲等功能,對實現基於電機驅動的液壓設備狀態監測以及故障診斷等工作都是十分重要和有意義的。
  • 基於USB總線和89C51單片機的數據採集系統設計
    USB的遠程數據採集系統。我們利用89C51單片機設計了基於USB總線的數據採集設備,並可與MAX485結合起來實現數據的遠程採集。系統硬體設計USB數據採集系統硬體模塊主要由串行A/D轉換器、89C51晶片、USB接口晶片和多路模擬開關等組成。硬體總體結構框圖如圖1所示。USB接口晶片採用National Semiconductor公司的一種專用晶片USBN9602。
  • 大數據到底應該如何學?大數據生態圈技術組件解析
    簡單來說,我們需要學習的就是一系列的大數據生態圈技術組件,以及貫穿整個數據分析流程的分析方法和思維,並且思路更加重要一些!只有明確了數據分析場景與流程,我們才能夠確定需要整合哪些大數據組件來解決這一問題。下面我們將一起推開這一領域的大門~2. 數據是如何採集的大數據分析的第一步就是對數據的收集和管理,我們需要先來了解一下數據是如何產生的?
  • 企業如何給雲計算做BI
    龐大而無序的雲如何管理?企業又如何能從雲中獲取價值的?所謂「雲」,就是打造「雲計算」數據處理基地,是數據集合的共享平臺,即數據儲存、處理,以及信息的傳遞和資料庫維護的空間。一般有廣義和狹義之分,廣義的雲是基於整個社會的數據和信息,對其進行維護和管理的虛擬計算資源。而狹義的雲是基於某個具體行業或領域,按一定規律和標準的對大量數據進行維護和管理的虛擬計算資源。
  • 用於大型地震勘探網的高精度低功耗自檢測數據採集系統(05-100)
    每個節點都有一個傳感器、一套具備自檢測功能的完整數據採集系統,以及一套將數據返回中央記錄單元的遙感裝置。這種應用的要求非常苛刻,需要高度線性的帶寬動態範圍在0.1 - 200Hz的數據採集系統。由於整個勘探網需要大量的節點,因此每個勘探節點的功耗必須很低,而且還要保證所有勘探節點能夠保持同步運作。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 如何解決數據採集兼容性問題
    如何解決數據採集兼容性問題 21IC 發表於 2021-01-09 09:58:07   現代數據採集和信號發生系統既複雜又精細。
  • 數據採集難度大,城市級實景三維遭遇卡脖子問題
    據統計,目前雖然有超過600個地區已經開展了不同程度的實景三維建設,但其中針對於城市城區進行大範圍實景三維建模的並不多。泰伯網認為,造成這種情況的原因,一是由於城市級三維的數據規範和相關標準尚未明確,仍處在試點階段。其次是城市級三維的實施難度較大,相關企業正在探索最優的技術路徑和產品方案。