在前幾篇文章中,企通查為大家介紹了大數據處理的基本流程。從大數據的一系列處理過程中(抽取、集成、分析、解釋),我們可以發現這一整套流程中涵蓋了數據存儲、處理、應用等多方面的技術。
大數據價值的完美體現需要多種技術的協同。根據涉及領域的不同,大數據的關鍵技術可以分為大數據採集、大數據預處理、大數據存儲及管理、大數據處理、大數據分析及挖掘、大數據展示等幾大方面。
本文將對大數據採集進行介紹。
——
大數據採集處於大數據生命周期中第一個環節,是大數據分析至關重要的一個環節,也是大數據分析的入口。
圖:來源於網絡
在網際網路行業技術快速發展的今天,數據採集廣泛應用於網際網路及分布式領域(常見的攝像頭、麥克風等都可以成為數據採集的工具),此外還集合了信號、傳感器、激勵器、信號調流、數據採集設備和軟體應用等。
大數據採集技術通過RFID射頻數據、傳感器數據、社交網絡數據、移動網際網路數據等方式獲得各種類型的結構化、半結構化、非結構化的海量數據。
因此,大數據採集技術也面臨著諸多挑戰:一方面數據源的種類多,數據的類型繁雜,數據量大,並且產生的速度快;另一方面需要保證數據採集的可靠性和高效性,同時還要避免重複數據。
——
傳統的數據採集來源單一,且存儲、管理和分析數據量也相對較小,大多採用關係型資料庫和並行數據倉庫即可處理。
在大數據體系中,傳統數據分為業務數據和行業數據,傳統數據體系中沒有考慮過的新數據源包括內容數據、線上行為數據和線下行為數據 3 大類。
大數據體系中,數據源與數據類型的關係如下圖所示:
圖:數據源與數據類型的關係,來源於網絡
和傳統的數據採集技術相比,大數據採集技術有2個特點:
1.大數據採集通常採用分布式架構
大數據採集的數據流量大,數據集記錄條數多,傳統的單機採集方式,在性能和存儲空間上都無法滿足需求。
2.多種採集技術混合使用
大數據不像普通數據採集那樣單一,往往是多種數據源同時採集,而不同的數據源對應的採集技術通常不一樣,很難有一種平臺或技術能夠統一所有的數據源,因此大數據採集時,往往是多種技術混合使用,要求更高。
大數據的採集從數據源上可以分為四類:
Web數據(包括網頁、視頻、音頻、動畫、圖片等)
日誌數據
資料庫數據
其它數據(感知設備數據等)
針對不同的數據源,所採用的數據採集的方法和技術也不相同。
圖:大數據採集技術分類,來源於網絡
1.web數據採集
網絡數據採集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。
網絡爬蟲會從一個或若干初始網頁的 URL 開始,獲得各個網頁上的內容,並且在抓取網頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足設置的停止條件為止。
這樣可將非結構化數據、半結構化數據從網頁中提取出來,並以結構化的方式存儲在本地的存儲系統中。
2. 系統日誌採集
系統日誌採集主要是收集公司業務平臺日常產生的大量日誌數據,供離線和在線的大數據分析系統使用。
高可用性、高可靠性、可擴展性是日誌收集系統所具有的基本特徵。系統日誌採集工具均採用分布式架構,能夠滿足每秒數百 MB 的日誌數據採集和傳輸需求。
3. 資料庫採集
傳統企業會使用傳統的關係型資料庫 MySQL 和 Oracle 等來存儲數據。
隨著大數據時代的到來,Redis、MongoDB 和 HBase 等 NoSQL 資料庫也常用於數據的採集。企業通過在採集端部署大量資料庫,並在這些資料庫之間進行負載均衡和分片,來完成大數據採集工作。
4. 其他數據(感知設備等數據採集)
感知設備數據採集是指通過傳感器、攝像頭和其他智能終端自動採集信號、圖片或錄像來獲取數據。
大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。
圖:企通查-動態大數據資源中心數據維度
數據的採集是挖掘數據「石油」的第一步,當數據量越來越大時,可發掘的有價值的信息也就更多,反應信息也就越加全面。只有更加充分地利用數據化處理平臺,才可以保證分析結果的有效性和準確性,以便更加有效地助力企業實現驅動的數據化。