大數據關鍵技術淺談之大數據採集

2020-12-05 騰訊網

在前幾篇文章中,企通查為大家介紹了大數據處理的基本流程。從大數據的一系列處理過程中(抽取、集成、分析、解釋),我們可以發現這一整套流程中涵蓋了數據存儲、處理、應用等多方面的技術。

大數據價值的完美體現需要多種技術的協同。根據涉及領域的不同,大數據的關鍵技術可以分為大數據採集、大數據預處理、大數據存儲及管理、大數據處理、大數據分析及挖掘、大數據展示等幾大方面。

本文將對大數據採集進行介紹。

——

大數據採集處於大數據生命周期中第一個環節,是大數據分析至關重要的一個環節,也是大數據分析的入口。

圖:來源於網絡

在網際網路行業技術快速發展的今天,數據採集廣泛應用於網際網路及分布式領域(常見的攝像頭、麥克風等都可以成為數據採集的工具),此外還集合了信號、傳感器、激勵器、信號調流、數據採集設備和軟體應用等。

大數據採集技術通過RFID射頻數據、傳感器數據、社交網絡數據、移動網際網路數據等方式獲得各種類型的結構化、半結構化、非結構化的海量數據。

因此,大數據採集技術也面臨著諸多挑戰:一方面數據源的種類多,數據的類型繁雜,數據量大,並且產生的速度快;另一方面需要保證數據採集的可靠性和高效性,同時還要避免重複數據。

——

傳統的數據採集來源單一,且存儲、管理和分析數據量也相對較小,大多採用關係型資料庫和並行數據倉庫即可處理。

在大數據體系中,傳統數據分為業務數據和行業數據,傳統數據體系中沒有考慮過的新數據源包括內容數據、線上行為數據和線下行為數據 3 大類。

大數據體系中,數據源與數據類型的關係如下圖所示:

圖:數據源與數據類型的關係,來源於網絡

和傳統的數據採集技術相比,大數據採集技術有2個特點:

1.大數據採集通常採用分布式架構

大數據採集的數據流量大,數據集記錄條數多,傳統的單機採集方式,在性能和存儲空間上都無法滿足需求。

2.多種採集技術混合使用

大數據不像普通數據採集那樣單一,往往是多種數據源同時採集,而不同的數據源對應的採集技術通常不一樣,很難有一種平臺或技術能夠統一所有的數據源,因此大數據採集時,往往是多種技術混合使用,要求更高。

大數據的採集從數據源上可以分為四類:

Web數據(包括網頁、視頻、音頻、動畫、圖片等)

日誌數據

資料庫數據

其它數據(感知設備數據等)

針對不同的數據源,所採用的數據採集的方法和技術也不相同。

圖:大數據採集技術分類,來源於網絡

1.web數據採集

網絡數據採集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。

網絡爬蟲會從一個或若干初始網頁的 URL 開始,獲得各個網頁上的內容,並且在抓取網頁的過程中,不斷從當前頁面上抽取新的 URL 放入隊列,直到滿足設置的停止條件為止。

這樣可將非結構化數據、半結構化數據從網頁中提取出來,並以結構化的方式存儲在本地的存儲系統中。

2. 系統日誌採集

系統日誌採集主要是收集公司業務平臺日常產生的大量日誌數據,供離線和在線的大數據分析系統使用。

高可用性、高可靠性、可擴展性是日誌收集系統所具有的基本特徵。系統日誌採集工具均採用分布式架構,能夠滿足每秒數百 MB 的日誌數據採集和傳輸需求。

3. 資料庫採集

傳統企業會使用傳統的關係型資料庫 MySQL 和 Oracle 等來存儲數據。

隨著大數據時代的到來,Redis、MongoDB 和 HBase 等 NoSQL 資料庫也常用於數據的採集。企業通過在採集端部署大量資料庫,並在這些資料庫之間進行負載均衡和分片,來完成大數據採集工作。

4. 其他數據(感知設備等數據採集)

感知設備數據採集是指通過傳感器、攝像頭和其他智能終端自動採集信號、圖片或錄像來獲取數據。

大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。

圖:企通查-動態大數據資源中心數據維度

數據的採集是挖掘數據「石油」的第一步,當數據量越來越大時,可發掘的有價值的信息也就更多,反應信息也就越加全面。只有更加充分地利用數據化處理平臺,才可以保證分析結果的有效性和準確性,以便更加有效地助力企業實現驅動的數據化。

相關焦點

  • 大數據關鍵技術淺談之大數據存儲及管理
    大數據存儲與管理的技術對整個大數據系統都至關重要,數據存儲與管理的好壞直接影響了整個大數據系統的性能表現。根據數據存儲和管理的內容範圍,我們可以大致理解大數據存儲及管理技術需要重點研究如何解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。
  • 《大數據之路》數據技術之日誌採集
    ,也是目前所有網際網路產品的兩大基本指標:頁面瀏覽量(Page View,PV)和訪客數(UniqueVisitors,UV)的統計基礎。除了採集代碼在某些場合下需要手動植入之外,整個過程基本都是依照HTML規範和HTTP協議自動進行的,這種依賴協議和規範自動運行的採集機制最大限度減少了人工幹預的擾動,進而保證了日誌的準確性。阿里巴巴的頁面瀏覽日誌採集框架,不僅指定了上述的採集技術方案,同時也規定了pv日誌的採集標準規範,其中規定了pv日誌應採集和可採集的數據項,並對數據格式做了規定。
  • 基於Flume、Kafka技術實現新能源大數據中心數據採集
    大數據中心建設首先要解決的問題是大量數據的採集,數據採集的過程是從場站側數據源到大數據中心的存儲,在這個採集過程中,要保證數據採集的可靠性、安全性、可擴展性等等。本文提出基於Flue、Kafka技術實現新能源大數據中心數據採集,系統架構圖如下所示:
  • 大數據學習之核心技術
    大數據技術的體系龐大且複雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術範疇和不同的技術層面。通用化的大數據處理框架,主要分為下面幾個方面:大數據採集與預處理、大數據存儲、大數據清洗、大數據查詢分析和大數據可視化。一、大數據採集大數據採集,即對各種來源的結構化和非結構化海量數據,所進行的採集。
  • 大數據技術的方法與工具1-採集篇
    原創 城室科技 城室科技大數據採集技術就是對數據進行ETL操作,通過對數據進行提取、轉換、加載,最終挖掘數據的潛在價值,然後提供給用戶解決方案或者決策參考。在現實生活中,數據產生的種類很多,並且不同種類的數據產生的方式不同,所以大數據採集的方法和所用的工具分為以下幾種:一採集方法通過系統日誌採集大數據:用於系統日誌採集的工具常見的有Hadoop Chukwa、Cloudera Flume、Facebook Scribe和LinkedIn Kafka
  • 好程式設計師淺談大數據與Hadoop有什麼關係
    好程式設計師淺談大數據與Hadoop有什麼關係,隨著信息化技術的日漸普及、寬帶網絡的快速興起,以及雲計算、移動互聯和物聯網等新一代信息技術的廣泛應用,全球數據的增長速度進一步加快。與此同時,一批數據收集、存儲、處理技術和應用快速發展並逐漸匯聚,那麼下面由好程式設計師大數據培訓老師給大家介紹一下吧。
  • 大數據時代必修課:讓傳感器採集的數據成為資產
    尤其是對於一些工業企業來說,從物聯網傳感器收集的數據用於預測分析、工業生產,這不僅是大數據時代下的必修課,也是推動企業經濟實現快速發展、包容性增長、可持續增長的強大驅動力量。而法米特的企業願景便是讓傳感器採集的數據成為資產。
  • 大數據爬蟲採集的應用流程
    數位化時代,大數據信息的採集和應用逐漸普及,這離不開網絡爬蟲的廣泛應用。隨著數據信息市場越來越大,必須有大規模的網絡爬蟲來應對大規模數據信息採集。在這個過程中需要注意哪些問題呢?和天啟IP一起來看看吧!
  • 大數據關鍵技術二
    大數據的計算模式包含批處理計算、流計算、圖計算、查詢分析計算等各種模式,每種模式都有其專門的應用領域並且也包含其各自的局限性。所以了解不同場景所使用的不同技術相當重要。1>批處理計算針對大規模數據的批量處理,如MapReduce、Spark(利用內存可以提高計算速度,可稱為準實時性)。
  • 淺談農業大數據與WebGIS的應用
    01淺談農業大數據大數據發展到今天,已經不單純是一種技術的演進,其具有獨特的核心理念。最主要的是,大數據分析不依靠傳統的隨機抽樣和較為單 一挖掘分析模型,改為使用多粒度、多層次、多渠道的分析模型對龐大的數據總體進行挖掘分析。
  • 大數據開發涉及到的關鍵技術有哪些?
    大數據本身是一種現象而不是一種技術。大數據技術是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的數據處理技術。 大數據價值的完整體現需要多種技術的協同。
  • 從數據到大數據,數據技術&工具的演變
    編輯導語:大數據近些年來是一個十分火熱的話題,關於大數據的文章也是數不勝數。本文作者通過梳理自己看過的大數據相關的資料和書籍,為我們介紹了從「小數據」演化為「大數據」的過程是怎樣的?並且分享了一些數據技術以及工具。
  • 從數據到大數據,數據技術&工具的演變
    數據倉庫與大數據倉庫的區別:大數據=海量數據+處理技術+平臺工具+場景應用,數據倉庫是一個數據開發過程,其區別主要體現在商業價值,處理對象,生產工具,三個方面。——商業價值:都是業務驅動的,有明確的業務場景需求,通過海量數據分析為業務提供決策依據,「傳統數倉」出現更早,場景單一保守(報表,BI);而大數據技術更成熟成本更低,應用場景更多(用戶畫像,推薦,風控,搜索……) ——處理對象:都是對數據進行獲取,加工,管理,治理,應用處理,但大數據處理數據類型更多樣化,
  • 何為大數據技術?大數據技術發展歷程
    大數據發展到今天,通常來說有兩層含義,海量的數據集合以及對海量數據集合進行處理的大數據技術。海量的數據集合,這個非常好理解,就是不斷累積起來的數據資源,而大數據技術又是指什麼呢?何為大數據技術,今天我們來對大數據技術發展歷程做個簡單的介紹。從定義來說,大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。
  • 大數據的運用是柔性製造的關鍵
    因為運用大數據技術和思維,把消費者與生產者一體化,就成為關鍵。     在大數據方面的應用,企業通過對大量數據的採集和分析,可以更快地找準市場,同時通過開放生產環節,讓消費者介入生產過程。  例如,國內一家製鞋廠商利用3D腳型測量儀搜集數據,根據不同地域的腳型生產不同楦型的鞋子,以達到更加匹配當地人口腳型需求的目標。用戶只需留下3D腳型數據,可以自己選擇想要的面料、大底、顏色、鞋帶、特殊標識等。系統接受到個性化訂單之後,即將需求傳輸到工廠,並上傳至雲端作為消費者偏好依據,從而方便工廠設計更時尚受歡迎的款式。
  • 淺談工業生產現場數據採集
    工業生產現場數據採集原則目的性。在做設備的數據採集之前,先要明確所要採集的數據是否具有可觀的價值。工業現場其實已經有很多的數據採集系統了,SCADA、HMI什麼的也都是應用很廣泛了,但是,其中又有多少數據被充分的分析,挖掘其潛在的價值的呢?
  • 基於Flume、Kafka和Storm實現企業大數據平臺的實時數據採集
    而數據採集作為企業大數據平臺建設的首要環節,是企業大數據平臺建設的根本所在,如果數據採集環節技術體系架構可靠性不高、穩定性不強且不易擴展,企業大數據平臺建設就失去了意義。尤其是面對數據量大、來源分散、格式多樣化的實時數據採集,如何搭建穩定、可靠且易擴展的技術體系架構,以實現快速、高效收集數據源產生的實時數據,滿足在業務應用上能夠及時響應、在數據分析和處理上能夠及時完成,是企業大數據平臺建設重中之重。那麼,企業大數據平臺的實時數據採集架構實現過程中,應該選型哪一種技術更合適呢?仁者見仁、智者見智,並不是一種解決方案適合所有的應用場景。
  • 網絡安全分析之中,大數據技術的應用!
    1、大數據技術在安全分析中的應用背景1.1、大數據技術的內涵分析大數據技術實際上就是以網絡環境為基礎,對現代信息化社會背景下產生的需要處理的大批量的數據和信息通過集成搜集和傳輸的大批量的數據形式的信息進行集合和統一分析,且在此技術的功能要點上來講,其既能實現數據分析的大批量需求,更能同時保障數據分析和整理的準確性。
  • 詳述工業大數據的技術與應用
    工業大數據技術是使工業大數據中蘊含的價值得以挖掘和展現的一系列技術與方法,包括數據規劃、採集、預處理、存儲、分析挖掘、可視化和智能控制等。工業大數據應用則是對特定的工業大數據集,集成應用工業大數據系列技術與方法,獲得有價值信息的過程。
  • 大數據識別電信罪案中的統計學原理
    本文將淺談統計學原理在數據信息提取、數據處理和現實應用場景中的研究意義。通常而言,談及統計學,人們認為就是將數據通過簡單的樣本計算和傳統的數學模型將其中有用的信息提取出來。然而,放到現代的觀念來說,這些認知偏頗狹隘了。當今,大量的動態數組,千兆、億兆的數據,在商業、製造業、環境科學、航天航空數據網絡等各個領域屢見不鮮。