乾貨丨一篇文章讓你了解大數據採集技術

2021-01-10 RFID世界網

  大數據開啟了一個大規模生產、分享和應用數據的時代,它給技術和商業帶來了巨大的變化。麥肯錫研究表明,在醫療、零售和製造業領域,大數據每年可以提高勞動生產率0.5-1個百分點。大數據在核心領域的滲透速度有目共睹,然而調查顯示,未被使用的信息比例高達99.4%,很大程度都是由於高價值的信息無法獲取採集。因此在大數據時代背景下,如何從大數據中採集出有用的信息已經是大數據發展的關鍵因素之一,那麼什麼是大數據採集技術呢?本期就為大家介紹大數據採集技術,讓大家輕鬆了解大數據採集。

  ▌什麼是數據採集?

  ?數據採集(DAQ),又稱數據獲取,是指從傳感器和其它待測設備等模擬和數字被測單元中自動採集信息的過程。數據分類新一代數據體系中,將傳統數據體系中沒有考慮過的新數據源進行歸納與分類,可將其分為線上行為數據與內容數據兩大類。

  ?線上行為數據:頁面數據、交互數據、表單數據、會話數據等。

  ?內容數據:應用日誌、電子文檔、機器數據、語音數據、社交媒體數據等。

  ?大數據的主要來源:1)商業數據 2)網際網路數據 3)傳感器數據

  ▌數據採集與大數據採集區別


  ▌傳統數據採集的不足

  傳統的數據採集來源單一,且存儲、管理和分析數據量也相對較小,大多採用關係型資料庫和並行數據倉庫即可處理。對依靠並行計算提升數據處理速度方面而言,傳統的並行資料庫技術追求高度一致性和容錯性,根據CAP理論,難以保證其可用性和擴展性。

  ▌大數據採集新的方法

  ?系統日誌採集方法

  很多網際網路企業都有自己的海量數據採集工具,多用於系統日誌採集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均採用分布式架構,能滿足每秒數百MB的日誌數據採集和傳輸需求。

  ?網絡數據採集方法

  網絡數據採集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,並以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的採集,附件與正文可以自動關聯。除了網絡中包含的內容之外,對於網絡流量的採集可以使用DPI或DFI等帶寬管理技術進行處理。

  ?其他數據採集方法

  對於企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式採集數據。

  ▌大數據採集平臺

  最後,再為大家介紹幾款應用廣泛的大數據採集平臺,供大家參考使用。

  1)Apache Flume

  Flume 是Apache旗下的一款開源、高可靠、高擴展、容易管理、支持客戶擴展的數據採集系統。Flume使用JRuby來構建,所以依賴Java運行環境。

  2)Fluentd

  Fluentd是另一個開源的數據收集框架。Fluentd使用C/Ruby開發,使用JSON文件來統一日誌數據。它的可插拔架構,支持各種不同種類和格式的數據源和數據輸出。最後它也同時提供了高可靠和很好的擴展性。TreasureData, Inc 對該產品提供支持和維護。

  3)Logstash

  Logstash是著名的開源數據棧ELK (ElasticSearch, Logstash,Kibana)中的那個L。Logstash用JRuby開發,所有運行時依賴JVM。

  4)Splunk Forwarder

  Splunk是一個分布式的機器數據平臺,主要有三個角色:SearchHead負責數據的搜索和處理,提供搜索時的信息抽取;Indexer負責數據的存儲和索引;Forwarder,負責數據的收集,清洗,變形,並發送給Indexer。

1

相關焦點

  • 乾貨丨超聲焊接原理及影響因素
    如果本文對你有所幫助,歡迎分享到朋友圈點擊下列標題 閱讀更多歷史乾貨【技術π】深度剖析鋰離子電池鼓脹原因丨【鋰電內阻】理論結合生產談談鋰電池內阻那些事丨【技術π】深度剖析NCM811電池壽命衰減原因丨【精品】鋰電池漿料性質及關鍵影響因素分析丨【技術π】水分含量對電池性能的影響 丨【技術π】陶瓷塗層在鋰電池中的應用丨【技術π】電極漿料製備過程中物料顆粒狀態變化詳解丨
  • 一篇高引用的綜述文章是如何寫成的
    如果要對整個課題方向全面把握,寫一篇綜述是十分有必要的。而且,在做過較長時間的相關研究後,寫綜述文章有以下幾個好處:  大的方面,能夠提高對整個課題方向的把握能力。通過詳細的、全面的文獻檢索和閱讀,可以對這個課題方向的發展脈絡、研究進展和最新成果會有一個整體的把握和了解。  其次,是對自己工作的總結升華。
  • 乾貨丨消毒劑開發過程中的中和劑你需要掌握!
    2.乾貨丨化妝品常見美白成分匯總4.分享丨常用乳化劑HLB值一覽表5.乾貨丨「化妝品風險評估」,做好這些你就是優秀的風評工程師了!8.分享丨化妝品配方配伍與禁忌9.經驗丨如何成為一名合格的化妝品研發工程師?
  • 量子技術歷史文章集錦 你想知道的都在這裡!
    你說你還不知道什麼是量子技術?原創歷史文章集錦技經觀察 | 量子計算VS量子密鑰分發技術,全球量子競賽展開技經觀察 | 美國白宮國家量子協調辦公室發布《量子網絡戰略願景》技經觀察 | 量子定位技術能否取代GPS?
  • 最好的交通數據採集技術之一:地磁傳感器檢測技術
    打開APP 最好的交通數據採集技術之一:地磁傳感器檢測技術 工程師黃明星 發表於 2018-06-29 14:51:00 目前,地磁傳感器檢測技術被認為是最好的交通數據採集技術之一,國內大部分城市都已經開始使用。
  • 行上行下|2020年腦科學技術乾貨合集
    很開心在過去的一年可以和大家一起成長~今天,我們將從網站匯總、腦電技術、近紅外技術、核磁技術、眼動技術、其他技術、實驗統計、實驗編程、文獻與寫作、科研素養、前沿文獻、書籍推薦、人物採訪、心理健康、其他內容這15個方面進行總結。因為內容太多,我們分為兩期,前面一期主要偏向技術乾貨,後面一期主要偏向科研素養。希望有所幫助!1.
  • 最新資料下載丨TPO40-46閱讀文章譯文
    最新的TPO已經出現很久了,相關的模考軟體在市面上也出現了很多,但閱讀文章的翻譯和題目的解析還沒有一家機構完全整理好並放出。
  • 一篇文章搞定高中生物計算題4大難點!快學起來。
    原標題:一篇文章搞定高中生物計算題4大難點!快學起來。 高中生物計算題4大難點 高中生物大多是概念性的內容,真正涉及計算的內容並不多,但是生物涉及計算內容,卻又使得很多小夥伴們望而卻步。
  • 一篇文章解讀電動助力自行車技術原理
    一篇文章解讀電動助力自行車技術原理 2016年06月28日 00:29作者:馬景東編輯:馬景東文章出處:泡泡網原創       隨著小米電助力摺疊自行車的發布
  • MEMS陀螺儀,讓數據採集從此輕而易舉
    在物聯網發展的大背景下,衍生出了智能家居、可穿戴設備、服務型機器人、智能農業、智能物流等大量新型產業,而隨著產業發展至今,亦同時出現眾多制約因素,其中提及最多的無疑是傳感器技術,電子產業需要發展,高精度的傳感器是必不可缺的器件,甚至可以說,掌握了最新傳感器技術就是抓住了電子產業發展的命脈。
  • 一篇10分文章是怎樣煉成的?你有信心嗎?
    前幾天我們分析過5分左右的文章與2-3分的文章有哪些不同之處,那麼從5到10,一篇10分的文章是怎樣煉成的呢?小編今天就來給大家分析一篇10.19分的文章。2、在實驗方法與技術層面兩個研究運用的方法略有異同,均是用RT-PCR技術進行分子生物學檢測,用MTT方法進行細胞增殖實驗、免疫螢光法檢測蛋白表達,且都設計了體內動物實驗來進一步驗證實驗結果的準確性。
  • 一篇文章了解棋牌遊戲過去、現在及未來!
    一篇文章了解棋牌遊戲過去、現在及未來!03年8月,騰訊推出遊戲平臺,騰訊強大的渠道資源,瞬息搶奪了大量的流量,這讓同時期的棋牌弄潮兒們感到非常大的壓力。這一時期行業有著非常典型的特質:創始人都是棋牌愛好者,並沒有清晰的商業思路。群分天下隨著騰訊棋牌的成功,越來越多的人想分一杯羹,在這個時期又進入了第二個發展的契機,集大成者當屬同城遊。
  • 乾貨!一篇文章讀懂人類圖!
    人類圖的右上角這兩行帶符號的數字就叫行星表,代表了某個天體(行星)激活了你的某個特定的基因(閘門)。這些行星符號從上到下分別代表了太陽、地球、月亮、地球軌道和月球軌道的北交點和南交點、水星、金星、火星、木星、土星、天王星、海王星和冥王星。
  • 健康筆記丨如何讀懂一篇薈萃分析
    健康筆記丨如何讀懂一篇薈萃分析 2020-08-25 13:33 來源:澎湃新聞·澎湃號·湃客
  • 「雲」看展丨了解它,才能遠離它!常見毒品的種類和危害你都知道嗎...
    以下文章來源於長沙禁毒 ,作者長沙禁毒 長沙禁毒宣傳禁毒常識 推送緝毒動態 服務戒毒需求---長沙市禁毒委員會辦公室官方微信號隨著社會的發展,網際網路極大程度地影響著人們的生活方式,改變著人們的思想和行為,加強網絡禁毒宣傳教育儼然成為一個重要課題。
  • 運城樓市11月份月報丨數據大爆炸!樓市乾貨匯總……
    運城樓市11月份月報丨數據大爆炸!樓市乾貨匯總…… 安居運城 |安心挑好房 ,當然安居客
  • 高精度數據採集卡的功能特點及應用範圍
    打開APP 高精度數據採集卡的功能特點及應用範圍 海洋興業科技 發表於 2021-01-07 16:57:38 高精度數據採集卡主要應用在數據解析度要求很高的場合
  • 一篇乾貨教會你!
    文中引用需要寫明作者姓氏和文章發表年份,我們這裡只討論最常見的「indirect citation」,即作者的觀點需要經過你的改寫再出現在你的文章當中。基本格式有兩種:1.作者的姓氏不出現在行文中,例如:…(Sharma and Tan, 1994)…(Huang, 2019)注意:【在第六版中】如果引用的一篇文章有3到5個作者,第一次引用要把所有作者都列出來,例如:(Kernis, Cornell, Sun,
  • 2018年你一定不能錯過的史上最全XPS乾貨總結(必收藏)
    為了更好的讓大家全方位了解XPS的分析方法、應用,小編馬不停蹄,為廣大讀者奉上史上最全的XPS測試分析方法總結,點擊標題直接跳轉到原文。而且聰明如你,可以從以下內容中找到自己心儀的公眾號。【 入門原理篇 】1.
  • 一篇文章告訴你答案!
    童濟仁汽車評論 編輯丨嚴小森這是一篇科普向技術流的文章,看完這篇文章,相信你對無人駕駛系統的了解已經超越了99%的人。現如今,無人駕駛技術通常被分為環境感知與定位、決策規劃和運動控制3個部分。環境感知與定位負責確定汽車周圍哪裡有汽車或者行人,前面是紅燈還是綠燈,即確定環境和汽車的狀態。