大數據開發涉及到的關鍵技術有哪些?

2020-12-24 騰訊網

大數據本身是一種現象而不是一種技術。大數據技術是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的數據處理技術。

大數據價值的完整體現需要多種技術的協同。大數據關鍵技術涵蓋數據存儲、處理、應用等多方面的技術,根據大數據的處理過程,可將其分為大數據採集、大數據預處理、大數據存儲及管理、大數據處理、大數據分析及挖掘、大數據展示等。

大數據採集技術

大數據採集技術是指通過 RFID 數據、傳感器數據、社交網絡交互數據及移動網際網路數據等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。

因為數據源多種多樣,數據量大,產生速度快,所以大數據採集技術也面臨著許多技術挑戰,必須保證數據採集的可靠性和高效性,還要避免重複數據。

大數據的數據源主要有運營資料庫、社交網絡和感知設備 3 大類。針對不同的數據源,所採用的數據採集方法也不相同。

大數據預處理技術

大數據預處理技術主要是指完成對已接收數據的辨析、抽取、清洗、填補、平滑、合併、規格化及檢查一致性等操作。

因獲取的數據可能具有多種結構和類型,數據抽取的主要目的是將這些複雜的數據轉化為單一的或者便於處理的結構,以達到快速分析處理的目的。

通常數據預處理包含 3 個部分:數據清理、數據集成和變換及數據規約。

1. 數據清理

數據清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數據處理(數據中存在錯誤或偏離期望值的數據)和不一致數據處理。

遺漏數據可用全局常量、屬性均值、可能值填充或者直接忽略該數據等方法處理。

噪音數據可用分箱(對原始數據進行分組,然後對每一組內的數據進行平滑處理)、聚類、計算機人工檢查和回歸等方法去除噪音。

對於不一致數據則可進行手動更正。

2. 數據集成

數據集成是指把多個數據源中的數據整合併存儲到一個一致的資料庫中。這一過程中需要著重解決 3 個問題:模式匹配、數據冗餘、數據值衝突檢測與處理。

由於來自多個數據集合的數據在命名上存在差異,因此等價的實體常具有不同的名稱。對來自多個實體的不同數據進行匹配是處理數據集成的首要問題。

數據冗餘可能來源於數據屬性命名的不一致,可以利用皮爾遜積矩來衡量數值屬性,對於離散數據可以利用卡方檢驗來檢測兩個屬性之間的關聯。

數據值衝突問題主要表現為,來源不同的統一實體具有不同的數據值。數據變換的主要過程有平滑、聚集、數據泛化、規範化及屬性構造等。

3. 數據規約

數據規約主要包括數據方聚集、維規約、數據壓縮、數值規約和概念分層等。

使用數據規約技術可以實現數據集的規約表示,使得數據集變小的同時仍然近於保持原數據的完整性。

在規約後的數據集上進行挖掘,依然能夠得到與使用原數據集時近乎相同的分析結果。

大數據存儲及管理技術

大數據存儲及管理的主要目的是用存儲器把採集到的數據存儲起來,建立相應的資料庫,並進行管理和調用。

在大數據時代,從多渠道獲得的原始數據常常缺乏一致性,數據結構混雜,並且數據不斷增長,這造成了單機系統的性能不斷下降,即使不斷提升硬體配置也難以跟上數據增長的速度。這導致傳統的處理和存儲技術失去可行性。

大數據存儲及管理技術重點研究複雜結構化、半結構化和非結構化大數據管理與處理技術,解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。

具體來講需要解決以下幾個問題:海量文件的存儲與管理,海量小文件的存儲、索引和管理,海量大文件的分塊與存儲,系統可擴展性與可靠性。

面對海量的 Web 數據,為了滿足大數據的存儲和管理,Google 自行研發了一系列大數據技術和工具用於內部各種大數據應用,並將這些技術以論文的形式逐步公開,從而使得以 GFS、MapReduce、BigTable 為代表的一系列大數據處理技術被廣泛了解並得到應用,同時還催生出以 Hadoop 為代表的一系列大數據開源工具。

從功能上劃分,這些工具可以分為分布式文件系統、NoSQL 資料庫系統和數據倉庫系統。這 3 類系統分別用來存儲和管理非結構化、半結構化和結構化數據。

大數據處理

大數據的應用類型很多,主要的處理模式可以分為流處理模式和批處理模式兩種。批處理是先存儲後處理,而流處理則是直接處理。

1. 批處理模式

Google 公司在 2004 年提出的 MapReduce 編程模型是最具代表性的批處理模式。

MapReduce 模型首先將用戶的原始數據源進行分塊,然後分別交給不同的 Map 任務去處理。Map 任務從輸入中解析出 key/value 對集合,然後對這些集合執行用戶自行定義的 Map 函數以得到中間結果,並將該結果寫入本地硬碟。Reduce 任務從硬碟上讀取數據之後,會根據 key 值進行排序,將具有相同 key 值的數據組織在一起。最後,用戶自定義的 Reduce 函數會作用於這些排好序的結果並輸出最終結果。

MapReduce 的核心設計思想有兩點:

將問題分而治之,把待處理的數據分成多個模塊分別交給多個 Map 任務去並發處理。

把計算推到數據而不是把數據推到計算,從而有效地避免數據傳輸過程中產生的大量通信開銷。

2. 流處理模式

流處理模式的基本理念是,數據的價值會隨著時間的流逝而不斷減少。因此,儘可能快地對最新的數據做出分析並給出結果是所有流處理模式的主要目標。

需要採用流處理模式的大數據應用場景主要有網頁點擊數的實時統計,傳感器網絡,金融中的高頻交易等。

流處理模式將數據視為流,將源源不斷的數據組成數據流。當新的數據到來時就立刻處理並返回所需的結果。

數據的實時處理是一個很有挑戰性的工作,數據流本身具有持續到達、速度快、規模巨大等特點,因此,通常不會對所有的數據進行永久化存儲,同時,由於數據環境處在不斷的變化之中,系統很難準確掌握整個數據的全貌。

由於響應時間的要求,流處理的過程基本在內存中完成,其處理方式更多地依賴於在內存中設計巧妙的概要數據結構。內存容量是限制流處理模式的一個主要瓶頸。

大數據分析及挖掘技術

大數據處理的核心就是對大數據進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。

越來越多的應用涉及大數據,這些大數據的屬性,包括數量、速度、多樣性等都引發了大數據不斷增長的複雜性,所以,大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。

利用數據挖掘進行數據分析的常用方法主要有分類、回歸分析、聚類、關聯規則等,它們分別從不同的角度對數據進行挖掘。

1.分類

分類是找出資料庫中一組數據對象的共同特點並按照分類模式將其劃分為不同的類。

其目的是通過分類模型,將資料庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等。

2.回歸分析

回歸分析方法反映的是事務資料庫中屬性值在時間上的特徵。

該方法可產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關係,其主要研究問題包括數據序列的趨勢特徵、數據序列的預測及數據間的相關關係等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。

3.聚類

聚類是把一組數據按照相似性和差異性分為幾個類別。

其目的是使得屬於同一類別的數據間的相似性儘可能大,不同類別中的數據間的相似性儘可能小。它可以應用於客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

4.關聯規則

關聯規則是描述資料庫中數據項之間所存在的關係的規則。即根據一個事務中某些項的出現可推導出另一些項在同一事務中也會出現,即隱藏在數據間的關聯或相互關係。

在客戶關係管理中,通過對企業的客戶資料庫裡的大量數據進行挖掘,可以從大量的記錄中發現有趣的關聯關係,找出影響市場營銷效果的關鍵因素,為產品定位、定價,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。

大數據展示技術

在大數據時代下,數據井噴似地增長,分析人員將這些龐大的數據匯總並進行分析,而分析出的成果如果是密密麻麻的文字,那麼就沒有幾個人能理解,所以我們就需要將數據可視化。

圖表甚至動態圖的形式可將數據更加直觀地展現給用戶,從而減少用戶的閱讀和思考時間,以便很好地做出決策。下圖可以清晰地展示大企業職員相互之間的流向。

可視化技術是最佳的結果展示方式之一,其通過清晰的圖形圖像展示直觀地反映出最終結果。

數據可視化是將數據以不同的視覺表現形式展現在不同系統中,包括相應信息單位的各種屬性和變量。

數據可視化技術主要指的是技術上較為高級的技術方法,這些技術方法通過表達、建模,以及對立體、表面、屬性、動畫的顯示,對數據加以可視化解釋。

傳統的數據可視化工具僅僅將數據加以組合,通過不同的展現方式提供給用戶,用於發現數據之間的關聯信息。

隨著大數據時代的來臨,數據可視化產品已經不再滿足於使用傳統的數據可視化工具來對數據倉庫中的數據進行抽取、歸納及簡單的展現。

新型的數據可視化產品必須滿足網際網路上爆發的大數據需求,必須快速收集、篩選、分析、歸納、展現決策者所需要的信息,並根據新增的數據進行實時更新。因此,在大數據時代,數據可視化工具必須具有以下特性:

1.實時性

數據可視化工具必須適應大數據時代數據量的爆炸式增長需求,必須快速收集分析數據,並對數據信息進行實時更新。

2.操作簡單

數據可視化工具滿足快速開發、易於操作的特性,能滿足網際網路時代信息多變的特點。

3.更豐富的展現

數據可視化工具需要具有更豐富的展現方式,能充分滿足數據展現的多維度要求。

4.多種數據集成支持方式

數據的來源不僅僅局限於資料庫,數據可視化工具將支持團隊協作數據、數據倉庫、文本等多種方式,並能夠通過網際網路進行展現。

數據可視化技術是一個新興領域,有許多新的發展。

企業獲取數據可視化功能主要通過編程和非編程兩類工具實現。

主流編程工具包括 3 種類型:從藝術的角度創作的數據可視化工具,比較典型的工具是Processing.js,它是為藝術家提供的程式語言。

從統計和數據處理的角度創作的數據可視化工具,R語言是一款典型的工具,它本身既可以做數據分析,又可以做圖形處理。

介於兩者之間的工具,既要兼顧數據處理,又要兼顧展現效果,D3.js 是一個不錯的選擇,像 D3.js 這種基於 JavaScript 的數據可視化工具更適合在網際網路上互動式展示數據。

了解IT相關內容,各平臺同名「職坐標在線」

相關焦點

  • 大數據開發就業:大數據開發有哪些崗位
    在大數據的發展當中,對相關專業人才的需求是在持續增長的,包括大數據開發、數據分析挖掘等不同的數據處理環節,都形成了相應的崗位體系,大家各自負責不同的環節,共同完成大數據處理任務。今天我們主要來講講大數據開發就業,了解大數據開發有哪些崗位?
  • 大數據涉及的技術理論和資源工具
    大數據涉及的技術理論和資源工具 北方數據中心 發表於 2020-03-22 17:40:00 大數據涉及的技術領域 1 研究業務的技術特性要求
  • 大數據技術應用前景:大數據在哪些行業有前景
    大數據席捲全球的大趨勢下,我們可以明顯地感覺到,數據在受到越來越多的重視,從國家到企業,各個層面都認可數據的價值,而在各個行業領域當中,大數據技術的應用,將帶來新的發展路徑。今天我們就來聊聊,大數據技術應用前景,大數據在哪些行業有前景?提到大數據,大家首先想到的,一定是網際網路行業。沒錯,網際網路行業是大數據落地最主要的場景之一,但是在其他更多行業領域,大數據的前景不可限量。
  • 大數據技術應用前景:大數據在哪些行業有前景
    大數據席捲全球的大趨勢下,我們可以明顯地感覺到,數據在受到越來越多的重視,從國家到企業,各個層面都認可數據的價值,而在各個行業領域當中,大數據技術的應用,將帶來新的發展路徑。今天我們就來聊聊,大數據技術應用前景,大數據在哪些行業有前景? 提到大數據,大家首先想到的,一定是網際網路行業。
  • ...涉及綠色關鍵技術開發及產業化項目、合成大分子CDMO項目
    財經網產經訊  1月10日晚,凱萊英公告,公司與天津經濟技術開發區管理委員會籤訂了《投資合作協議》,擬以自有或自籌資金20億元在天津經開區西區投資綠色關鍵技術開發及產業化項目和合成大分子CDMO項目,提升公司創新藥研發生產全產業鏈服務能力。
  • Java大數據開發是做什麼的?要掌握哪些技能
    Java開發是大數據的經典崗位,行業當中存在普遍的需求,Web開發、Android開發、遊戲開發等崗位,基本上Java語言是主力隊伍。而進入大數據時代,Java又在大數據方向上有了用武之地。今天我們主要來講講Java大數據開發是做什麼的?要掌握哪些技能?
  • Java大數據開發是做什麼的?要掌握哪些技能
    Java開發是大數據的經典崗位,行業當中存在普遍的需求,Web開發、Android開發、遊戲開發等崗位,基本上Java語言是主力隊伍。而進入大數據時代,Java又在大數據方向上有了用武之地。今天我們主要來講講Java大數據開發是做什麼的?要掌握哪些技能?
  • 大數據開發行業的就業方向有哪些?
    如今,大數據開發行業已經成為無數人嚮往的職業之一,因為大數據開發行業的薪水高,發展前景廣闊,那麼對於想學習數據開發的小夥伴來說,建議先了解大數據開發行業的就業前景,再考慮要不要學,下面隨編輯一起來認識一下吧!大數據就業的方向和前景如何?
  • 大數據關鍵技術淺談之大數據採集
    根據涉及領域的不同,大數據的關鍵技術可以分為大數據採集、大數據預處理、大數據存儲及管理、大數據處理、大數據分析及挖掘、大數據展示等幾大方面。 本文將對大數據採集進行介紹。 —— 大數據採集處於大數據生命周期中第一個環節,是大數據分析至關重要的一個環節,也是大數據分析的入口。
  • 工業大數據應用技術架構有哪些類型
    工業大數據是指製造企業在生產運輸銷售過程中所產生的各種數據,包括企業生產鏈的各個環節以及工業傳感器,自動控制系統,物聯網等等。那麼大數據技術架構類型都有哪些?工業大數據是指製造企業在生產運輸銷售過程中所產生的各種數據,包括企業生產鏈的各個環節以及工業傳感器,自動控制系統,物聯網等等。那麼大數據技術架構類型都有哪些?  1、業務架構  業務架構定義了業務戰略、管理、組織和關鍵業務流程,是企業全面的信息化戰略和信息系統架構的基礎,是數據、應用、技術架構的決定因素。
  • 大數據分析工具有哪些
    打開APP 大數據分析工具有哪些 陳翠 發表於 2019-02-28 15:28:23
  • 零基礎能學大數據開發嗎 要掌握哪些技術知識
    零基礎能學大數據開發嗎?要掌握哪些技術知識?縱觀近幾年的網際網路發展趨勢,看到大數據被炒得火熱,也想要涉足大數據領域,學習一些大數據技術,但奈何自己目前是零基礎,能不能學大數據,能學會嗎?  首先我們先認識到一個問題,零基礎想要涉足大數據領域
  • 雲計算的關鍵技術有哪些?
    雲計算的關鍵技術有:虛擬化、分布式文件系統、在雲計算中,這兩種模式都有比較多的應用。雲計算需要對分布的、海量的數據進行處理、分析,因此,數據管理技術必須能夠高效的管理大量的數據。雲計算系統的平臺管理技術,需要具有高效調配大量伺服器資源,使其更好協同工作的能力。方便地部署和開通新業務、快速發現並且恢復系統故障、通過自動化、智能化手段實現大規模系統可靠的運營是雲計算平臺管理技術的關鍵。
  • 大數據核心技術有哪些 大概學習路線是什麼
    大數據核心技術有哪些?大概學習路線是什麼?大數據技術,簡而言之,就是提取大數據價值的技術,是根據特定目標。想要成為炙手可熱的大數據技術人才,這些大數據的核心技術一定要知曉!  二、大數據存儲階段  大數據存儲階段需掌握的技術有:HBase、hive、sqoop等。
  • 5g的關鍵技術有哪些
    5G作為新一代的移動通信技術,它的網絡結構、網絡能力和要求都與過去有很大不同,有大量技術被整合在其中,5g的關鍵技術包括:基於OFDM優化的波形和多址接入、實現可擴展的OFDM間隔參數配置、OFDM加窗提高多路傳輸效率、靈活的框架設計、超密集異構網絡、網絡的自組織、網絡切片、內容分發網絡、設備到設備通信、邊緣計算、軟體定義網絡和網絡虛擬化。
  • 大數據就業有哪些崗位
    最近幾年間,大數據的發展勢頭可以說是明顯向上了,各行各業都在布局大數據,大數據也從頭部企業的特權,開始向各個行業領域下沉,基於網際網路所產生的數據,整體規模都在快速加大。今天的大數據就業課程培訓分享,我們先來聊聊大數據就業有哪些崗位?大數據就業的方向,主要分為技術路線和業務路線,技術路線主要從事開發工作,需要具備較好的編程能力;而業務路線主要從事分析工作,對編程能力的要求稍低一些。
  • 數據科學與大數據技術專業課程有哪些?需求職業前景就業方向
    數據科學與大數據技術專業課程有哪些?需求職業前景就業方向  從IT時代進入DT時代,高校在大數據方向上設置了哪些專業,具體學什麼,就業怎麼樣,作為新興專業,考生如何報考?  目前國內有30萬數據人才,預計2018年,大數據人才需求將有大幅增長,高端人才如大數據科學家的缺口在14萬至19萬之間;懂得利用大數據做決策的分析師和經理缺口達到150萬,數據分析師現在需求就很旺盛了,2年工作經驗的月薪可達到8K,碩士學歷的數據分析師月薪可達到12K,5年工作經驗的可達到40萬至60萬元。  數據科學與大數據技術專業可以從事的工作有哪些?
  • 一句話快答3:多大的數據叫大數據,大數據技術有哪些?
    今天加米谷繼續以一句話快答+解釋的形式,來回答常見的大數據問題。五個問題1、大數據有多大?2、大數據的數量級別怎麼計算?3、大數有什麼特徵?4、大數據技術體系是怎樣的?5、大數據技術組件主要有哪些?1、大數據有多大?一句話快答:大數據的「大」是一個抽象概念,指代海量的數不清的數據。「大」只是表示大數據容量的特徵,根據維基百科的定義,大數據的大小從TB級別到PB級別(1PB=1024TB,1TB=1024GB)不等。大數據是一個描述數據從產生、傳輸、存儲、分析到展示的一些列技術的統稱。所以大數據不僅僅體現在量上,也體現在應用分析上。
  • 從數據到大數據,數據技術&工具的演變
    伺服器與資料庫有什麼區別?一般我們常稱為「伺服器」的全稱叫「應用伺服器」,資料庫全稱叫「資料庫伺服器」,它們都是伺服器,只是由於應用環境的不同,需要的性能不同做了區分。資料庫伺服器的處理器性能要求比較高,因為其要進行頻繁的操作,內存要求大,加快數據存取速度,應用伺服器相對而言要求低一些。3. 常用資料庫有哪些?
  • 從數據到大數據,數據技術&工具的演變
    資料庫伺服器的處理器性能要求比較高,因為其要進行頻繁的操作,內存要求大,加快數據存取速度,應用伺服器相對而言要求低一些。1.3常用資料庫有哪些?數據倉庫與大數據倉庫的區別:大數據=海量數據+處理技術+平臺工具+場景應用,數據倉庫是一個數據開發過程,其區別主要體現在商業價值,處理對象,生產工具,三個方面。