什麼是大數據,權威專家談大數據的4V1C特質

2021-01-09 職品匯

大數據是當前較為火爆的一個詞彙,究竟什麼是大數據、大數據的概念是怎樣的?大數據有哪些特質,大數據有哪些技術方面的要求,大數據對當前社會產生了哪些重要的影響?

國內知名大數據專家、中科院計算所博士、職品匯創始人龔才春博士對此做了詳盡的分析,他指出:「從常規定義來講,大數據就是大小超出常規資料庫工具獲取、存儲、管理和分析能力的資料庫,並且也強調,不是說一定要超過特定TB的數據集才是大數據。這個定義並沒有詮釋什麼是常規的資料庫工具,也沒有詮釋大數據與數據量的關係,是一個比較原始的大數據定義。」

而國際數據公司(International Data Corporation,簡稱IDC)則從四個特徵定義大數據:數據規模龐大(Volume)、數據更新頻繁(Velocity)、數據類型多樣(Variety)和數據價值巨大(Value)。

龔博士認為,在上述四大定義的基礎上,一般偏向於再加上數據處理複雜(Complexity),構成相對完整的大數據的定義,這就是大家耳熟能詳的4V+1C。

1.數據規模龐大(Volume)

當數據規模很小時,屬於傳統的「小數據」時代的問題,已有非常成熟的數據存儲、計算、分析、呈現方案,數據模型也有非常多的研究。大數據必須是規模異常龐大的數據,只有當規模龐大時候,才有新的研究價值。

前面已經提到,大數據的大,不是說一定要超過特定TB的數據集才是大數據。由於計算能力、存儲能力、分析能力的有限,現在看起來很簡單的問題,在歷史上可能都是大數據的問題。遼瀋戰役中,司令員林彪對戰報要求很細,包括每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少;槍枝、物資多少……一天深夜,值班參謀正讀著一份某師上報的戰鬥繳獲報告,那是該師的下屬部隊偶然碰上的一個不大的遭遇戰,他們殲滅了一部分敵人,繳獲了一些戰利品,敵人餘部逃走。林彪聽了匯報後,立即口授命令,全力追擊從胡家窩棚逃走的那股敵人,一定要把它徹底打掉。果然活捉了國民黨新編第六軍軍長廖耀湘。這些數據在今天看來,規模非常非常小。但在當時這已經是「大數據」了,林彪懂得分析數據,從繳獲中手槍和衝鋒鎗的比例準確判斷出敵方的指揮部在胡家窩棚,這也算是大數據分析的魅力。

2.數據更新頻繁(Velocity)

我們知道摩爾定律揭示了處理器分析能力與時間的關係,也就是說,每隔18個月左右處理器的分析能力翻一番。對於一個靜止的數據集,哪怕今天我們的處理器無法處理,存儲器不好存儲。隨著技術的進步,未來可能變成非常容易處理,就像我們現在看著當年林彪分析戰報一樣,這些戰報數據的處理今天已經變得非常非常容易了,在今天已經不算「大數據」了。

大數據技術,要求我們更多地想出「巧妙」的分析辦法,提成更「優秀」的處理模型,而不能只依賴存儲能力、處理水平、網絡帶寬等硬體設備的性能改進。所以大數據技術,對分析對象要求是頻繁更新的數據集

3.數據類型多樣(Variety

傳統的關係型資料庫,無論從理論上,還是在應用上都非常成熟了。關係型資料庫一般保存格式固定、類型單一的數據,幾十年的資料庫理論、數據挖掘、數據倉庫的研究,已經有相當多的研究成果。

大數據要求我們的分析對象是異構、異質的數據集,可能包括文本、音頻、視頻等多種形式,也可能是結構化、半結構化的或無結構的。

4.數據價值巨大(Value)

如果數據沒有價值,我們就沒有分析的必要。因此,大數據要求我們處理的數據集是有巨大商業價值或社會價值的。阿里巴巴願意花巨大代價提高推薦系統的準確性,就是在於其推薦系統的準確率的提高,能大大提高平臺的交易量,從而具有非常巨大的商業價值。我們在全國部署「天眼」系統,提高大數據技術在天眼系統的分量,就是因為天眼系統分析能力的一小步提升,都能在降低犯罪率、打擊犯罪、保障人民群眾安全、信用取證等方面都有巨大的社會價值。

在Value這個層面,我們除了要求價值巨大外,我們一般會增加一點要求,那就是價值密度極低。我們常說,大數據是一個「金礦」,金礦就包含兩個方面的含義:一方面,黃金很值錢,金礦很有價值;另一方面,金礦不是金庫,幾萬頓的礦砂,也許只有幾十公斤黃金,也就是說金庫的價值密度是非常低的。大數據的價值方面的含義,也要求價值密度非常低。如果數據集中每一條數據都是非常有價值的,那也就無所謂「挖掘」了,沒有挖掘,大數據的意義也蕩然無存了。

5.數據處理複雜(Complexity)

IDC公司的大數據只有4V的特徵,我們一般偏向於增加另一個維度的要求:數據處理複雜。例如,統計中國人口的平均年齡,這個數據量是非常龐大的,有接近14億條記錄;這個數據也是動態更新的,每年都有幾千萬人出生,幾千萬死亡;這個數據集也可以是多樣的,湖南的數據可以放在mysql中,湖北的數據可以在oracle中,北京的數據可能在Txt文件中,上海的數據可能在Word文檔中;這個數據集和這個分析都是有價值的,但是平均到每一條數據,價值又非常有限。也就是說,這個問題是符合4V特徵的,但是這個問題怎麼看都「太簡單」了,年齡加起來求平均即可,不能成為真正意義上的「大數據問題」。

北京誠智匯達信息科技有限公司成立於2014年10月,是國內領先的職場大數據徵信服務提供商。我們通過整合權威部門數據、合作夥伴數據、網際網路採集數據、用戶註冊

數據等,挖掘候選人在基本信息、教育背景、工作經歷、工作能力、薪酬福利、職業道德、犯罪記錄、失信記錄等方面的信用狀況,生成從業者的信用報告,為獵頭、

HR、投資機構、金融機構、業主提供決策支持,提升人力資源管理效率,淨化我國職場環境,提高社會道德水平,降低投融資的信用成本,促進我國經濟發展。

我們的使命是「讓天下沒有欺騙」。通過完善職場各方的數據,建立我國9.8億從業者的職場信用體系,徹底解決職場誠信問題。

職品匯是我們的品牌,目前我們已經開發了大數據背景調查、職場黑名單、人才地圖、虛假簡歷識別、職品人才庫、獵頭管理SaaS系統等,並且逐步向社會開放我們的

研發能力,提供簡歷解析、精準匹配、尋訪記錄挖掘、LIST識別等工具。

作為我國成立最早、團隊最完善的職場大數據徵信公司,我們採集並整理了中國最龐大的人力資源資料庫,服務萬科、衛計委等500餘家企事業單位,是平安集團、用

友、北森等知名企業的戰略合作夥伴。

相關焦點

  • 探尋大數據時代的工業變革之路 ——2015中國工業大數據大會在京舉辦
    在此背景下,國內首個專注於工業領域大數據應用的權威會議——2015中國工業大數據大會在京盛大召開。  工業和信息化部原副部長楊學山出席大會並發表了主旨演講。中國電子信息產業發展研究院副院長樊會文致歡迎辭。
  • 大數據及大數據的4V特徵
    維基百科對「大數據」的解讀是:「大數據」(Big Data),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成為人類所能解讀的信息。
  • 再獲權威認可!國雙穩居信通院大數據產品能力評測第一陣營
    會上,第十一批大數據產品能力評測證書權威發布,國雙知識圖譜軟體、國雙流計算系統分別以優異的成績通過圖資料庫、分布式流處理平臺基礎能力評測;同時,備受矚目的2020大數據「星河(Galaxy)」案例揭曉,國雙油氣大數據和人工智慧平臺榮獲「星河獎」行業大數據應用優秀案例獎!
  • 權威機構大數據分析:梅西世界第一人!萊萬第二,C羅無緣前十!
    不過由於萊萬有五冠王和世界第一檔的數據,所以他基本不會讓任何代表年度第一人的獎項旁落。此前,萊萬已經喜提歐足聯最佳球員,也是《法國足球》如果不取消金球獎的最大熱門。但萊萬是否真的無法挑戰呢?其實不一定,因為C羅是環球足球獎最佳球員四連冠得主,他完全可能以五連冠的方式被局部認為是年度第一人,而梅西最近被權威機構兼著名數據分析公司卡特萊特通過大數據和公式計算出來的結果認證為年度第一人!
  • 大數據究竟是什麼?一篇文章讓你認識並讀懂大數據
    在寫這篇文章之前,我發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什麼關係?估計很少能說出一二三來。
  • 疫情大數據回顧系列五:從大數據疫情應用看大數據發展
    在本文的系列一,我們也見縫插針地給出了一些大數據應用的例子,圍繞數據分析的四個階段:發生了什麼?為什麼發生?未來會發生什麼?以及怎麼影響未來的發生?即描述性分析、診斷性分析、預測性分析以及處方型分析給出了一些應用案例。
  • 智慧農業大數據 - CSDN
    然而,我國農業大數據建設存在很多問題,如已有技術缺乏與農產品全產業鏈的對接應用,各級政府主導的建設經驗參差不齊,電商生態圈形成的消費端農業大數據未與生產端數據整合等。農業大數據建設進入攻堅階段,其中的動力需求是什麼?目前我國農業大數據建設的典型模式有哪些?農業大數據建設的現實路徑應如何推進?本文擬對這些問題做出一些有益的探索。
  • 大數據新範式:MLOps究竟是什麼?
    圖源:Google數位化將DataOps這一概念引入人們生活的同時,大數據正引入一種新的範式——MLOps。鑑於DevOps和DataOps在實踐中越來越多的運用,該項業務需要機器學習模型使用過程中的所有參與者一直保持合作與互動,包括業務人員、工程師、大數據開發人員(數據科學家和機器學習專家)。MLOps還是一個比較新的概念,但人們對它的需求卻在與日俱增。
  • 2020全球人工智慧與教育大數據大會|專家共談人工智慧助力因材施教
    12月11日,2020全球人工智慧與教育大數據大會在國家會議中心隆重舉行。本次大會,經教育部批准,由中央電化教育館與北京師範大學、科大訊飛股份有限公司共同舉辦。中央電化教育館黨委副書記(主持工作)李萍致歡迎辭中國教育國際交流協會會長、歐美同學會副會長、教育部原副部長劉利民在講話中強調,當前隨著深度學習算法在語音和視覺識別上的不斷突破和大數據的應用,教育領域已經成為人工智慧重要的應用場景之一
  • 應用這4個方面對大數據進行闡述
    應用這4個方面對大數據進行闡述 大數據DT 發表於 2020-12-15 16:21:56 摘要 我們將從大數據的概念、核心技術、特點、通用應用這4個方面對大數據進行闡述
  • 五月鮮花大數據:看懂權威數據,才能賺更多
    今年的母親節在意外中爆單而520的爆單就完全在情理之中了對於鮮花行業來說,今年520無疑是一次巨大的行業革新520一結束,小編立刻從花娃拿到了節日數據,從這些數據中,我們多少能看到下半年鮮花市場的發展。
  • 大咖雲集,智慧共享,「2020人工智慧與電力大數據論壇」在京召開
    大咖雲集,智慧共享,「2020人工智慧與電力大數據論壇」在京召開 發布時間: 2020-11-11 11:50:43   來源:中國電力網  作者:陳瑩
  • 講座預約丨權威專家談AlphaFold:DeepMind到底突破了什麼?
    2020年12月8日上午9:30,四位世界級權威專家,將在線上同臺討論該話題。嘉賓介紹2017年加入印第安納大學醫學院參與領導精準健康計劃,擔任數據科學與信息學主任,同時任基因組數據科學講席教授,醫學院主管數據科學副院長,印第安納大學Simon綜合癌症中心副主任。其主要研究方向包括生物信息學,醫學圖像分析,醫療大數據,機器學習及其在癌症研究及神經科學等方面的應用。發表研究論文200餘篇。2018年當選美國醫學與生物工程學院(AIMBE)會士。
  • 深圳將建大灣區數據中心 專家倡設港版大數據交易中心
    國家發改委近期公布了「深圳建設中國特色社會主義先行示範區綜合改革試點首批授權事項清單」,支持深圳建設粵港澳大灣區大數據中心,研究論證設立數據交易市場或依託現有交易場所開展數據交易。從事大數據業務的港商認為,深圳「5G +大數據」將帶來全民創富共嬴的機遇,香港將可以分享這一機遇。
  • BI大數據分析是什麼,大數據bi工具有哪些
    Gartner:大數據宣傳在商務智能市場成效不明顯市場研究公司Gartner指出,去年的大數據宣傳未能促進全球商務智能和分析市場出現快速增長。大數據通常指對來自社交網絡、傳感器等來源的海量非結構化信息進行的挖掘與分析,而傳統的商務智能只是報告和分析結構化數據存儲。Gartner 分析師Dan Sommer和Bhavish Sood在報告寫道: 「雖然大數據宣傳力度在2013年達到了高潮,但是對分析市場的影響卻不是很大。」
  • 康養丨「大姨媽APP」創始人柴可:大數據+大健康智繪「她健康」
    ——北京友樂活集團、大姨媽APP創始人兼CEO柴可談網際網路醫療與女性健康「如果您作為人大代表
  • 專業篇:數據科學與大數據技術——萬物分析的大數據
    那麼,究竟什麼是大數據?數據科學與大數據技術是一個什麼樣的專業?大數據分析與人工智慧時代有著怎樣的聯繫?希望本文能夠給各位家長及考生帶來一定的啟發。一、大數據 ≠ 大的數據談到大數據,我們往往想到的是海量的數據或者很大很複雜的數據,但其實大數據並不等於大的數據。
  • 海量權威數據+科學多元算法,看京東金榜如何打造「網購第一榜單」
    一份公正、專業、權威的榜單,將避免網購決策失誤,在下單之前給消費者帶來靠譜指南,這也是京東金榜年度盛典將要為消費者要帶來的解決之道。在全年最後一個購物季12.12到來之際,京東金榜年度盛典將為消費者送上雙份大禮包,既有基於千萬人下單數據而形成的年度12大消費趨勢,讓消費者了解最新消費潮流;又有100大金獎單品做清單,給消費者帶來具體決策指導。
  • 大數據殺熟什麼意思什麼梗? 大數據「殺熟」的套路你中過招嗎?
    大數據殺熟什麼意思什麼梗? 大數據「殺熟」的套路你中過招嗎?時間:2020-02-19 13:22   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:大數據殺熟什麼意思什麼梗? 大數據殺熟的套路你中過招嗎?
  • 建設海洋大數據國家級中心
    建設海洋大數據國家級中心 青島全搜索電子報   2019.11.05 星期二     早報11月4日訊 11月2日,青島西海岸新區與青島藍色地球大數據科技有限公司在香格裡拉大酒店籤署藍色地球大數據項目合作協議。