大數據的「4V」特徵合適嗎?

2021-02-25 蟈蟈創新隨筆

大數據的「4V」特徵很有名。但我一直對這個提法感覺莫名其妙:這樣總結的目的是什麼?

 

人做事都是有目的的,目的往往在事情之外。比如:買鋤頭是為了種地,種地是為了有飯吃,吃飯是為了享受和生活。說話也是這樣,重在話外的潛臺詞。比如:一個人說「今天吃過早飯了」,表達的意思可能是:「沒吃過中飯」、「不再吃了」、「可以開始幹活了」..如果說話沒有目的,只是喃喃自語,是不是會讓人覺得很奇怪啊? 

 

「4V」特徵就是這樣讓人覺得有點莫名其妙。除了數據量大(Volume)這個特徵之外,其他特徵的目的是什麼呢?為什麼這麼表達?為什麼不是其他特徵?比如,為什麼「快速」(Velocity)可以作為特點呢?小數據產生的速度就不快嗎?低價值密度低(Value)則更加莫名其妙:強調低價值密度低的目的是什麼呢?鼓勵人們大膽收集垃圾數據嗎?

 

「種類多」(Variety)或許是個好的特徵,指的是要處理多媒體、文章等非結構化和半結構化的信息。在我看來,把數據「結構化」,主要是為了便於計算機處理;而「非結構化、半結構化數據」主要是便於人類處理。那麼,如果把這個特徵的內涵表述為:「計算機自動處理人處理的信息」不是更清晰嗎?

 

4V 的定義有點莫名其妙,卻讓大數據火了一把:人們開始把圖像、音頻記錄下來、把高頻數據記錄下來,進而產生了軟硬體升級的需求。供貨商受益了,但用戶又獲得了什麼價值呢? 我有時會想:4V特徵是不是IT公司提出來、起到促銷的目的?

 

在我看來,提煉大數據的特徵,應該以創造價值為目的;數據創造價值的途徑,是提升人或機器的感知能力;大數據管理的目的,是讓這條途徑更加順暢、涉及的領域和業務更加廣泛、自動化的程度跟高。這樣,逐步把人類帶入智能社會。

 

要提高感知能力,數據管理就要為共享數據、感知信息、發現知識服務。隨著技術的進步,要推動從人工處理為主逐步走向計算機自動處理。其中,如果計算機能夠自動學會那些難以通過編碼表述的「默會知識」,機器就可以代替人類從事人類不太喜歡做的事情(如開車、環衛工作),從而把人工智慧推向新時代。

 

在這個過程中,計算機學習的難點或許不是「學會」,而是「學對」、「學好」。在大數據的背景下,有個更加完整廣泛的案例,我們才有更好的條件判斷什麼是對的、什麼是不對的。這才是一個根本性的變化。而大數據的基礎工作,就是要為這些目的服務的。我總結了以下幾個特點,是我的一點初步想法:

 

1、完整性。應該記錄儘可能完整的對象和過程,而不像過去那樣,為了節省數據量儘量簡化。這樣,一旦發生了問題,都有據可查,不會因為信息丟失發生誤判、也便於促進自動學習。在高端的工業場景下,完整性的意義特別大。要實現完整性,人類參與所導致的「斷點」就要儘量地減少甚至杜絕。

 

2、全體性。這就是有些書上說的「樣本=全體」(或者說樣本接近全體)。這個特徵不僅避免抽樣的問題,還會帶來更重要的價值:任何一個個體,都可以在樣本中找到類似的成功案例去模仿。這對機器學習、人工智慧的價值巨大。在我看來,有些人提出所謂的「相關而不是因果」,本質上就是鼓勵去模仿成功的對象,而不必去深入研究「為什麼」。

 

3、全息性。可以理解為4V中的多樣性,目的是讓機器處理人觀察、處理信息的方式,為機器代替人的一些工作奠定基礎,如無人駕駛。

 

這些想法的來源,是我研究智能製造的過程。換句話說,我希望大數據是為推動智能製造和人工智慧服務的。

 

相關焦點

  • 大數據及大數據的4V特徵
    大數據是一個寬泛的概念,每個人的見解都不一樣。在綜合各家觀點的基礎上,給出了本書的定義:「大數據」是在體量和類別特別大的雜亂數據集中,深度挖掘分析取得有價值信息的能力。大數據不僅僅在於數量的大,「大」只不過是信息技術不斷發展所產生的海量數據的表象而已。
  • 大數據4V特徵存6大挑戰
  • 易傳媒亮相網際網路大會,談大數據4V特徵對企業的價值
    易傳媒副總裁高照應邀出席此界盛會,並於27日上午在中國大數據論應用論壇中發表題為「暢談數據如何指導企業戰略」的主題演講,為現場與會嘉賓深刻剖析大數據4V特徵以及大數據為企業帶來怎樣的獨特價值。高照在主題演講時表示,大數據對品牌建設有實際意義,通過大數據的積累、運算、分析得到對目標人群的洞察,可以將沉睡的散落的動態的數據直接轉化為價值,更好的指導了後續的廣告投放及數據應用。
  • PP-YOLO超越YOLOv4-目標檢測的進步
    YOLO Backbone:YOLO Backbone(骨幹)是一個卷積神經網絡,它將圖像像素合併在一起以形成不同粒度的特徵。骨幹通常在分類數據集(通常為ImageNet)上進行預訓練。在網絡的給定步驟中,DropBlock會隨機刪除一部分訓練特徵,以指示模型不依賴於關鍵特徵進行檢測。IOU損失YOLO損失函數不能很好地轉換為mAP指標,該指標在計算中大量使用了Union上的Intersection。因此,在考慮到最終預測的情況下編輯訓練損失函數是很有用的。這個編輯也出現在YOLOv4中。
  • 三種用Python從圖像數據中提取特徵的技術
    全文共4073字,預計學習時長8分鐘你之前是否使用過圖像數據?也許你想建立自己的物體檢測模型,或者僅僅是想統計走進某棟建築物的人數,使用計算機視覺技術處理圖像擁有無窮無盡的可能性。但數據科學家最近有這樣一種研究趨勢,他們堅信,在處理非結構化數據(尤其是圖像數據)時,深度學習模型是不斷向前發展的。
  • 面相:你身邊有長虎牙的人嗎,來看看他們的特徵吧!
    >
  • 大v埋線後戴提升繃帶嗎大v線提升效果好嗎
    大v埋線後戴提升繃帶嗎大v線提升效果好嗎~大v線提升是眾多醫美地點特~別受歡迎的項目,也是多數愛美朋友的首選,大V線可以很好的改善面部下垂的皮膚,讓臉上的狀態看起來更加年輕。大v埋線後是要戴繃帶的,那麼大v線提升面部好嗎?
  • 大數據如何賦能產品-用戶特徵分析
    編輯導語:大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合,從目前大數據發展的趨勢來看,它不僅會成為一個蓬勃發展的行業,在其他行業的應用也有非常廣闊的空間。本文作者就提出了用大數據賦能產品的想法,從而更好的進行用戶特徵分析。
  • 客廳開間什麼意思 客廳開間多少合適 客廳開間4米5大嗎
    下面就和小編一起來文中具體了解一下,順便來說說客廳開間多少合適以及客廳開間4米5大嗎,感興趣的朋友一起來看看吧。一、客廳開間什麼意思1、客廳開間什麼意思?在住宅設計中,住宅的開間是指相鄰兩個橫向定位牆體間的距離。
  • 異常行為數據集-疲勞駕駛數據集-行為分析數據集
    詳細的說明見下方正文「這個數據集不太好,但是還不至於不可用」。基於正文中對這個數據集的分析,我對在此數據集上使用其標記數據進行訓練的模型性能表示強烈的懷疑。然而,當前好用的異常行為數據集非常稀少(如 UCSD Ped x, Subway xxx,Abnormal crowd),並且這個真實監控視頻數據集的視頻總時長非常多(收集異常行為的難度非常大!)
  • New Balance Fresh Foam Boracay v2數據之王跑鞋評測
    這款New Balance Banacay v2則很明顯是符合這樣的特點,它的中底採集了更多跑者的緩震數據特點綜合而成,對於匆匆加入跑步陣營的都市跑者比較合適,通過採集跑者雙足在跑動過程中, 從落地到轉換重心再到蹬地這整個過程來推出受壓程度等人體工學數據。
  • 電力百科|什麼是電力大數據?電力大數據從哪兒來?
    隨著智能電網和信息化建設,電力行業積累了海量數據,這些數據在數據量、多樣性、速度和價值方面具有大數據的特徵。電力行業已進入大數據時代。電力大數據是通過傳感器、智能設備、視頻監控設備、音頻通信設備、移動終端等各種數據採集渠道,收集到的海量結構化、半結構化、非結構化的業務數據集合。
  • 大數據揭示易患肺病人群特徵 疾病與先天稟賦密切相關
    日前,專家通過大數據研究發現,肺病易患人群其實具備較為典型的先天特徵。了解自己的先天稟賦,結合時令採取對應的養生方式,一定程度上可以達到「治未病」的目標。「時空基因」承載先天稟賦近期由中國中醫藥出版社出版的《疾病早知道:解讀時空基因密碼(續集)》中,作者陸致極先生提出了「時空基因」概念,並對相關病例的先天稟賦進行量化研究。
  • 從數據結構到算法:圖網絡方法初探
    網絡表示學習、圖嵌入的定義俗話說「巧婦難為無米之炊」,再強大的機器學習算法也需要數據進行支持。在同樣的數據集和任務上,由於特徵的不同,同一個算法的結果也可能會有天壤之別。由於特徵的選擇對結果的決定性作用,很多數據挖掘方面的研究工作把重心放到了針對特定的數據由人工設計出有價值的特徵上。
  • 大數據掃盲——什麼是大數據
    但誰有知道大數據是人工智慧的基礎。大數據堪稱新石油,各國都將大數據作為國家戰略資源。八國集團發布了《G8開放數據憲章》,提出要加快推動數據開放和利用。歐盟力推《數據價值鏈戰略計劃》,用大數據改造傳統治理模式,降低公共部門成本,並促進經濟增長和就業增長。
  • 大數據專家:大數據7大最奇特應用 | 網際網路數據資訊網-199IT |...
    (本文最初發表在LinkedIn)在客戶體驗與庫存管理流程方面,大數據通常會發揮重要作用。近來,我盤點了7個最有趣、最獨特的大數據應用,以及它們可能對我們的生活產生的影響。1.大數據廣告牌戶外營銷公司Route正使用大數據在廣告牌、長椅以及公交車兩側的廣告空間上設定定價模式。
  • 裝修行業如何利用運營商大數據尋找客戶
    你可以試著利用大數據 公眾號:大海啊好多水 大數據大數據營銷的全過程分為數據的收集和解決、模型分析數據、講義數據三大方面。
  • 家族性高膽固醇4大特徵
    除了數據,還要加上危險因素危險因素包括抽菸、高血壓、高密度脂蛋白膽固醇偏低、早發性心臟病家族史、年齡(男性≧45歲,女性≧55歲),有高血脂又合併這些危險因素,患冠狀動脈血管疾病的機率就大增。4大特徵要知道臨床特徵為年輕時膽固醇濃度就很高、有心臟疾病家族史,有些病人會長出肌腱黃色瘤、眼瞼黃斑瘤等。瘦子膽固醇高2原因人體內膽固醇來源分為2種,外源性膽固醇從飲食而來,只存在於動物性食物;內源性膽固醇則是體內細胞合成的膽固醇。
  • 緊追大數據擴張腳步 浪潮助力銀行建設大數據平臺
    藉助大數據,銀行業的信貸、投資、理財、風控等發展將呈現出全新的藍圖,而大數據的背後如何構建大容量的數據存儲環境以應對數據洪流的衝擊成為金融企業面臨的關鍵抉擇。某銀行正在與浪潮合作,基於浪潮存儲伺服器NF5266M5搭建其大數據應用平臺,在解決大容量存儲方面問題的同時,讓數據中心建設空間得到高效利用,找到了性能和成本最優解。
  • 線雕和大v有什麼區別?大v線雕多久消腫?不清楚的趕緊康康
    線雕和大v有什麼區別?大v線雕多久消腫?線雕是面部提升的一種方法,因為它的創傷比較小,恢復較快,受到了很多人的追捧。> ---線雕和大v有什麼區別--- 其實大V線就是線雕,而線雕又分為大V線和小v線,大v線與小v線的區別的主要是線材形狀設計不太一樣。