大數據的「4V」特徵很有名。但我一直對這個提法感覺莫名其妙:這樣總結的目的是什麼?
人做事都是有目的的,目的往往在事情之外。比如:買鋤頭是為了種地,種地是為了有飯吃,吃飯是為了享受和生活。說話也是這樣,重在話外的潛臺詞。比如:一個人說「今天吃過早飯了」,表達的意思可能是:「沒吃過中飯」、「不再吃了」、「可以開始幹活了」..如果說話沒有目的,只是喃喃自語,是不是會讓人覺得很奇怪啊?
「4V」特徵就是這樣讓人覺得有點莫名其妙。除了數據量大(Volume)這個特徵之外,其他特徵的目的是什麼呢?為什麼這麼表達?為什麼不是其他特徵?比如,為什麼「快速」(Velocity)可以作為特點呢?小數據產生的速度就不快嗎?低價值密度低(Value)則更加莫名其妙:強調低價值密度低的目的是什麼呢?鼓勵人們大膽收集垃圾數據嗎?
「種類多」(Variety)或許是個好的特徵,指的是要處理多媒體、文章等非結構化和半結構化的信息。在我看來,把數據「結構化」,主要是為了便於計算機處理;而「非結構化、半結構化數據」主要是便於人類處理。那麼,如果把這個特徵的內涵表述為:「計算機自動處理人處理的信息」不是更清晰嗎?
4V 的定義有點莫名其妙,卻讓大數據火了一把:人們開始把圖像、音頻記錄下來、把高頻數據記錄下來,進而產生了軟硬體升級的需求。供貨商受益了,但用戶又獲得了什麼價值呢? 我有時會想:4V特徵是不是IT公司提出來、起到促銷的目的?
在我看來,提煉大數據的特徵,應該以創造價值為目的;數據創造價值的途徑,是提升人或機器的感知能力;大數據管理的目的,是讓這條途徑更加順暢、涉及的領域和業務更加廣泛、自動化的程度跟高。這樣,逐步把人類帶入智能社會。
要提高感知能力,數據管理就要為共享數據、感知信息、發現知識服務。隨著技術的進步,要推動從人工處理為主逐步走向計算機自動處理。其中,如果計算機能夠自動學會那些難以通過編碼表述的「默會知識」,機器就可以代替人類從事人類不太喜歡做的事情(如開車、環衛工作),從而把人工智慧推向新時代。
在這個過程中,計算機學習的難點或許不是「學會」,而是「學對」、「學好」。在大數據的背景下,有個更加完整廣泛的案例,我們才有更好的條件判斷什麼是對的、什麼是不對的。這才是一個根本性的變化。而大數據的基礎工作,就是要為這些目的服務的。我總結了以下幾個特點,是我的一點初步想法:
1、完整性。應該記錄儘可能完整的對象和過程,而不像過去那樣,為了節省數據量儘量簡化。這樣,一旦發生了問題,都有據可查,不會因為信息丟失發生誤判、也便於促進自動學習。在高端的工業場景下,完整性的意義特別大。要實現完整性,人類參與所導致的「斷點」就要儘量地減少甚至杜絕。
2、全體性。這就是有些書上說的「樣本=全體」(或者說樣本接近全體)。這個特徵不僅避免抽樣的問題,還會帶來更重要的價值:任何一個個體,都可以在樣本中找到類似的成功案例去模仿。這對機器學習、人工智慧的價值巨大。在我看來,有些人提出所謂的「相關而不是因果」,本質上就是鼓勵去模仿成功的對象,而不必去深入研究「為什麼」。
3、全息性。可以理解為4V中的多樣性,目的是讓機器處理人觀察、處理信息的方式,為機器代替人的一些工作奠定基礎,如無人駕駛。
這些想法的來源,是我研究智能製造的過程。換句話說,我希望大數據是為推動智能製造和人工智慧服務的。