與你分享讀書、跑步以及一些生活原則,歡迎關注。
第31篇,全文約1804字,閱讀時長約4分鐘。
上一篇我們談論了什麼是數據,什麼是大數據,以及大數據的數學基礎和利弊。那麼大數據的作用有哪些?我們又如何正確合理地運用大數據呢?
隨著信息技術軟體和硬體技術的飛速發展,很多圍繞數據收集、整理、分析和處理再應用的工作機構和研究所也在不斷湧現,包括國家層面和省市層面,如國家信息中心大數據應用管理中心、貴州省大數據發展管理局,其他科研形式和性質的就更多如牛毛了。掌握處理和利用數據方法的人也越來越重要,誰善於運用數據,就更有可能成功。
01大數據發揮作用的前提條件
從嚴格意義上來講,大數據是一門技術,它的意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行分析、處理和再利用以創造價值,實現數據的資本增值。
既然是一門技術,大數據發揮作用就有一定的前提條件。首先,只有當一些隨機事件的組合一同出現很多次以後,也就是出現不能是偶發性的,才能得到有意義的統計規律;其次,大數據的採集過程是一個自然的過程,具有普遍規律才有利於消除主觀性偏差;第三,也就是更重要的是,只有多維度的大數據才能讓那些原本看起來沒有聯繫的聯繫不太緊密的實踐反覆出現,才能找到其聯繫和發現新的規律。
02大數據的作用
如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
通俗來講,大數據的核心作用就是帶來價值經濟效益,也即是賺錢。因此,在某些投資者眼裡,數據就是金光閃閃的兩個字:資產。比如,在Facebook上市時,它被評估的有效資產中大部分都是其社交網站上的數據。
搜尋引擎如百度、Google等利用用戶的搜索記錄挖掘數據二次利用價值,比如通過區域用戶搜索關鍵詞預測某地流感爆發的趨勢;購物網站如京東、淘寶等利用用戶的購買和瀏覽歷史數據進行有針對性的商品推薦,以此有效提升銷售量;旅遊軟體如攜程、去哪兒等利用用戶購買產品或者服務的習慣及評價來預測用戶的喜好和購買能力,以精準地推薦線路。
以色列歷史學家、現象級暢銷書作家尤瓦爾·赫拉利推出最新作品《今日簡史:人類命運大議題》,提出人工智慧和生物技術正在顛覆原有的社會結構和分配方式,數據成為21世紀最重要的資產。數據巨頭們現在評估APP和產品的標準已經不是能賺多少錢,而是能收集到多少數據。有些產品哪怕不賺錢,甚至短期內虧損,但只要能獲得數據,就價值連城。所以,不管數據有什麼用,最好先有了再說,因為這可能就是控制和塑造未來生活的關鍵。麥肯錫諮詢公司的報告顯示:在大數據應用綜合價值潛力方面,信息技術、金融保險、政府及批發貿易四大行業潛力最高。具體到行業內每家公司的數據量來看,信息、金融保險、計算機及電子設備、公用事業四類的數據量最大。
03大數據的使用程度
大數據技術的關鍵是數據再利用程度。從大數據的價值鏈條來分析,存在三種不同數據再利用程度的模式:
第一種:有大量數據,但是沒有科學合理的數據利用工具,不能最大化地利用數據增值。比如金融機構,電信行業,政府機構等。
第二種:自身沒有掌握數據,但是懂得數據分析的方法,知道如何幫助有數據的人用好它。比如諮詢和服務企業,比如IBM,Oracle等。
第三種:既有數據收集渠道和方法,又有數據分析工具和大數據思維,能夠科學地利用數據增值。比如百度、Google,Amazon等。
在《人人說謊》中,前谷歌數據科學家賽斯·戴威維茨曾談到,數據應用有一個最大的陷阱,叫 The curse of dimensionality,翻譯過來叫做「維數災難」。
意思是我們搜集到的數據並不代表都是能夠利用的大數據,還要看其被使用程度。比如即便人工智慧機器人擁有了大量數據,它們仍難以準確表達像真正的人的情緒反應。除此之外,還有一些客觀存在的問題也在阻礙大數據的使用:因基礎數據沒有進行大數據結構化處理,導致數據無法進行分類和分析;因數據維度不全,無法進行精準的用戶定位;內部數據與外部數據難以打通等等。
另外,如果把按照數據挖掘提取的利用程度分,大數據分析可以分為「一次挖掘」和「二次挖掘」。「二次挖掘」是在「一次挖掘」的基礎上,進一步引入更多的主觀層面的判斷維度,如具體的經驗、常識、本能、情境知識和用戶偏好等的深入開發。這是一種從「量」到「質」的飛躍,任重而道遠。
部分圖片來自網絡,版權歸原作者所有,如有侵權,聯繫刪除!