文|吳殿義 龍思薇 周豔
前言
將數位化列入近百年來最重要的關鍵詞之一,應無疑義。數位化的內涵不斷深化,範圍無限延展,形成現在蓬勃旺盛的數位化生態,將眾生裹挾其中。這中間,傳統的媒體與調研機構難免被波及,需在新環境中奮力探索存續之道。對眾生而言,數位化生存絕非一時的命題,也無固定答案,在無遠弗屆的數位化時代,常變常新才可長存。
本文為本期封面主題文章的第一篇,通過對大數據發展階段的回溯,幫助我們更加深刻地理解大數據的內涵、所涉及的技術、與新媒體的關聯。
今日內容:
大數據發展的四個階段
大數據發展中的三點思考
大數據從何而來?與新媒體的發展有什麼關係?為什麼今天的大數據在新媒體乃至於更寬廣的應用場景中表現出很高的價值?
如果依據對大數據的定義——大數據是指超出了過去處理能力的大量的數據和與此相適配的技術體系,那麼我們就應該有所思考。大數據能夠發揮價值是因為處理技術的同步演進,但數據並非憑空而來,技術的進化也非一日之功。
今天大數據已經成為一門跨學科的綜合性研究領域:能夠處理數值、文本、圖片、音頻、視頻等多種類型的數據,能夠應對大量數據的處理需求,能夠進行全局的描繪和適當的預測,並能夠解決多個場景的問題。這其中牽涉到包括統計學、網絡科學、分布式、資料庫、數據挖掘、自然語言處理、計算機圖形學等多種技術,經歷了漫長的發展歷程。
當下對大數據的研究多聚焦於大數據概念提出以後,從2008年開始,並提出大數據的若干價值。筆者認為,應該往回追溯,看到大數據早在2008年以前就已經存在,與其相關的技術亦在多個路線的推動下,不斷積累、形成體系,2008年以後進入到了較為高速的成長期。通過這樣的回溯,我們對於大數據的內涵、所涉及的技術、與新媒體的關聯會有更加深刻的理解。
大數據發展的4個階段
大數據的發展與現代信息技術的演進息息相關,不妨將大數據的發展分為儲備期、萌芽期、概念期和發展期4個階段。
儲備期:1950—1980
從大型機、資料庫開始,解決商業、科學、軍事、民調等領域大量數據的管理和計算問題
大數據的發生、發展,有必要追溯到大型機和資料庫的早期階段。之所以如此,乃是因為大數據指向數據以及相應的處理系統,總歸無法脫離計算所需的硬體和軟體。今天相當比例的數據採集、管理、挖掘的體系、思路,都要往回探尋到網際網路發生以前、計算機誕生的早期。
計算機技術起源後,在政府、銀行等需要大量算力、應對大量數據處理的機構的推動下,硬體技術、數據管理技術、數據挖掘和分析等的技術都逐漸得到發展,很多技術——包括關係型資料庫、經典數據挖掘算法、自然語言處理算法等被提出和探討,為今後的發展奠定了堅實的基礎,並在當下的大數據應用場景中依然默默存在並發揮著作用。
在這一階段,以IBM為代表的大型計算機提供商和以Oracle等為代表的大型關係型資料庫提供方,為市場需求提供解決方案。同時,雖然媒體格局尚未受到網際網路的衝擊,但媒體、企業運行中的數據需求(收視分析、市場調研等)已經存在。以Nielsen為代表的研究機構在抽樣理論基礎上進行數據收集和分析,並提供服務。當然,隨著數據量的增加和計算的複雜化,在計算機發展起來後,Nielsen也較早就購買了IBM的大型計算機來提高效率。
萌芽期:1980—2007
從網際網路誕生、小型機普及,到2007年穀歌論文的發表,網際網路飛速發展下的大數據
個人計算機的成熟、推廣,以及網際網路的確立並推向民用,可以說實際上啟動了大數據時代。與前一階段的大量數據來自政府、金融、科學等機構不同,此時大量的數據來自更加廣泛的普通用戶。
面向個人用戶的計算機設備成熟、且網絡已經形成了標準,確保了人與人之間、個人電腦與伺服器之間的通訊規則,這就構築了堅實的網絡基礎。人們通過網絡、使用計算機彼此聯結,創造力也不斷被激發,網站、網頁的數量膨脹發展,線上行為也不斷被以數據的形式記錄下來。
這一階段尤為有代表性的、新媒體領域的大數據機構當屬搜尋引擎平臺和電商平臺。谷歌、百度等搜尋引擎巨頭一方面通過爬蟲等技術大量積累網際網路的網頁,另一方面,為了滿足人們的檢索需求,持續推動著包括分布式計算、自然語言處理技術等的發展。而以亞馬遜為代表的電商平臺同樣在積極推動著推薦算法等的進步。同時,這些早期的網際網路平臺也進行了精準營銷的技術、產品方面的探索。
概念期:2008—2018
正式提出概念到4G普及,移動網際網路全球擴張下的大數據概念,AI再現生命力,雲計算快速前進
這一時期,大數據概念一經提出,響應者眾,大數據成為資本熱逐、學者競相研討的概念。同時,移動網際網路的發展為大數據更增添助力,包括蘋果、安卓終端的推出引爆智慧型手機市場,3G、4G的成熟和大規模民用使得移動業務蓬勃發展,也因此數據量、數據類型、數據涵蓋的範圍都空前豐富,且大數據與多種應用場景的結合的想像空間一一鋪展開來,在資本和各方力量推動之下開始落地。具體到新媒體領域,程序化投放是其中一例,而以字節跳動為代表的個性化資訊平臺的崛起,又是另外一例。
精細耕作期:2019至今
大數據背景下的數位化重提,融媒體、營銷技術等基於數據的應用進入縱深發展
在上一階段可以發現,大數據發展的主要推動力應該是大型的平臺。他們實際上較早地意識到了大數據的存在和價值,也較早地積累下來了大量數據和相關技術,於是可以匯聚海量數據,以精準的內容和廣告實現對用戶和客戶的吸納,事實上也形成了與大量中小型媒體、各類企業、營銷機構的博弈關係。
經過大數據概念的熱炒,以及眾多2C應用的考驗和洗禮,無論是媒體或者是企業,都逐漸認識到了自己應用數據來完成、優化業務的重要性。大數據背景下的數位化轉型、2B服務、產業網際網路等概念融為一體,無論是智能融媒體或者是企業中臺,都可以視為在這種理解之下,對大數據概念的一種重新框定。
數據為我所有、為我所用,進入到了基於大數據和產業需求場景的精耕細作階段。當然從實際運作上,也不得不承認當下仍然存在著較多的雜音,不乏貪功冒進、追捧概念者。
大數據發展中的3點思考
1
技術、需求、數據相互推動
新的技術,尤其是底層的晶片、傳輸等技術的發展,推動著終端和網絡的演進。當便捷的終端和網絡可以以較低成本獲得時,人們的需求被激發出來,那麼新媒體應用的增長和進化也就會進入到加速周期。隨之而來的是人們在線行為的複雜化、內容生產權力的日益下放,以及營銷的難度逐漸增加。
同時發生的是數據量的累積。當新媒體應用數量和質量都逐漸提升,吸引越來越多的網民、長時間、多形式的使用與互動,所留存的數據自然也會呈現出快速增長的態勢。而這些數據又為理解用戶、解決新媒體的運營問題提供了條件和可能性,包括基於大數據的精準廣告、推薦系統、內容優化等逐漸被應用在新媒體運營的方方面面。
從反向來看,當終端、網絡的演進激發了用戶的需求,用戶對更加優質、便捷體驗的需求又會催生出種種市場商業機會,進一步倒逼技術的快速升級。同時,大量數據既然產生且亟待被使用,那麼其存儲、處理面臨著的新的技術問題,也會進一步倒逼著包括晶片、傳輸等體系的升級,包括GPU、雲計算等在近年來的快速發展,可以說在一定程度上正是受到了大數據的刺激和推動。
技術、數據與需求相互推進
2
技術與技術相互融合
數據、大數據,在今天的社會運行中已經不是什麼新鮮術語了,但在廣泛的使用背後,究竟指向了什麼?「數據」的內涵是不斷豐富的過程,也是數據行業、信息技術行業、傳統行業互相進入的過程,在這一過程中,不斷為數據的技術添磚加瓦,構成了一個複雜的、立體的「技術」類型。理解這一過程,才能讓我們擺脫泛泛而談,真正看清楚「數據技術」。
「大數據」,或者說「海量數據」一詞,在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已久,網際網路和信息行業的發展將「大數據」推到了臺前,越來越多的企業與個人投入到海量數據的挖掘和利用中。
與之相對的,是市場研究公司等傳統數據機構,作為小數據(抽樣調查)時代的數據資源核心佔有者,在大數據的浪潮中與信息技術行業有機結合,正在不斷升級自身的數據業務體系。
傳統行業在網際網路和信息行業的裹挾中對自身業務數據的應用也有了更迫切與龐大的需求,這種需求驅動著信息行業與數據行業不斷進入到新場景中,幫助傳統行業搭建大數據應用架構,整合與打通數據,服務於企業(以及政府)的業務與運營。
圍繞數據的技術與產業融合
數據資源的流通、數據處理科學與技術的發展、軟硬體資源的積累、行業需求帶動下的商業蓬勃興起,讓我們逐漸看到一張數據的互動全景圖。在這張全景圖的底層正是「數據」和「數據技術」。
構成傳統調研機構生存基石的統計科學(抽樣理論等)、催生了現代信息網絡的信息科學(熵模型等)、遍布日常生活的計算機科學(資料庫等),隨著整個信息行業、數據行業、傳統行業的發展,已經在實踐中融合起來,形成了一個無所不包的「數據技術」的門類,同時又化身萬千,蘊含在媒體運行的各個角落。
3
大數據與新媒體同源並進
首先,「新媒體」「大數據」都是邊界並不清晰的概念,在演進中常變常新。新的媒體永遠都在產生,數據的體量其實從整個媒體發展的過程中都在持續增加、變大。今天我們默認的「新媒體」「大數據」,都是在計算機技術、移動通信技術等推動下所產生的,奠基於新終端、新網絡的概念,可以說具有共同的基礎。
其次,新媒體催生了大數據。雖然大數據的概念被提出於2008年,但實際上,如果立足於網際網路、新媒體的發展,那麼早在搜尋引擎誕生之時,就已經可以窺見大數據的蹤跡。
以谷歌、百度為代表的搜尋引擎,其基礎技術是抓取全網的網頁,進行解析,為用戶提供快速檢索服務,搜尋引擎所抓取、處理的網頁數量,已經足以稱之為大量數據。用戶時刻的檢索行為,也在貢獻著大量的數據。
而門戶網站24小時不間斷提供的新聞、圖片等資訊服務,以及用戶隨時的點擊瀏覽行為,同樣也可窺見大數據的一絲端倪。隨著移動網際網路的發展、智能終端的普及,人們開始貢獻更多自主的言論、圖片、視頻,去中心化的生產和傳播則為數據量的增加貢獻了空前的力量。
第三,大數據逐漸成為新媒體運營中的重要力量。當新媒體發展到了移動網際網路階段,人們在多個終端之間跳轉、在多個應用之間切換,隨時生成不同類型的內容、發表各種觀點,其中蘊含的挑戰是顯而易見的。
用戶不再停留在單點,成為移動的目標,如何捕捉用戶注意力,持續獲得用戶關注呢?單純依靠編輯的力量,很難滿足用戶個性化需求。用戶貢獻的內容如此海量,如何給予恰當的管理和審核呢?以人力進行內容的審核,成本和效果都不盡如人意。
如何找到準確的消費群體,以恰當的營銷傳播形式實現目標呢?雖然我們不能否認頭部媒體資源的價值,但在無限的流量中捕捉、滿足用戶瞬間的需求,也依賴於技術的支持。
而所有的用戶行為、用戶創造、用戶場景又都在逐漸轉化為數據——雖然是互不打通、格式不齊的數據,進入到了各種資料庫中,這就為以上的問題提供了部分答案:基於大數據的、相對智能化和自動化的內容運營、用戶運營、廣告運營,部分解放人力,為人(包括產品經理、運營經理、新媒體編輯、營銷傳播人員等)的操作提供有效的輔助。
本期《數位化眾生》主題文章預告
已推送
歡迎訂閱!
編輯:田會芝