文/陳根
相較於傳統的物理世界,新一輪信息技術的發展使一個基於網際網路、人工智慧、大數據、區塊鏈等新興科技而形成的「數字世界」正真實而具體地嵌入我們的社會生活,深刻又廣泛地影響著我們習以為常的現實世界。
但不論是大數據還是人工智慧,都依託算法而存在,我們正在走進的數字世界本質上則是數據驅動的算法應用。當算法充斥於我們的生活,又在細微處改變著我們對信息的接收、對產品的需求以及情緒與狀態時,卻少有人關心算法最終會對我們產生的影響。
事實上,以算法為導向的思維模式,正在迅速地蔓延到自然科學和社會科學的所有領域,並滲透到我們日常生活的各個方面。它將對文化和消費者行為產生巨大影響,而任何人都需要為此做好準備。
算法基礎和算法前提
一般來說,算法是為解決特定問題而對一定數據進行分析、計算和求解的操作程序。算法,最初僅用來分析簡單的、範圍較小的問題,輸入輸出、通用性、可行性、確定性和有窮性等是算法的基本特徵。也就是說,算法是一個過程或一組規則,它可以像食譜一樣簡單,也能夠像機器學習程序代碼一樣複雜。
數學是算法的基礎之一,而且走得相當艱難。以數學演算為形式的傳統算法進化了2000多年,到18世紀才有所飛躍——德國數學家萊布尼茨發明了二進位,還設計出第一臺能做加減乘除的機械計算器。
此後200多年,隨著高斯函數、概率論、圖論、布爾邏輯及更多數學分支的發展,1930年代,二進位電子電路的問世使現代算法呼之欲出。一個叫克勞德·香農的麻省理工研究生試著把二進位和布爾邏輯結合寫進電子電路,之後他發現這種結合能解決數學難題,存儲數據,編輯圖像和文字。
1946年,世界上第一臺計算機「埃尼阿克」在美國問世。它重30噸,能用20秒計算出炮彈的軌道。從此,算法走出古典數學家的演算紙,進入計算機時代。
而數據信息則是算法存在的前提。事實上,算法的本質就是對數據信息的獲取、佔有和處理,在此基礎上產生新的數據和信息。簡言之,算法是對數據信息或獲取的所有知識進行改造和再生產。
由於算法擅長計算、數據處理和自動推理,因此,它們也成為當今數據驅動世界中極具價值的工具。於是,我們所做的一切,從吃飯到睡覺,在被數位化地跟蹤並生成數據後,算法進一步組織這些非結構化數據並將其加工成模型,以此來獲得某種具有預示性的數據結果。
以社交娛樂為例,可以說,社交媒體就由龐然大物般的算法構成。社交媒體根據人們所提供的以及來自其他各種渠道的數據,確定人們的興趣、愛好、口味,然後推送更多人們喜歡的內容。
其中,「基於內容的推薦算法」和「協同過濾算法」應用最廣,也最典型。基於內容的推薦算法在資訊閱讀領域有著基石般的存在。形象地說就是「你多看什麼就給你推薦什麼」。Feed流(信息流)是目前資訊和社交軟體最常用的展示方式,因直觀、簡單、高效等優勢深受歡迎。
早期Feed流以Timeline(時間線)排序,最經典的案例就是朋友圈。這種排序法易於理解且充滿極簡主義。但它的缺點也顯而易見,即呈現出效率低下的不良體驗。
於是,「重力排序算法」得以衍生,兼顧熱度和更新時間的綜合策略。它給內容施加兩種力:「重力」和「拉力」。前者是時間,新內容會把老內容刷下去。後者則代表點擊數、評論、贊等「熱度」,又會把熱點內容推上去。如此往復,用戶將看到一種「既新又熱」的動態平衡。
「協同過濾算法」則主要基於人際關係和興趣關聯的推薦方案。值得一提的是,協同過濾最終不是在資訊而是在電商領域發揮了最大價值。
「尿布—啤酒」的銷售案例就是協同過濾的經典應用。沃爾瑪分析消費者購物行為時發現,男性在買嬰兒尿片時都會順手犒勞自己幾瓶啤酒。於是,兩種看似風馬牛的東西,通過大數據和算法,捆綁銷售實現效益最大化。
算法的開放和狹隘
不斷擴大的算法體系包羅了萬象,興起了數據主義,數據主義(dataism)宣稱「宇宙是由數據流組成的,任何現象或實體的價值取決於它對數據處理的貢獻」。於是,在數據主義的影響下,所有的社會科學都呈現出追求理論上隱藏在我們的社會經濟活動中的算法模式的趨勢,就像所有的自然科學都在試圖解碼自然的有機算法一樣。
在「一切都是算法」的理念下,人們越來越相信算法能夠讓我們得到優化的結果,這進一步增強了數據主義的吸引力。比如,谷歌(Google)和Hopper能夠通過設計的算法跟蹤和預測機票價格來節省用戶的航空旅行費用;Spotify的算法讓用戶享受發現新音樂的樂趣,或者通過定向廣告讓人們發現曾經不知道但非常想要的產品。
甚至,算法和機器學習能被應用在疾病診斷和生物特徵跟蹤中。人工智慧(AI)在疾病診斷方面的應用日益普及,有些地方AI甚至可以提出治療方案和療法建議。 2020年1月一項研究結果顯示,通過X光片子診斷乳癌,算法的表現超過醫生。
時下,算法統治著各個領域,從時尚出版娛樂到金融保險旅行等。隨著技術的發展,很快,算法就將接管其他關鍵領域,如交通、城市規劃、醫療和教育,所有這些都將對我們的整體生活質量產生深遠的影響,而不論其是好是壞。
但問題是,當一切都建立在數據的基礎上時,隨著日常生活中所有領域逐漸被算法接管,無意識但高度智能的算法可能很快就會比我們自己更了解我們,也會誘使我們進入一個算法陷阱:提煉出最大眾的標準,呈現出同質化的經驗,並以此作為對每個人的最佳選擇。
歷史學家赫拉利表達了這方面的擔憂。他指出,大數據比我們最親近的朋友還要了解我們自己。在醫療領域,大數據不僅知道人們過往的病史,還知道人們祖先的病史,家族的基因情況,以及生活習慣等。因此,在健康方面,相比個體本身,大數據更能做出恰當的決定。
在情感生活領域、職場領域等都存在同樣的情況,消費領域自不待言。顧客走到一個貨架前,會拿起哪些商品來查看,比較哪幾個品牌,最終買下哪件商品,大數據都能做出可靠的預測。
這似乎只是傳統消費行為學、社會學的延伸。然而,法蘭克福學派卻更早就對商業社會的媒介霸權做出了警告和批判,馬爾庫塞認為,傳播媒介中的廣告等信息給人們製造出一些虛假的需要,人們並不去思考自己究竟需要什麼,而是被媒介信息所操控,沉迷於它們所宣揚的物質世界。
於是,個體不再了解自己真正的需要,而是被給予需要,人們的決定並不真正由自己做出。每一個登錄亞馬遜網站的用戶都會看到一個定製的主頁,上面滿是亞馬遜算法根據你的購買歷史精心挑選的產品。算法在產品發現方面已經佔據了主導地位,但現在它們開始通過自動購物進一步侵蝕消費者的自由意志。
最終,數據主義和算法決策的傳播所產生的影響明顯地體現出來:它開始剝奪人們的能動性,剝奪了人們做出自由意志選擇的機會。
在線搜索中,Google根據人們輸入結果的相關性提供按其算法排名的超連結頁面,然後通過瀏覽連結,從中了解更多信息。而隨著智能揚聲器和語音助理的推廣,越來越多的搜索開始通過語音進行。與自然對話的情況一樣,語音搜索通常一次只返回一個答案,即算法認為最匹配的結果,因此極大地限制了搜索結果。於是,人們對算法及其對數據的解釋越信任,人們就越不可能質疑其作出的決定。
顯然,算法的應用使得人們更加自願和主動地讓渡自己的自由意志,同時也使得原初意義上的自由意志的決斷過程和結果被輕易地暴露出來並更容易地被影響。此外,社會系統將適應算法的存在,廣泛依賴算法來決定集體和個體事務。而社會系統的總體改變又將深刻地改變個體的生存方式,進而再一次改變自由意志的內涵。
但無論如何,當算法賦予一枚硬幣開放和狹隘兩面的同時,我們也需要有更多思考。不要認為眼前的一切都理所當然,不要習以為常,不要喪失對於正確判斷的敏銳度,這才是算法時代下的進路。