隨著網絡和通信科技的高速發展,移動網際網路已經完全滲入人們的生活,手機作為移動網際網路的載體為人們帶來日益豐富的服務,越來越多的人成為了名副其實的手機黨。
全世界共有34億人在使用手機,貧窮和發展中地區使用手機的人群也越來越龐大。手機及移動網際網路的普及推動了爆炸性的數據增長。據分析,2019年全球每天收發2936億封電子郵件,僅Facebook,每天就產生了4PB的數據,包含100億條消息,以及3.5億張照片和1億小時的視頻瀏覽。
海量的手機數據捕捉了豐富的信息。不管是通信事件的頻率和時間,還是個人複雜的社交網絡結構、喜好以及消費支出歷史,都被編碼成一串串0和1組成的數字,存儲在世界上某個角落的巨大機器裡。
儲存數據的巨大機器價格不菲,運營成本也十分昂貴,那麼這海量的手機數據有什麼具體用途呢?
在商業,大數據分析給企業帶來了深刻的洞察,指導企業的決策。通過分析手機上個人的歷史購買和搜索記錄,可以分析顧客的個人喜好,從而刻畫用戶畫像,進行個性化的產品推薦;通過分析手機上個人的社交網絡,可以看出顧客的交際偏好領域和交際影響大小,判斷顧客的終身價值;通過對個人地理信息的分析,還可以看出地域性的偏好和差異,進行因地制宜的商業活動。
在政界,通過分析廣大群眾手機上社交媒體的言論, 同樣能幫助預測總統競選……
2015年發表在《Science》雜誌上的一篇文章表明,通過對移動手機通話記錄進行分析,可以準確地推斷出一個人的社會經濟地位,進而預測國家整體的財富分布狀況。
Joshua Blumenstock、Gabriel Cadamuro等研究者對盧安達最大的行動電話網絡記錄數據進行分析,隨機抽取了856個手機使用者,進行了問卷調查收集數據,問卷不包含用戶的個人信息,但包含了資產所有權、住房特徵和其他一些基本福利的指標。
在獲得被調查者的同意後,研究者將問卷調查結果與手機交易資料庫合併,最終從每個被調查者身上得到了75個問卷問題回答和數千個基於電話的互動的歷史記錄,如電話和簡訊,研究者希望能從此推測個人的貧富水平,進而推測出盧安達整個國家的財富分布。
研究者將問卷中所有關於財富的問題進行主成分分析,選取第一主成分作為一個單一的財富指數,成為個人貧富的評估指標。
研究者首先從每個人的行動電話交易記錄中自動組合轉換出幾千個定量指標,包含了通信總量、強度、時間和方向性等方面的信息,然後刪除其中不能預測財富的指標,從而獲得更容易推廣、更加簡單的模型,完成特徵的選擇。
之後,通過交叉驗證對各種監督學習模型進行比較,獲得預測準確度高的模型,並且避免了由於數據過擬合導致樣本外預測效果差的情況。
通過手機通話數據預測出的貧富情況是精確到個人的,因而沒有其他可用的數據對個體的預測進行驗證,於是研究者將預測的個體數據匯總到地區級。
他們發現根據移動用戶的通話記錄預測的財富分布(圖1A)與盧安達政府收集的官網數據衡量的財富分布(圖1B)相關性很高,兩張圖片很相似。
同時,國家不同地區間手機的使用模式相似,通過856個樣本個體對樣本外其他手機持有者貧富情況進行預測,最後能較好地反映國家整體財富分布情況。
財富預測與政府調查數據的比較。(A) 預測綜合財富指數(地區平均值),根據 2009 年的徵集數據計算,並按行政區匯總。(B) 實際綜合財富指數(地區平均值),根據 2010 年 12792 個家庭的政府人口與健康調查(DHS)計算得出。
傳統普查以全體人員為調查對象,準確性高,但成本高、工作量大、組織複雜且調查內容有限,一個典型的全國性家庭調查花費超過 100 萬美元,需要 12 到 18 個月才能完成, 因而通過普查獲得的國家層面經濟人口的數據常常不完整且滯後。
比如在非洲,經濟生產的國家統計數據 50%都缺失,私營部門和公共部門等可以使用的小區域數據幾乎不存在。又例如在安哥拉,2014 年之前的最近一次人口普查是在 1970 年進行的,然而在這 44 年期間,官方人口增長了 400%以上,兩次國家調查間長時間的間隔導致了數據的滯後。
關於一個國家人口經濟特徵可靠的定量數據對於健全的經濟政策和研究至關重要,因而通過行動電話數據來衡量人口特徵將成為一種成本效益高的選擇,具有重要的實踐意義:
1. 相比典型的全國性家庭調查,上述研究的電話調查只花費了 12000 美元,並且花費了 4 周的時間來管理,成本更低,周期更短。2. 對於國家整體情況的預測準確性較高,有利於及時收集本土的信息,便於國家政策的及時調整。3. 與手機數據中豐富的地理空間標記相結合後,數百萬個人用戶的預測屬性使我們能夠以極其精細的空間粒度來研究財富的地理分布,相比傳統普查數據更加精細化。4. 對於一些資源欠缺,無法經常開展普查的地區,此方法具有開創性的意義。研究人員還發現,通過這種移動手機數據調查方法不光可以預測地區的平均財富,還可以進一步推廣,預測很多其他方面的宏觀指標。
比如,可以根據手機通話記錄來估計地區電氣化率,並且衛星對0.55平方公裡網格單元內夜間光照強度的估計值與從問卷中「您的家庭是否有電」這個問題得出的數據相關性很高。
因而,這種移動手機數據分析方法具有廣泛的前景,很有可能幫助預測國家各種宏觀微觀指標,成為一種低成本的臨時國家統計數據來源。
隨著網際網路、傳感器,以及各種數位化終端設備的普及,一個萬物互聯的世界正在成型。在未來時代,大數據毫無疑問將徹底改變我們的生活,我們將越來越依賴電子設備,在網際網路上以數據的形式留下我們的足跡,企業和政府通過收集這些數據來獲取我們豐富的信息,包括我們的興趣和行為習慣,甚至可以通過先進的模型從已有的信息推測出新的信息,或者預測我們未來的信息。
去年,來自美國羅徹斯特大學的Adam Sadilek和來自微軟實驗室的工程師John Krumm就稱他們可以大致預測一個人未來可能到達的位置,最多可以預測到80周後,其準確度高達80%。
誠然,大數據給我們帶來了無限的時代紅利,比如上述學者通過移動手機數據的分析可以幫助偏遠和交通不便地區進行人口監測、實時評估政策或者將資源定向給最需要的人。
但隨著我們信息的逐漸透明化,讓我們不禁焦慮,在未來時代我們真的還有隱私可言嗎?企業和運營商是否能遵循基本的營業道德,尊重個人用戶的隱私呢?政府應當如何加強對於數據隱私的監管,保護用戶的隱私呢?應當如何防止數據大亨的崛起與壟斷呢?這或許都將成為未來大數據時代值得深思的問題。
一個安全有保障的大數據時代需要各方的共同努力,大數據時代並不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法完全替代。
Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073-1076.
文章作者:羅豔琪
文字編輯:蘇 藝
微信編輯:蘇 藝
優薈寶福利第二彈來襲~
優薈寶福利第二彈,參與即有機會獲得30元現金紅包!
截至2021年2月6日24:00,參與人數不足100人時,獲得助力最多的50%的參與者可以獲得30元現金紅包;參與人數達到或超過100人時,獲得助力最多的50位參與者可以獲得30元現金紅包。
掃描下方二維碼進入小程序參與活動吧!
*具體活動規則以小程序內規則頁介紹為準。