聲明:本文來自於微信公眾號 大數據文摘(ID:BigDataDigest),作者: 文摘菌,授權站長之家轉載發布。
在某個特定時間,我們都會想,如果能回到過去,當時不那麼做,會不會是不一樣的結局。
「將『穿越時空』變為一道謎,變成故事裡最浪漫的一件事」,這是最近大火的臺劇《想見你》的預告海報中編劇之一林欣慧所寫的話。在這個看似簡單的穿越故事裡,男女主人公分別穿越到未來和過去,試圖改變命運,但是在時空交錯之中能改變的有多少呢?
處在 2019 年和 2020 年的交叉口, 10 年代的結束似乎正是緬懷過去的最好時機。如果有能力回到過去,你最想改變的是什麼?
這是穿越到未來的人人網想知道的問題。
是的,你沒有聽錯,就是中國最老牌的社交平臺之一的人人網,在踏入Fintech、區塊鏈、直播、二手車等領域的 1400 多個日日夜夜後,在 2019 年最後一天,人人網宣布重新回歸社交,「人人」APP 1.1. 0 版也登陸各個應用市場,以「記錄我的青春」為主題,正式開始公測。
00 後們可能都沒聽過人人網,但對於文摘菌一樣的80、 90 後們而言,這可是滿滿的青春回憶!人人網曾是中國規模最大的實名社交網絡,在2005- 2015 近 10 年的時間裡引領校園社交市場,在校園社交佔據著絕對優勢。 2010 年底,人人網的註冊用戶超過1. 7 億,活躍用戶超過 1 億,到了 2012 年,人人網更是佔據大學生市場75%的份額。截至 2017 年 9 月 30 日,人人網擁有2. 54 億激活用戶。
經歷了後續的起起伏伏之後, 2018 年底,人人網被多牛傳媒正式併購。據官方數據顯示,至今為止,人人平臺保存有超過 70 億張用戶上傳的照片,百億級的狀態信息,而這些信息,不就是幫助我們回到過去的那盒伍佰老師的磁帶嗎(在劇中男女主角正是通過這首歌實現穿越的)?
十年前,「大數據」的概念還沒有真正出現,而人人網上累積的數據事實上早已達到了大數據量級。在大數據和機器學習等新技術趨於成熟的今天,如何讓這些PB級的數據重新煥發生機,就成了人人網研發團隊首先要面對的問題。
同時,人人網還必須面對如今競爭激烈的社交軟體市場。回想 2019 年初,扎堆出現了馬桶MT、多閃、聊天寶等社交軟體,其中聊天寶和多閃在上線當天還登上了App Store免費榜第一。
「內憂外患」之下,如何才能盤活人人網的生態?用今天的技術讓曾經的數據煥發生機?
這就像是「復活」一個已經「死掉」的項目,多牛傳媒COO魯葳告訴大數據文摘,或許過程會很艱難,但未來回想起來應該還是挺有意思的。
重啟塵封十年的代碼,新老數據如何結合?
面對近十年累積下來的用戶數據,多牛傳媒研發中心副總經理曹興宇坦言道,初次看到數據時感覺非常「頭疼」。針對未來將如何利用老數據,他說道,新老數據不會完全結合,會進行相應更新。
但隨著對數據的深入認識,研發人員才發現,數據本身尚未構成太大問題,數據的存儲、在中間層和應用層的訪問等,都遠比預料的要輕鬆很多,真正讓人感到頭禿的是架構問題和代碼問題。
人人網「退隱」的這十年是網際網路行業飛速發展的十年,硬體、大數據計算、性能都有很大的提升。但是反觀人人網,十年迭代,遺留的數據架構的可維護性等性能很差,魯葳透露道,人人網的整體架構是疊床架屋一般一層層往上壘的。如果想在當年大數據架構的集成模式基礎之上做出新東西,就不能一刀切,帶著新舊兩套輪前進,持續了很長時間。
同時,曹興宇也舉例回憶道,十年前Java因本身對內存優化沒有做到極致等原因,對伺服器的要求比較苛刻,大數據同理;不過當時人人網的工作思維十分現代,用人力解決了很多複雜的問題,不過也給他們帶來了大量的後期工作。
如今,重新打開塵封已久的代碼,除了感嘆技術更迭之快,面對前人的努力,魯葳也十分驚喜感動。
「可以說,人人在還沒有微服務概念的時代做出了微服務架構能實現的能力,只是分布式架構中還存在單點耦合,邏輯複雜到一定程度後還是一團亂麻,雖然構想很聰明,做得也很辛苦。」
雖然受限於技術發展,但從遺留的代碼中可以看出,人人一直在試圖創新,比如當時的數據存儲和計算就已經用到了Hadoop,不過現在來看還十分臃腫,整理工作仍不可少。
人人項目經理孟達介紹道,在圖數據的處理上人人當時就已經做出了基於人際關係的檢索和邏輯,而且,在人臉檢測方向也已經有所進展,他們的思路是通過打標籤等UGC方式來確定人物關係,這是十分超前的。
這些數據都還保留著,魯葳說,需要進行更深一步的數據挖掘,如何利用機器學習讓這些歷史圖片變得好玩起來,他們還在摸索。現在社交網站的人臉檢測功能多用於照片裁切、主體識別等,他們希望能將其與時域和地域等要素結合,開發出更多的功能。
曹興宇補充道,看到前人們的嘗試,他們的壓力很大,現在行業內的預測、推薦等功能都已經足夠成熟,他們想把更多有意思的技術帶到人人中去。
另一個讓人頭疼的是代碼迭代問題。孟達說道,在這十年中,考慮到人人網的人員流動比較頻繁,經常出現代碼注釋對不上的情況,還會遇到不同的代碼語言,這需要配備專業人員去理解,難度很大。
在正式接手人人網數據後的這 12 個月內,除上述兩大問題,人人網的項目組還需要開發業務、邏輯層面的功能,比如預測、人群畫像等,以後還會做數據清洗,將舊數據對接到現在的大數據集群裡,這也是項浩大的工程。
各種嘗試喚回老用戶,被遺忘權應該被尊重
雖然手握2. 4 億老用戶的數據,但是人人並沒有將重心放在如何召回這些老用戶上,讓更多新人加入才是長期發展的方向,他們更希望將人人的生態盤活之後,讓老用戶自己活躍起來。
這便引發了另一個問題,網際網路時代的用戶大都是「金魚記憶」,更別提十年前的帳號密碼了。正是考慮到這點,人人在如何找回密碼上也下了不少功夫,除了利用UID檢測和聯繫客服外,用戶可以輸入自己的信息,算法將匹配與該信息最接近的人,如果拿到帳號後還不知道密碼,可以利用人臉識別進行確認。
這種方法實踐下來,魯葳說,除了之前就被盜號的人,還沒有人投訴過。而且,就算帳號被別人拿走,一定也是與本人特別親近的人,同時,在找回密碼的時候需要提供身份信息,這也提供了另一層安全保障。
在利用人臉識別時,人人調用了第三方接口比對身份信息,引入了部分外部數據,也必定會引發用戶對數據隱私的擔憂。對此魯葳介紹道,現在人人的很多數據處理都是交給機器來完成的。
此前Facebook因為開放平臺受到了外界的廣泛質疑,目前人人已經將開放平臺的對外服務的接口全都停掉了,一些處理甚至超出了規定的數據隱私範圍,而且在這方面技術和人工結合著在同步跟進。
魯葳還說,被遺忘權是下一個需要解決的問題,對於百萬分之幾十打電話要求註銷的用戶,人人十分尊重他們的意願,因此綜合考慮後,上架的人人APP一個重要功能就是設置「新鮮事」僅半年可見。
也正是基於這方面的考慮,demo版的APP一開始也沒有想往全社會推,但是被相關行業媒體注意到了,也就引起了大家的討論。魯葳笑著說。
通訊工具不等於社交網絡,重返初心做好校園社交
在AI賦能全產業鏈的現在,不少社交平臺也紛紛利用AI強化功能,就像 1 月初在廣州舉辦的微信公開課,關於AI如何讓搜一搜更智能的話題一度成為業界關注重點。
面對AI的技術趨勢,魯葳說,現在人人在機器判斷違禁圖方面已經申請了專利。這其中需要解決很多小問題,最初開源算法靠分辨膚色進行,到現在已經不靈了。現在人人在北京和深圳兩個小組在內的十幾位算法工程師在努力將風險識別從90%提高到99%,這是會長期做下去。
除此之外,對於人人網擁有的 10 億級動態數據和幾千萬上億級日誌數據,內部的掃描程序也會一直進行更新提高效率。但遺憾的是,相關的NLP技術在多次與大學、研究所等專家交流之後得出的結論是,短期內無法實現工程化。
通訊工具不等於社交網絡。面對競爭激烈的社交軟體市場時,魯葳這麼說道,他說到前些年同樣瞄準校園社交的幾家競品例如soul、即刻,其實都是存在差異的,而現在的校園生態相對來說還處於空白狀態。
人人網選擇現在回歸,無疑將迎來巨大的挑戰,但同時,這也是一次絕無僅有的機會。
調查顯示, 2018 年中國移動社交用戶規模為7. 37 億,預計未來兩年將穩步增長, 2020 年有望突破 8 億人,在社交關係偏好方面,有57.6%的受訪網民偏好純熟人社交,而這正是人人的優勢所在。
人人網告訴我們,他們想回到初心,重新瞄準校園社交,主要目標群體是離開家鄉走向大學的、面臨著社交關係重建的挑戰的學生,幫助他們建立起相對自主的社交關係,這個斷點是之前校內網關注到的,現在人人想繼續做下去。
一個好的社交網絡不是幫你交朋友,而是在社交軟體中實現對現實社交關係的影射,如果用戶在畢業後還覺得人人有用,在用戶黏度上就無需太過操心。
如何做社交,魯葳感慨道, 10 年前開拓的前人們沒有想明白,大家就花了 10 年在這個行業裡,相關的理論和總結都是一步步往前演進的。以至於到了現在,再來討論做實名社交還是陌生人社交就比較外行了,這個分類方法就是有問題的。
10 年前大家都還相信六度分割和鄧巴常數,這麼多年時間的實踐證明鄧巴常數是站不住腳的,而六度分割根本是個偽命題,現在每個人需要維護的線上社交肯定不止一個,使用的問題牽扯到需求強度、功能豐富度,以及能否包圍用戶需求等,兩度分隔以上的人彼此都不會理睬了。
現在課程盒子等軟體也都開發出了相關的校園社交功能,對此魯葳表示,對於有創意的好的技術和功能,他們也會學習借鑑。
如今,人人網APP不斷升級,更新更多新功能。面對武漢肺炎疫情的嚴峻形勢,人人與中科聞歌進行合作,推出了「全國新型肺炎疫情數據」,助力疫情解決。其中,人人主要利用自身平臺優勢,進行數據的處理工作,做好相關疫情的關注和分享。
「與所有平臺所有人一樣,我們都希望這次的疫情能趕緊過去。「人人網告訴我們。
鼎盛時期的人人網團隊有四五千人,光技術團隊就有不少於三百人。而現在負責人人APP的技術團隊只有大概 50 人,要重啟這樣一個曾經的社交巨獸,不是一件容易的事情。
對於未來的發展,魯葳告訴大數據文摘,目前還有很多細節問題需要不斷深入研究,也會跟同行學習,就現在人人了解和掌握的程度來說還遠遠不夠。以後肯定是一個漫長的學習過程,最重要的是從用戶身上學習。