重啟塵封十年的代碼!回到未來的人人網,如何用新技術喚醒老數據?

2020-12-14 站長之家

聲明:本文來自於微信公眾號 大數據文摘(ID:BigDataDigest),作者: 文摘菌,授權站長之家轉載發布。

在某個特定時間,我們都會想,如果能回到過去,當時不那麼做,會不會是不一樣的結局。

「將『穿越時空』變為一道謎,變成故事裡最浪漫的一件事」,這是最近大火的臺劇《想見你》的預告海報中編劇之一林欣慧所寫的話。在這個看似簡單的穿越故事裡,男女主人公分別穿越到未來和過去,試圖改變命運,但是在時空交錯之中能改變的有多少呢?

處在 2019 年和 2020 年的交叉口, 10 年代的結束似乎正是緬懷過去的最好時機。如果有能力回到過去,你最想改變的是什麼?

這是穿越到未來的人人網想知道的問題。

是的,你沒有聽錯,就是中國最老牌的社交平臺之一的人人網,在踏入Fintech、區塊鏈、直播、二手車等領域的 1400 多個日日夜夜後,在 2019 年最後一天,人人網宣布重新回歸社交,「人人」APP 1.1. 0 版也登陸各個應用市場,以「記錄我的青春」為主題,正式開始公測。

00 後們可能都沒聽過人人網,但對於文摘菌一樣的80、 90 後們而言,這可是滿滿的青春回憶!人人網曾是中國規模最大的實名社交網絡,在2005- 2015 近 10 年的時間裡引領校園社交市場,在校園社交佔據著絕對優勢。 2010 年底,人人網的註冊用戶超過1. 7 億,活躍用戶超過 1 億,到了 2012 年,人人網更是佔據大學生市場75%的份額。截至 2017 年 9 月 30 日,人人網擁有2. 54 億激活用戶

經歷了後續的起起伏伏之後, 2018 年底,人人網被多牛傳媒正式併購。據官方數據顯示,至今為止,人人平臺保存有超過 70 億張用戶上傳的照片,百億級的狀態信息,而這些信息,不就是幫助我們回到過去的那盒伍佰老師的磁帶嗎(在劇中男女主角正是通過這首歌實現穿越的)?

十年前,「大數據」的概念還沒有真正出現,而人人網上累積的數據事實上早已達到了大數據量級。在大數據和機器學習等新技術趨於成熟的今天,如何讓這些PB級的數據重新煥發生機,就成了人人網研發團隊首先要面對的問題。

同時,人人網還必須面對如今競爭激烈的社交軟體市場。回想 2019 年初,扎堆出現了馬桶MT、多閃、聊天寶等社交軟體,其中聊天寶和多閃在上線當天還登上了App Store免費榜第一。

「內憂外患」之下,如何才能盤活人人網的生態?用今天的技術讓曾經的數據煥發生機?

這就像是「復活」一個已經「死掉」的項目,多牛傳媒COO魯葳告訴大數據文摘,或許過程會很艱難,但未來回想起來應該還是挺有意思的

重啟塵封十年的代碼,新老數據如何結合?

面對近十年累積下來的用戶數據,多牛傳媒研發中心副總經理曹興宇坦言道,初次看到數據時感覺非常「頭疼」。針對未來將如何利用老數據,他說道,新老數據不會完全結合,會進行相應更新

但隨著對數據的深入認識,研發人員才發現,數據本身尚未構成太大問題,數據的存儲、在中間層和應用層的訪問等,都遠比預料的要輕鬆很多,真正讓人感到頭禿的是架構問題和代碼問題

人人網「退隱」的這十年是網際網路行業飛速發展的十年,硬體、大數據計算、性能都有很大的提升。但是反觀人人網,十年迭代,遺留的數據架構的可維護性等性能很差,魯葳透露道,人人網的整體架構是疊床架屋一般一層層往上壘的。如果想在當年大數據架構的集成模式基礎之上做出新東西,就不能一刀切,帶著新舊兩套輪前進,持續了很長時間。

同時,曹興宇也舉例回憶道,十年前Java因本身對內存優化沒有做到極致等原因,對伺服器的要求比較苛刻,大數據同理;不過當時人人網的工作思維十分現代,用人力解決了很多複雜的問題,不過也給他們帶來了大量的後期工作。

如今,重新打開塵封已久的代碼,除了感嘆技術更迭之快,面對前人的努力,魯葳也十分驚喜感動。

「可以說,人人在還沒有微服務概念的時代做出了微服務架構能實現的能力,只是分布式架構中還存在單點耦合,邏輯複雜到一定程度後還是一團亂麻,雖然構想很聰明,做得也很辛苦。」

雖然受限於技術發展,但從遺留的代碼中可以看出,人人一直在試圖創新,比如當時的數據存儲和計算就已經用到了Hadoop,不過現在來看還十分臃腫,整理工作仍不可少。

人人項目經理孟達介紹道,在圖數據的處理上人人當時就已經做出了基於人際關係的檢索和邏輯,而且,在人臉檢測方向也已經有所進展,他們的思路是通過打標籤等UGC方式來確定人物關係,這是十分超前的。

這些數據都還保留著,魯葳說,需要進行更深一步的數據挖掘,如何利用機器學習讓這些歷史圖片變得好玩起來,他們還在摸索。現在社交網站的人臉檢測功能多用於照片裁切、主體識別等,他們希望能將其與時域和地域等要素結合,開發出更多的功能。

曹興宇補充道,看到前人們的嘗試,他們的壓力很大,現在行業內的預測、推薦等功能都已經足夠成熟,他們想把更多有意思的技術帶到人人中去。

另一個讓人頭疼的是代碼迭代問題。孟達說道,在這十年中,考慮到人人網的人員流動比較頻繁,經常出現代碼注釋對不上的情況,還會遇到不同的代碼語言,這需要配備專業人員去理解,難度很大。

在正式接手人人網數據後的這 12 個月內,除上述兩大問題,人人網的項目組還需要開發業務、邏輯層面的功能,比如預測、人群畫像等,以後還會做數據清洗將舊數據對接到現在的大數據集群裡,這也是項浩大的工程。

各種嘗試喚回老用戶,被遺忘權應該被尊重

雖然手握2. 4 億老用戶的數據,但是人人並沒有將重心放在如何召回這些老用戶上,讓更多新人加入才是長期發展的方向,他們更希望將人人的生態盤活之後,讓老用戶自己活躍起來

這便引發了另一個問題,網際網路時代的用戶大都是「金魚記憶」,更別提十年前的帳號密碼了。正是考慮到這點,人人在如何找回密碼上也下了不少功夫,除了利用UID檢測和聯繫客服外,用戶可以輸入自己的信息,算法將匹配與該信息最接近的人,如果拿到帳號後還不知道密碼,可以利用人臉識別進行確認。

這種方法實踐下來,魯葳說,除了之前就被盜號的人,還沒有人投訴過。而且,就算帳號被別人拿走,一定也是與本人特別親近的人,同時,在找回密碼的時候需要提供身份信息,這也提供了另一層安全保障。

在利用人臉識別時,人人調用了第三方接口比對身份信息,引入了部分外部數據,也必定會引發用戶對數據隱私的擔憂。對此魯葳介紹道,現在人人的很多數據處理都是交給機器來完成的。

此前Facebook因為開放平臺受到了外界的廣泛質疑,目前人人已經將開放平臺的對外服務的接口全都停掉了,一些處理甚至超出了規定的數據隱私範圍,而且在這方面技術和人工結合著在同步跟進

魯葳還說,被遺忘權是下一個需要解決的問題,對於百萬分之幾十打電話要求註銷的用戶,人人十分尊重他們的意願,因此綜合考慮後,上架的人人APP一個重要功能就是設置「新鮮事」僅半年可見。

也正是基於這方面的考慮,demo版的APP一開始也沒有想往全社會推,但是被相關行業媒體注意到了,也就引起了大家的討論。魯葳笑著說。

通訊工具不等於社交網絡,重返初心做好校園社交

在AI賦能全產業鏈的現在,不少社交平臺也紛紛利用AI強化功能,就像 1 月初在廣州舉辦的微信公開課,關於AI如何讓搜一搜更智能的話題一度成為業界關注重點。

面對AI的技術趨勢,魯葳說,現在人人在機器判斷違禁圖方面已經申請了專利。這其中需要解決很多小問題,最初開源算法靠分辨膚色進行,到現在已經不靈了。現在人人在北京和深圳兩個小組在內的十幾位算法工程師在努力將風險識別從90%提高到99%,這是會長期做下去。

除此之外,對於人人網擁有的 10 億級動態數據和幾千萬上億級日誌數據,內部的掃描程序也會一直進行更新提高效率。但遺憾的是,相關的NLP技術在多次與大學、研究所等專家交流之後得出的結論是,短期內無法實現工程化

通訊工具不等於社交網絡。面對競爭激烈的社交軟體市場時,魯葳這麼說道,他說到前些年同樣瞄準校園社交的幾家競品例如soul、即刻,其實都是存在差異的,而現在的校園生態相對來說還處於空白狀態。

人人網選擇現在回歸,無疑將迎來巨大的挑戰,但同時,這也是一次絕無僅有的機會。

調查顯示, 2018 年中國移動社交用戶規模為7. 37 億,預計未來兩年將穩步增長, 2020 年有望突破 8 億人,在社交關係偏好方面,有57.6%的受訪網民偏好純熟人社交,而這正是人人的優勢所在。

人人網告訴我們,他們想回到初心,重新瞄準校園社交,主要目標群體是離開家鄉走向大學的、面臨著社交關係重建的挑戰的學生,幫助他們建立起相對自主的社交關係,這個斷點是之前校內網關注到的,現在人人想繼續做下去。

一個好的社交網絡不是幫你交朋友,而是在社交軟體中實現對現實社交關係的影射,如果用戶在畢業後還覺得人人有用,在用戶黏度上就無需太過操心。

如何做社交,魯葳感慨道, 10 年前開拓的前人們沒有想明白,大家就花了 10 年在這個行業裡,相關的理論和總結都是一步步往前演進的。以至於到了現在,再來討論做實名社交還是陌生人社交就比較外行了,這個分類方法就是有問題的。

10 年前大家都還相信六度分割和鄧巴常數,這麼多年時間的實踐證明鄧巴常數是站不住腳的,而六度分割根本是個偽命題,現在每個人需要維護的線上社交肯定不止一個,使用的問題牽扯到需求強度、功能豐富度,以及能否包圍用戶需求等,兩度分隔以上的人彼此都不會理睬了。

現在課程盒子等軟體也都開發出了相關的校園社交功能,對此魯葳表示,對於有創意的好的技術和功能,他們也會學習借鑑

如今,人人網APP不斷升級,更新更多新功能。面對武漢肺炎疫情的嚴峻形勢,人人與中科聞歌進行合作,推出了「全國新型肺炎疫情數據」,助力疫情解決。其中,人人主要利用自身平臺優勢,進行數據的處理工作,做好相關疫情的關注和分享。

「與所有平臺所有人一樣,我們都希望這次的疫情能趕緊過去。「人人網告訴我們。

鼎盛時期的人人網團隊有四五千人,光技術團隊就有不少於三百人。而現在負責人人APP的技術團隊只有大概 50 人,要重啟這樣一個曾經的社交巨獸,不是一件容易的事情。

對於未來的發展,魯葳告訴大數據文摘,目前還有很多細節問題需要不斷深入研究,也會跟同行學習,就現在人人了解和掌握的程度來說還遠遠不夠。以後肯定是一個漫長的學習過程,最重要的是從用戶身上學習

相關焦點

  • 2010年代的最後一天,一群人在人人網告別青春
    可就是在2019年的最後一天,曾經火遍網絡的人人網宣布新版App公測推出,正式回歸社交市場。要趕在這懷舊年結束前,再擠出一些塵封的記憶。對於經歷過那個時代的80、90後,如果說在初中高中用得較多的網站是QQ空間,那麼到了大學很多人都轉投向了人人網,對於一部分人,他們則更熟悉校內網這個稱呼。校內網是人人網的前身,成立於2005年。校內網主打校園社交,逐漸成為了學生群體的首選,當時全國有數千所高校先後入駐。
  • 《重啟》揭秘十一倉終極秘密:三叔的特殊使命,吳邪被預知未來
    那麼電視劇中為何要把這樣一個未曾揭秘的地點用大量的神秘內容演繹出來呢?其原因之一應該就是為了拉長劇情。眾所周知,這部《重啟》分上下兩季,高達60集之多。如果按照原著的內容來演繹,可能40集就結束了,基本每十集就要完成一個事件的轉變。因此三叔才會特意把十一倉的內容具體化,神秘化。那麼到底十一倉有沒有秘密?
  • 「騰訊開源十年圖譜」發布,覆蓋雲原生等五大技術領域
    此次新發布的開源項目聚焦前沿技術領域,分別是雲原生一體化部署開源工具Cloudbase Framework、邊緣計算開源項目SuperEdge、以及定製化高性能開源KV資料庫Tendis。據單致豪介紹,「騰訊開源十年圖譜」是對騰訊過去十年開源探索的整體盤點,集中展示了十年來騰訊是如何通過內外部開放原始碼等方式積極參與「全球科技共同體」的共建,將自身技術能力以及技術成果與全世界開發者共享。目前,騰訊已經成為全球開源貢獻最大的科技公司之一。
  • 天網是用COBOL寫的?1984年《終結者》竟然用了他的代碼!
    一段塵封36年的COBOL代碼重現天日,還是在施瓦辛格的經典之作《終結者》。 終結者也用COBOL? 電影《終結者》中的一個場景,竟然使用了COBOL代碼!
  • 思碼逸任晶磊:如何讓代碼管理寫代碼的?
    滴滴代表一類客戶:本身規模比較大,大概有兩三千人規模的程式設計師團隊,有自己的效能團隊,有一些基本的數據分析的能力。但困惑之處在於,如果他們想深入到分析裡,也會遇到非常多技術障礙,比如如何更深地理解代碼本身?這時候企業就很需要像我們這樣的公司來提供數據的底座,有了這個底座,才能分析出滿足他們業務訴求的結果。
  • 如果蜘蛛俠和鋼鐵俠演出《回到未來》會是如何?
    許多影迷都會想知道一些經典電影若換成其他演員演出,成果會是如何?因此他們選擇利用AI換臉技術來滿足自己的好奇心。像是金凱瑞 演出《鬼店》中的傑克託倫斯 、史泰龍取代施瓦辛格演出《終結者2》等影片都有人製作,也都在社群上廣為流傳。
  • 塵封23年的「巨獸」甦醒,俄羅斯重啟巨型潛艇,排水量超過2萬噸
    據環球時報報導,俄羅斯即將重啟巨型潛艇伊爾庫茨克號。伊爾庫茨克號是一艘建造於前蘇聯時代的核潛艇,排水量超過2萬噸,威力巨大。但由於蘇聯解體等歷史原因,它長時間處在備戰狀態,並沒有投入實際使用,但是現在塵封23年的「巨獸」就要甦醒了,俄海軍很可能在三年後迎接這艘海上巨獸重歸戰鬥序列。俄重啟巨型潛艇據一名知情人士表示,俄軍方面已經針對艘核潛艇進行了一系列的升級和改造,預計在2023年相關的工作就能完成,到時這艘核潛艇將重回海軍,發揮自己的作用。
  • 人人網社交平臺被多牛傳媒收購;百度戰略投資新潮傳媒,此輪融資共...
    溢米輔導獲C輪融資1500萬美元 溢米輔導正式宣布完成1500萬美元C輪融資,老股東精銳教育(紐交所股票代碼:ONE)、德暉資本、藍湖資本均加碼注資。未來將成為銀行間市場及交易員社區大數據金融信息服務平臺。「QTrade」近日完成A輪融資,戰略投資方是騰訊,QTrade未透露具體融資數額。 2.
  • 曾市值僅次於騰訊、百度,現在賣起了二手車,1 億人的「人人網...
    賴斌強負責前端代碼,王慧文負責後端代碼,王興被解放出來,觀察外部世界、市場的變化。前一個月,一個叫Facebook的網站在哈佛一間男生宿舍裡宣告上線,20歲的扎克伯格將網站定位在大學生群體,只能通過學校郵箱註冊,一度成為高校青年分享新鮮事、撩妹撩漢的大本營,受到高校大學生的強烈追捧。
  • Android程式設計師未來十年的發展前景如何?
    我們沒辦法去預測任何行業、任何職業未來十年會怎麼樣,因為未來誰都不能確定。只能說只要有網際網路存在,程式設計師依然是個高薪熱門行業。只要跟隨著時代的腳步,學習新的知識。程式設計師是不可能會消失的,或者說不可能會沒錢賺的。我們經常可以聽到很多人說,程式設計師是一個吃青春飯的行當。
  • 以數據「喚醒」製造業,「雪浪實踐」從深圳灣再出發
    原標題:以數據「喚醒」製造業,「雪浪實踐」從深圳灣再出發 當前,珠三角和長三角均已經形成了規模技術創新體系。這兩個大經濟區域在當代技術競爭中扮演著關鍵的角色。提高創新能力不僅僅在於技術本身的進步,更在於創新體制的進步。
  • 「人人網」?是那個做字幕、能追劇的嗎
    一時間,人人網官博被「全力支持,人人崛起」「安卓客戶端麻煩快上」「過去就歸過去,黑歷史讓人心累」「回不去了」等評論霸屏。發表測評之餘,老粉還為產品出謀劃策。這就難免暴露了人人網的頑疾和瓶頸:定位模糊、功能不全、用戶流失、內容匱乏……
  • 新美編:用「顏料」與代碼解讀新聞
    它的閱讀體驗比紙媒豐富與生動很多,它可以用更短的閱讀時間將信息更直觀地傳遞給讀者,也將編輯部與讀者的聯繫和互動變得極其扁平化,可以說是一種更適合現今時代特徵的媒體傳播模式。 那麼,電子雜誌為何好看?是什麼讓大段大段的文字變成積木般的、以邏輯關係相關聯的易讀欄位,並且和人的手指之間產生奇妙的互動呢?答案是:碎片化編輯思維、視覺傳達設計和後臺代碼編寫的有機結合。
  • 「時間膠囊」:十年後開啟塵封記憶 見證時光軌跡
    中新網吉林新聞5月20日電 (孫博妍)19日,「時間膠囊」主題活動在長春理工大學光電信息學院圖書館舉行,師生們在校園裡埋下了承載希望與寄語的「時間膠囊」,相約十年後,共同開啟塵封的記憶,見證時光的軌跡。
  • 未來十年,科技如何改變我們的生活
    接下來讓我們暢想一下未來科技會怎樣走入我們的生活。吃萬物生長靠太陽,而太陽的能量必定有限,而如何存儲太陽能,如何製造「人造太陽」,這將會大大改變人們的生活方式。人們從過去追求的吃飽,已經變成了吃好,吃的精緻。
  • 為什麼它將是未來十年的技術?
    歡迎來到SNARK時代,這是一個彈出式的時事通訊,探索並慶祝一項我們認為在未來幾年將對隱私、計算、密碼學和金錢產生根本性和決定性影響的技術。我們將分享(大部分)小問題,突出關鍵事件、裡程碑和該領域的人員。今天,我們首先來探索一下為什麼我們相信snark是未來十年的技術。
  • 《回到未來》主演重聚掀回憶殺
    《回到未來》三部曲是80年代最重要的科幻電影之一,影響了之後的很多的科幻作品,也是一代人心目中的集體記憶。在一遍又一遍重溫電影的同時,我們也已身處電影預言的未來之中。       不同於《侏羅紀公園》《終結者》等老題材不斷重啟,媒體近些年一直不放棄挖掘《回到未來》重啟的可能性,導演羅伯特·澤米吉斯的回答也一直都是:「絕無可能!除非我和鮑勃·蓋爾(編劇之一)都死了。」
  • 蘋果iPhone 12重啟的MagSafe是什麼技術?聊聊它的過去、現在和未來
    根據官網數據顯示,使用 MagSafe 磁吸配件,無線充電的功率最高能達到 15W,相比之前 7.5W 的 Qi 無線充電標準,有了翻倍提升。GCCEETC-電子工程專輯MagSafe 的未來絕不只是磁吸充電那麼簡單。蘋果在 iPhone 12 上狠狠地玩了一把復古,方正的外形讓很多人想起了十年前發布的 iPhone 4。
  • 十年IT教育路,百萬學子人生夢 源碼時代喜迎「十歲」慶典
    十年間,源碼時代匯聚了一群堅定而單純的同行者,堅持做IT技術領域的知識賦能者,形成了較強的資源積累和戰略縱深,持續自我革新、不斷進化,持續拓展新業務新方向。  作為一家「用良心做教育」的IT職業教育機構,源碼時代始終聚焦行業發展,傾聽時代對科技人才發出的最強召喚,用實際行動做出積極回應,通過不斷優化課程,組建超強講師陣容,在莘莘學子心中埋下技術的種子,搭建起實現學員夢想的技術舞臺。
  • 十年IT教育路,百萬學子人生夢!源碼時代喜迎「十歲」慶典
    十年間,源碼時代匯聚了一群堅定而單純的同行者,堅持做IT技術領域的知識賦能者,形成了較強的資源積累和戰略縱深,持續自我革新、不斷進化,持續拓展新業務新方向。作為一家「用良心做教育」的IT職業教育機構,源碼時代始終聚焦行業發展,傾聽時代對科技人才發出的最強召喚,用實際行動做出積極回應,通過不斷優化課程,組建超強講師陣容,在莘莘學子心中埋下技術的種子,搭建起實現學員夢想的技術舞臺。