谷歌是如何做到讓計算機自動圍繞照片講故事的

2020-11-28 網易科技


隨著智慧型手機的興起,人們拍下的照片越來越多,不過他們卻鮮少花心思去整理它們。針對這種情況,谷歌在Google+上打造了一款名為Stories的工具,來幫助人們將照片整理成一個個的故事。國外媒體近日撰文指出,這一任務對人們來說很容易,但要讓計算機自動操作卻極為困難。那谷歌的團隊究竟是怎麼將Stories打造出來的呢?

以下是文章主要內容:

看似容易的任務

在谷歌內部,一小團隊在試圖解決一個對普通人來說輕而易舉,但對於全球數據最多的公司卻極其困難的問題:講故事。

谷歌想要解決一個我們都明白的問題。人們在手機上拍了無數張照片,實際上卻不怎麼處理它們。有一部分被精選出來發送到Instagram上,大部分還是被積壓在手機相冊,拍下來之後就幾乎「不見天日」。

「你一趟旅行下來拍了300張照片,但沒有東西幫助你好好整理下它們。」谷歌社交網絡工程師約瑟夫·斯馬爾(Joseph Smarr)說道,「想想人們處理那些照片的方式,主要就是不進行任何的分享。第二大處理方式是分享一小部分到諸如Instagram的社交網絡。而最糟糕的是,他們將所有的300張照片全扔到一個相冊裡。這對於圍繞照片講故事毫無意義,它們只不過是一堆照片,就像是單調乏味的鼓聲。」

因此,斯馬爾和他的同事——產品設計師布雷特·利德(Brett Lider)和用戶體驗設計師Clement Ng——給自己定了一項任務。他們想要打造會有韻律且流暢的、帶來「真正的講故事」感覺的軟體。

他們的解決方案是Google+很棒的照片工具的一部分,提供給所有的谷歌用戶。該產品名為Stories,它可自動將用戶上傳的照片整理成故事。

你可能覺得這很容易,但那是因為你是人。賦予機器感知故事和位置的能力絕非易事,即便可以動用谷歌掌握的所有用戶信息。

The Atlantic 近日採訪了Stories的開發團隊,了解產品開發的背後,並開始思考其對計算機理解人類的能力對人們生活的意義。

敘事性傳記概念的誕生

產品早期的原型看起來跟最終的成品大徑相庭。

最初,斯馬爾和利德開發出了某種更似個人成績報告單的東西——只是編撰出一堆數據。2012年5月的一個設計模型展示了利德的籤到和徒步旅行數據、與人的互動和喜歡的音樂。它相當全面具體地顯示了一個人的信息,而且信息都是經過精心巧妙的選擇和整理的。該理念在於,僅針對一個人打造出某種類似於Facebook動態信息(News Feed)的東西:通過算法精選出的個人信息。

但那只是產品模型。據斯馬爾稱,當他們開始思考可以藉助谷歌所有的用戶數據和所有的信息處理能力打造出什麼產品來的時候,他們發現了一點:「我們的歷史是嘈雜的,且不完整的。」與此同時,他們在改良他們的概念產品。他們反覆研究相片。

利德展開用戶小組研究,讓人們談談他們最近拍下的10張照片。為什麼拍那些相片?給誰拍?

根據人們的回答,可以將他們分成三類。第一類是給別人拍照,第二類是為了留念而拍照,而第三類是「記錄冒險經歷」。利德說,問他們實際上多久使用一次他們所拍的照片,「記錄冒險經歷」的那一類人付諸行動的比例最低。

前兩類人都使用與照片相關的應用與服務,比如通訊類應用和筆記應用Evernote。

而記錄冒險經歷的那一類人呢?他們甚至都沒有App Store應用。事實上,他們傾向於責怪自己沒有去處理所拍的照片。他們說自己太懶沒有給朋友傳相關的照片,或者沒有好好去回味欣賞那些照片。

斯馬爾、利德和Clement Ng開始意識到了機會。於是利德展開更多的用戶測試。他讓參與的用戶整理衝印出來的相片。

他就是叫他們在檯面上整理好相片。大多數參與者都是從左到右按時間順序擺放相片,他們將同一個地方拍的照片集中在一起,甚至在每一個位置相冊的開頭都放置相關位置的一張「定場鏡頭」相片。

利德意識到,這並不是相冊,也不是拼貼畫,而是某種敘事性傳記。於是,他開始去研究敘事性傳記的歷史。該研究也促使他們以18世紀英國作家塞繆爾·詹森(Samuel Johnson)的傳記作者詹姆斯·鮑斯維爾(James Boswell)的名字作為該項目的代號:Project Boswell。

利德說,「敘事性傳記是19世紀開始出現的。在那之前,傳記只是簡單羅列些日期和『所謂的事實』,後來名人和富人開始委託傳記作家給自己撰寫敘事性傳記。當中最有名的傳記作家便是詹姆斯·鮑斯威爾。」

「所以我們當時在想,要是我們能夠大眾化敘事性傳記會怎麼樣?谷歌和科技的一大貢獻在於,給普通人帶來以往僅屬於精英階層的東西。因此,我們覺得,我們可以成為你的私人敘事者,成為你的個人傳記作者,幫助你串聯起你的生活中令人興奮的點滴故事。」

斯馬爾補充道,「我們喜歡成為幫助你追蹤生活經歷、記憶你去過的地方的小代理人的設想。」

「如果說Google Now是你的實時助手,」利德繼續說道,「那麼Boswell就是你回顧過去的助手。」

「如果說Google Now是你的助手,那麼Boswell就是你的朋友。他會與你一道同行。」Clement Ng說。

於是,他們有了這麼一個概念:將敘事性傳記功能帶給每一部智慧型手機。

概念執行

「接著,我們開始試圖思考具體如何執行,」斯馬爾說,「我們能否自動地將這些照片串聯起來,挑選出最好的照片,識別它們的拍攝位置,猜測故事開始和結束的時間,並確定故事標題?」

這聽起來也許很簡單:結合利用智慧型手機的數據和照片來串聯故事。假如用戶將照片上傳給谷歌,當中一部分是通過智慧型手機拍攝的,谷歌會從中獲取位置數據、視覺線索和時間指示。

不過,有些照片是來自沒有GPS功能的相機,有的照片日期戳是錯誤的,有的位置數據不正確。

「你面臨的就是這樣的數據流,有時候數據太多,有時候數據偏少,有時候數據很全,有時候卻很不完整,而你要做的就是試圖去搞懂它們。」斯馬爾說道。

倒有三種對Boswell機器人很有幫助的信號。首先是照片的地理標記,即那些標示人的確切位置的照片。其次是Google Now或者谷歌地圖數據,它們可帶來用戶去過的地方方面的信息。最後一個信號最酷:該團隊能夠通過對特定路標進行機器視覺分析來推斷用戶的位置。例如,如果你去了紐約,且給著名的熨鬥大廈拍了照片,那谷歌就能識別出它所知道的地標,標記出該位置,即便照片是用不支持嵌入位置元數據的相機拍攝的。

Stories還有一些值得一提的細節。首先,照片是從左到右排列的,根據利德的研究,這樣符合人們翻閱剪貼簿的方式。從行動裝置上看,一系列的照片進行了全景和縮放處理,底下附有標題以及一支鼓勵進行個性化處理的小編輯鉛筆。

對於識別出的每一個位置,Stories都會加上一張該位置的環形圖片;它與谷歌相連結,因此用戶或者他們的故事分享對象都可以專門就行程中的相關景點研究一番。

手機上的那些照片在滾動瀏覽的時候還帶有一點「晃動感」。這是很不錯的效果,或許也符合谷歌的「material design」設計理念。感覺它們是放在某種跟屏幕背景不是完全齊平的東西上,如此一來強化了翻閱剪貼簿的感覺。

與照片尺寸與形狀完全一致的Instagram不同,Stories使用各種不同的尺寸與形狀的照片。它上面還有動畫效果。「背後的理念是,讓你覺得它們是出自人的雙手,而非機器。」Clement Ng說道。

它確實可帶來那種感覺,確實能夠給一款並非十全十美的產品帶來助力。雖然有時候谷歌生成的故事不如預期,或者包含不匹配的照片,但那些個性化的小故事相比普通的軟體產品還是更能引起共鳴。人們或許會體諒Boswell的不足。至少它有努力去圍繞大家或許意義不大的經歷生成故事。

「我們在試圖呈現人們的經歷的精華部分,」斯馬爾指出,「相比單純地給用戶複述數據,提煉出精華部分要更加困難。」

譯者:樂邦

百度新聞與網易科技合作稿件,轉載請註明出處。

本文來源:網易科技報導 責任編輯:王曉易_NE0011

相關焦點

  • 谷歌地球變分享平臺 允許用戶通過視頻和照片講故事
    谷歌地球(Google Earth)業務主管麗貝卡·摩爾(Rebecca Moore)今日表示,Alphabet(谷歌母公司)希望用戶在未來幾年在其谷歌地球平臺上發布數以百萬計的故事、視頻和照片。谷歌今年4月推出了新版谷歌地球,增加了「Voyager」工具。
  • 技術、文化與社會 ——谷歌品牌在中國是這樣講故事的
    自從2010年,谷歌中國調整策略,除了極少數產品直接為消費者提供服務之外,如何依託產品向更多受眾傳達自身技術創新者的定位成為他們一直思考的問題。  谷歌另一個持續「吸粉」的界面是Google I/O大會,I/O本意為「開放中創新」(Innovation in the Open),但在開發者看來,I/O還意味著Input/Output(輸入/輸出)或者更像是二進位1/0。
  • 華爾街日報:谷歌的量子計算機如何改變世界
    10月17日消息,華爾街日報刊文闡述谷歌的量子計算機可能會如何改變世界。該類超級強大的機器有潛力顛覆從科學和醫療到國家安全的一切——假如它能正常運作的話。在最近的一個早上,在谷歌的洛杉磯辦公室外面,這位53歲的計算機科學家在給我講解量子力學如何支持所謂的多元宇宙理論。奈文指著處在我倆中間的那個磁帶錄音機。他說,我們看到的磁帶錄音機只是該設備的其中一個「經典形態」。「但在某個我們現在還沒能感知到的地方,它有其它的版本。」據奈文稱,不僅磁帶錄音機是這樣,所有的物品都是如此。「即便是像你我這樣的系統,」他表示,「在平行世界我們所有人都有不同的形態。」
  • 谷歌用深度學習守衛海洋:如何在 4.5 萬張照片中找到一隻瀕危的...
    人類希望好好保護這個可愛的海洋生物,但事實證明它們很難追蹤。如何準確地探測到海牛的存在是保護工作的關鍵。昆士蘭大學 (Murdoch University)的研究人員 Amanda Hodgson 及其團隊已經幫助改變這種狀況,他們首先利用無人機大量航拍海洋照片,甚至可以遠程採集航空照片。
  • 谷歌研究人員演示如何遠程盜取iPhone中的照片
    據外媒報導,近日谷歌Project Zero研究人員Ian Beer演示了如何遠程盜取iPhone中的照片。在視頻中,Beer用iPhone拍攝了一張照片,然後打開YouTube應用。YouTube應用並不是黑客攻擊的一部分--它的打開只是為了演示iPhone在被篡改時如何沒有任何被篡改的跡象。自動攻擊不需要網際網路連接,它確實需要iPhone連接到某種無線系統 - 在這種情況下,它連接到Wi-Fi信號。通常情況下,Wi-Fi網絡是有密碼保護的,所以設備和攻擊者之間會有額外的安全層。
  • 量子計算機如何重塑人類未來
    這篇熱度極高的論文的主題是量子計算,它是一份介紹谷歌量子計算機Sycamore強大計算能力的研究報告。谷歌量子人工智慧實驗室的科學家在該報告中稱,Sycamore僅花200秒完成的計算工作量,世界上最強大的傳統計算機需要1萬年才能完成。雖然IBM的科學家後來通過算法改進發現不是1萬年,而是2.5天,但這個結果對量子領域的科學家而言依然意義重大,它非常直觀地展現了「量子優越性」。
  • 谷歌Pixel 4已修復相機自動白平衡問題
    IT之家11月12日消息 谷歌已發布了一個更新補丁,修復了一些用戶上個月發現的Pixel 4設備上的自動白平衡問題。該修復程序是11月安全補丁程序的一部分,現已推送到所有Pixel設備,儘管相機修復程序僅適用於最新型號。
  • 潘建偉團隊:今年預計實現60比特量子計算機,壓谷歌一頭
    8月25日,在墨子沙龍上,中國科學技術大學上海研究院教授、潘建偉團隊超導量子計算負責人朱曉波透露了中科大研發量子計算機的時間表。而在10年期目標和谷歌相同,即一百萬比特量子計算機,保真度99.8%,和谷歌相同。
  • 機器學習新突破:谷歌研究人員利用AI自動重構大腦神經元
    人類的大腦中有大約860億個通過100萬億個突觸連接起來的神經元,而對一個立方毫米的大腦組織進行成像,就可以生成超過1000TB的數據(10億張照片)。據《連接組:造就獨一無二的你》這本書中介紹,連接組學主要是通過分析神經元之間的連接和組織方式來達到分析大腦的運行機制這一終極目的的一門學科。連接主義認為大腦的工作機制就蘊含在神經元的連接中。
  • 潘建偉團隊:今年預計實現60比特量子計算機,壓谷歌一頭
    8月25日,在墨子沙龍上,中國科學技術大學上海研究院教授、潘建偉團隊超導量子計算負責人朱曉波透露了中科大研發量子計算機的時間表。而在10年期目標和谷歌相同,即一百萬比特量子計算機,保真度99.8%,和谷歌相同。
  • 谷歌團隊新突破,量子計算機模擬化學反應,再現黑科技
    近日,有國外媒體報導稱,谷歌AI量子技術研究團隊在量子計算機上完成了有史以來規模最大的化學模擬數據分析。據了解,這是量子計算機第一次參與到化學模擬反應中,該研究成果引起了計算機領域、化學領域和量子技術領域的轟動,並於本月28日登上了《Science》雜誌封面。
  • 中科大潘建偉團隊:今年預計實現60比特量子計算機,壓谷歌一頭
    相同,即一百萬比特量子計算機,保真度99.8%,和谷歌相同。雖然各家量子計算機研發力量動輒發布幾百、乃至幾千量子比特的成果,但朱曉波認為,這些說法都只講述了「故事的一面」。原來,把量子計算機的比特數目升上去並不難,但要保證對每個比特實施精準操控。一個極具挑戰性的關鍵難點是:在對單微波光子態(量子比特)高保真調控與讀出的情況下,如何實現可擴展?
  • AI簡史,計算機如何演變到區塊鏈
    圖靈被稱為「計算機科學之父」, 他做出了通用計算機的數學模型,這就是永垂青史的「圖靈機」;馮·諾依曼被稱為「現代計算機之父」,在圖靈機的基礎上,他進一步做出了通用計算機的工程構架,這就是大名鼎鼎的「馮?諾依曼體系」。直到今天,所有計算機都還嚴格遵循著圖靈和馮·諾依曼的理論設計。 通用計算機比專用計算機究竟好在哪呢?我們說一個經典的故事。
  • 今年預計實現60比特量子計算機,壓谷歌一頭
    8月25日,在墨子沙龍上,中國科學技術大學上海研究院教授、潘建偉團隊超導量子計算負責人朱曉波透露了中科大研發量子計算機的時間表。而在10年期目標和谷歌相同,即一百萬比特量子計算機,保真度99.8%,和谷歌相同。
  • 留學人員如何講好脫貧攻堅中國故事
    如何講好脫貧攻堅中國故事,向世界解鎖中國脫貧密碼,應該成為我們關注和研究的重要課題。  在外中國留學人員作為「民間大使」,在中外人文交流中擔當著重要角色,在講好脫貧攻堅中國故事中具有獨特優勢,應責無旁貸承擔使命發揮作用。留學人員普遍熟練掌握外語,在跨文化溝通方面有不少體驗和感受。留學人員與外國老師和同學,以及外國民眾有更多交流機會,面對面的交流方式更易於讓對方接受。
  • 揭秘谷歌地球如何看透地球 能為我們做什麼(圖)
    而它們又是如何製作的?帶著這些問題,記者採訪了谷歌中國產品經理林裕寬。  林裕寬告訴記者,谷歌地球是把衛星照片、航空照相和地理信息系統(GIS)布置在一個地球的三維模型上。用戶們可以通過一個下載到自己電腦上的客戶端軟體,免費瀏覽全球各地的高清晰度衛星圖片。
  • 谷歌量子計算機的消息一發布,比特幣價格突然閃崩
    剛剛,谷歌宣布:已經成功利用一臺 54 量子比特的量子計算機,實現了傳統架構計算機無法完成的任務。在世界最牛掰的超級計算機需要計算 1 萬年的實驗中,量子計算機只用了200 秒。是的,你沒看錯:谷歌量子計算機,僅僅用了短短200 秒,就完成世界最強大的超級計算機花費1萬年所需的計算量,這真是一個堪稱「恐怖」的計算速度!有人可能要說:奇哉!
  • 量子領域重大突破:潘建偉團隊將力壓谷歌,量子計算機將出世
    近日有新消息表示,我國的量子領域有了新的突破,潘建偉院士的團隊在學術交流會上表示,在年內這個備受矚目的團隊將實現60比特量子計算,這也就意味著谷歌的53比特量子計算水平已經成為過去,潘建偉團隊將做到突破。
  • 我國量子計算機比谷歌快100萬倍 量子計算機是什麼
    我國量子計算機比谷歌快100萬倍 量子計算機是什麼據國內媒體報導,9月5日,中國科學技術大學常務副校長、中國科學院院士、西湖大學創校校董潘建偉教授在公開課演講上向公眾透露光量子計算機最新進展:已經實現了光量子計算性能超過谷歌53比特量子計算機的100萬倍。
  • 谷歌無人車「螢火蟲」退役了,但你知道當初它是如何設計的嗎?
    年,谷歌對外公布了其第一輛無人駕駛汽車原型:Firefly(螢火蟲),這是當時谷歌從零開始設計製造的一輛真正的自動駕駛汽車。而是谷歌的工程師們為了解早期自動駕駛難題,比如如何放置傳感器、如何將車載計算機整合進汽車、乘客需要掌控哪些汽車控制功能等等。於是,谷歌打造的第一輛自動駕駛汽車就這樣誕生了。據雷鋒網了解,在早期的頭腦風暴中,團隊提出了一些較為誇張的設計理念,比如把無人車設計為一個帶著輪子的沙發。