谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新

2021-01-12 機器之心Pro

選自Google Blog作者:Julian Ibarz機器之心編譯參與:李澤南、晏奇

谷歌地圖的街景功能擁有 800 億張高解析度圖片,而且這個數字還在以每天百萬的速度不斷增加。街景圖片是獲取準確地理信息的絕佳渠道,而利用深度學習從圖片中獲取信息,並實時更新地圖地址內容正是谷歌研究團隊努力的目標。

每一天,谷歌地圖都會為數百萬人指路,並提供相應的實時路況信息和商店推薦。為了向用戶提供最好的體驗,這些信息必須隨著不斷變化的世界實時更新。谷歌街景車每天都會收集數百萬張圖片,而人工分析這超過 800 億張高解析度圖片中的信息,試圖找出其中的新變化是一個不可能完成的任務。谷歌 Ground Truth 團隊正在研究如何讓計算機自動將圖片中的內容轉變為谷歌地圖需要的信息。

在最近的一篇論文《Attention-based Extraction of Structured Information from Street View Imagery》中,谷歌的研究者討論了使用深度神經網絡在多個國家收集到的街景圖中讀取街道名的任務。谷歌的算法在「French Street Name Signs(FSNS)」數據集中達到了 84.2% 的準確率,表現大大超過了此前表現最好的系統。更重要的是,新系統除了可以讀取街道名稱,還可以自動讀取圖片中的商戶名,以及其他信息。谷歌近日已將這一模型開源。

Github 地址:https://github.com/tensorflow/models/tree/master/attention_ocr

在 FSNS 數據集中的街道名被谷歌的系統成功轉錄,這個路標提供了四張不同圖片。

在自然環境中識別文字對於計算機視覺和機器學習而言是一個非常具有挑戰性的任務。傳統的光學字符識別(OCR)系統主要適用於從文件中掃描信息,而從自然視角中獲取文字則面臨更多麻煩,失真、遮蔽、方向模糊、複雜背景和不同視角都會對識別產生影響。谷歌應對這一挑戰的研究從 2008 年就開始了,他們曾使用神經網絡來模糊結晶圖片中的人臉與車牌以保護隱私。在先前階段的研究中,研究人員逐漸意識到經過足夠已標記數據的訓練後,機器學習不僅可以用來保護用戶隱私,還可以自動為谷歌地圖進行實時信息的更新。

在 2014 年,谷歌 Ground Truth 團隊發布了當時最好的讀取街景門牌(SVHN)數據集中門牌號的方法。這一應用是由 Ian Goodfellow 等人提出的,它不僅引起了學界的關注,也切實改變了谷歌地圖的面貌。今天,全球大約 1/3 的地址都是由這一系統提供的。在一些國家如巴西,Goodfellow 等人的算法為谷歌地圖提供了超過 90% 的地址,極大地增強了地圖的可用性。

在門牌號之後,最合情理的下一步就是將這些技術延展到街道名稱上了。為了解決這一問題,谷歌團隊首先發布了法國街道路標數據集(French Street Name Signs,FSNS),一個擁有超過一百萬街道名稱的訓練數據集。FSNS 數據集是多年努力的成果,旨在幫助所有開發者提升自己的 OCR 模型在實際應用中的性能。FSNS 數據集比 SVHN 數據集更大,也更具挑戰性,準確識別一張街道標識可能需要對於同一個標識不同角度的圖片進行合併處理。

SVHN 數據集:http://ufldl.stanford.edu/housenumbers/

FSNS 數據集:https://github.com/tensorflow/models/blob/master/street/README.md

這是一些具有挑戰性的標識,它們由谷歌的系統通過選擇或結合對圖像的理解而恰當地進行了轉錄。第二個例子就更具挑戰性了,但是由於模型提前學習了一個語言模型,這使得它能夠去除模糊而正確的認讀街道的名字。

2016 年,使用這個訓練集,谷歌實習生 Zbigniew Wojna 用整個夏天開發出了一個深度學習模型架構,該架構可以自動對街景圖像進行標記。新模型的其中一個有趣的功能是它可以將文本規範成與我們日常命名習慣一致的方式。

例:從來自巴西的數據中習得的文本規範化。在這裡,系統將「AV.」改成了「Avenida」,並且將「Pres.」改成了「Presidente」,這正是我們想要的。

在本例中,模型並沒有因為圖中有兩個街道名而暈頭轉向,它很好的將「Av」轉換成了「Avenue」,同時它也正確地忽略了數字「1600」。

儘管該模型很精確,但是它也還是存在一系列達 15.8% 的錯誤率。然而,通過分析錯誤的例子,研究者發現其中 48% 是由於現實場景就是錯的。這突顯出新模型與標記質量平分秋色(對錯誤率完整的分析可參見論文)。

與提取街道數字的系統結合後,這個新系統讓我們可以從圖像中直接創造出新的地址,要知道這些街道名字或是地址的位置在事先是不知道的。現在,只要一臺街景車開到任何一條新修的街道上,谷歌的深度學習系統就可以分析被捕獲的成千上萬張圖像,提取街道名字和數字,並且適當的在谷歌地圖上自動創造和定位新的地址。

但是,自動創造地址對於谷歌地圖來說還不夠——研究人員在未來希望能夠依據名字來提供對商戶的導航。2015 年,谷歌發表了「從街景圖像中發現大規模商戶(論文地址:https://arxiv.org/abs/1512.05430)」的論文,它為人們提供了一個可以在街景圖像中精確探測商戶標牌的方法。

通過使用不同的訓練集,谷歌用於讀取街道名字的模型架構也同樣可被用於從商戶外牆上精確提取商戶名字。在這個例子中,深度學習系統可以僅提取這樣的商戶名字:它們讓開發者可以驗證自己是否已從谷歌地圖中知道了這家商戶。這種提取商戶名的功能讓開發者們可以更精確地持續更新商戶變化的情況。

儘管沒有從圖片名稱中獲取任何有關真實地址的信息,系統還是識別出了商戶名「Zelina Pneus」。模型也沒有被商戶名旁邊的輪胎品牌(普利司通)所迷惑。

將超過 800 億張街景圖使用這一模型處理是一個十分耗費計算能力的任務。對此,谷歌 Ground Truth 團隊使用了新研發的 TPU,極大地解決了計算機資源的耗費。

人們依賴於谷歌地圖的協助,而讓地圖隨著城市、道路與商業區域的成長而同步更新仍然是一個非常有挑戰性的任務。谷歌 Ground Truth 團隊將會繼續努力,將更多機器學習技術帶給谷歌地圖的用戶。

論文:Attention-based Extraction of Structured Information from Street View Imagery

論文連結:https://arxiv.org/abs/1704.03549

我們提供了一個神經網絡模型——基於 CNN、RNN 和一種全新的注意機制,它在 FSNS 數據集挑戰中達到了 84.2% 的準確率,大大超過了此前最好的模型(Smith, 2016;準確率 72.46%)此外,新的模型比舊模型更加簡單,也更具通用性。為了展示新模型的能力,我們讓它在更具挑戰性的谷歌街景圖數據集中讀取商戶名。最後,我們研究了在不同 CNN 深度的情況下速度/準確性的變化趨勢,我們發現更深並不一定意味著更好(在準確性和速度上都是這樣)。我們的最終模型簡單、快速而且準確,可以在具有挑戰性的真實世界環境中應用於多種不同任務。

原文連結:https://research.googleblog.com/2017/05/updating-google-maps-with-deep-learning.html

相關焦點

  • 谷歌地圖重大升級 用深度學習實時更新街景
    雷鋒網AI科技評論按:每天,谷歌地圖都為成千上百萬的人們提供方位指示,實時路況信息以及商業信息。為了提供最佳的用戶體驗,地圖信息需要不斷的根據現實世界的變化做出調整。街景車每天收集數百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。
  • 谷歌地圖重大升級 街景居然能實時更新
    每天,谷歌地圖都為成千上百萬的人們提供方位指示,實時路況信息以及商業信息。為了提供最佳的用戶體驗,地圖信息需要不斷的根據現實世界的變化做出調整。街景車每天收集數百萬張圖片,如果用人工分析每天超過800億張高清晰圖片來找出其中的新變化或者更新地圖信息,顯然是不可能的。
  • 谷歌利用眾包老照片還原兒時3D街景,瀏覽器即可體驗
    這是一個運行在Google Cloud和 Kubernetes 上的開源、可擴展的系統,可以根據歷史地圖和照片重建城市,這是谷歌今年早些時候推出的開源工具套件的一個實現。2.一個時態地圖伺服器,顯示城市地圖是如何隨時間變化的。3.一個3D體驗平臺,通過深度學習,利用有限的歷史圖像和地圖數據重建三維建築,創建三維體驗。谷歌的目標是使得 「r」可以讓歷史愛好者虛擬地體驗世界各地的歷史城市,幫助研究人員、政策制定者和教育工作者的某些工作,並為日常使用者提供一種新的懷舊方式。
  • 誰說導航一定要用地圖?谷歌DeepMind的強化學習模型靠街景認路
    那會兒你可能還不知道什麼是地圖,也沒有導航軟體。但那條路的畫面都在腦子裡刻著。茂密的竹林,很多蛇出沒的小山丘,還有泥鰍抓不完的池塘。這就是我們從小對空間世界感知的途徑,通過路的特徵畫面構建地理認知。等到慢慢長大了,需要去更遙遠的地方,路上可參考的熟悉的地標越來少,尤其是新的城市時,才開始用起了地圖。
  • 自我學習讓神經元網絡 谷歌街景可自動識別門牌號
    不過,身兼地圖服務商的谷歌近期就提供了一套解決方案,谷歌將街景小車進行圖像採集時拍攝到的街道門牌號碼與對應地理位置進行匹配,從而將每幢建築的門牌號碼信息錄入了谷歌街景資料庫。 這項工作的難點在於,確認和識別門牌號碼是一項耗時巨大且極其繁重的工作。谷歌的街景小車相機拍攝的全景照片高達數億張,通過人工搜索圖像來確認門牌號碼幾乎是不可能完成的。
  • 李飛飛最新論文:結合深度學習和谷歌街景來估算美國人口結構
    這篇論文主要論述了如何將谷歌街景車搜集來的機動車輛數據,結合機器學習算法,從而估算出本地區人口的特徵和組成,甚至這一地區居民的政治傾向。這些例子表明,計算方法可以促進社會經濟領域的研究發展,最終可以詳細、實時地分析人口趨勢,並且成本很便宜。我們的研究表明,結合公共數據和機器學習方法,可以得到社會經濟數據和美國人的政治傾向。我們的流程裡,針對幾個城市耗費少量人力來搜集數據,然後用來預測全美的狀況。具體而言,我們分析了由谷歌街景汽車在200個城市裡搜集來的5000萬張圖片。
  • 有多少人被谷歌街景地圖「偷拍」過?
    谷歌街景地圖的強大功能暴露了兩人多年來的貌合神離。人在做,不僅天在看,可能谷歌地圖也在悄咪咪的盯著你。你的一切舉動都逃不過街景地圖拍攝車的隨手拍攝。街景地圖為了可以方便人們查看真實的場景,也絲毫不掩飾的拍下了這些路邊工作者的一舉一動。
  • 谷歌發布地圖「時光機」:100年前,你家街道長啥樣?
    這樣一臺「時光機器」的引擎,是谷歌推出的基於瀏覽器的工具集rǝ(音return),主要由3部分組成:一個眾包平臺。用戶可以上傳城市歷史地圖,將其與現實世界的坐標進行匹配,完成地理修正,並將其矢量化。 一個時空地圖伺服器。能顯示城市地圖是如何隨時間變化的。 一個3D體驗平臺。運行在rǝ地圖伺服器之上,利用深度學習,根據有限的歷史圖片和地圖數據重建3D建築,創造3D體驗。
  • 谷歌新研究:用2D網圖就能合成3D地圖模型
    但這些大規模的虛擬世界/地圖,需要依靠大量數據支撐。目前,覆蓋面最廣的VR地圖之一非谷歌街景莫屬,其通過出借全景相機等眾包方式,收集了來自世界各地的360°地圖影像。  當然,或許未來的AR地圖市場還將由谷歌主導,因為從谷歌最新的研究成果來看,他們似乎已經掌握快速從眾包數據生成3D相片的方案,並計劃將它應用於AR/VR中。
  • 「飛槳產業級深度學習開源開放平臺」發布
    10月16日,首屆世界科技與發展論壇在北京舉辦。百度首席技術官王海峰出席論壇,並向現場來自全球20多個國家和地區的200多名院士、諾貝爾獎獲得者、世界重要科技組織會員、大學校長和企業家,發布「飛槳產業級深度學習開源開放平臺」最新成果。
  • 深度學習之父低調開源 CapsNet,欲取代 CNN
    ——Geoffrey Hinton醞釀許久,深度學習之父Geoffrey Hinton在10月份發表了備受矚目的Capsule Networks(CapsNet)。 Hinton本次挾CapsNet而來,大有要用它取代CNN的氣勢。
  • 谷歌地圖更新:增加谷歌地球觸感等多項新功能
    谷歌剛剛宣布了今天推出的新版谷歌地圖臺式應用的幾項更新。用戶現在將只需要點擊屏幕右下角一個新的小黃人圖標,就能夠在地圖上突出街景圖片、用書上傳的照片以及Photo Spheres。
  • 街景地圖這樣拍遍全世界
    【PConline 雜談】早在10年前,谷歌就推出了給人們在掌寸之間「環遊全世界」的街景服務,雖然當時覆蓋的城市有限,但現在這樣的街景地圖已經遍及世界。在VR內容火熱的時候,街景地圖加入了VR功能的支持,「身臨其境」體驗世界各地的風土人情,變得可行而且具象,但同時也有很多人好奇,這樣真實又龐大的街景地圖是如何拍攝的呢?
  • 谷歌地圖推出了阿爾法AR導航功能 能為用戶提供基於真實街景的導航
    不過這種尷尬的情況很快就能改變了,近日谷歌地圖推出了阿爾法AR導航功能,能夠在實時的路口等地為用戶提供基於真實街景的AR導航功能。 相比較傳統導航,需要肉眼觀察實景來判定是否達到目的地來說,AR街景的終點提示顯得非常省心,畢竟在很多時候沒有明確的終點提示,對於不熟悉近況的人來說終點依舊是達不到的遠方。 對於AR街景導航功能谷歌地圖表示, AR 導航絕對不適合開車場景使用的。
  • iOS版谷歌地球應用更新 增加街景功能
    今天,谷歌公司針對iOS版谷歌地球(Google Earth)應用推出了全新版本。新版本最大的變化就是增加了谷歌街景(Street View)功能。一直以來,iOS版的谷歌地圖用戶如果想要使用谷歌街景功能,不得不需要面對在谷歌地圖和谷歌地球應用之間來回切換的尷尬。而今天谷歌針對此問題進行了回應,推出了內置街景功能的谷歌地球應用。全新內置的街景功能在谷歌地球衛星圖像的基礎上首次引入了之前在網頁版中存在的縮放功能。
  • Facebook宣布開源深度學習框架Caffe2用於人工智慧
    【PConline 資訊】據英國媒體4月19日報導,在Facebook F8開發者大會上,Facebook宣布開源Caffe2深度學習框架,用於人工智慧模型和應用開發。Caffe2以產品為導向,並致力於智慧型手機上大規模機器學習系統的配置。
  • 谷歌街景與reCAPTCHA團隊已將街道門牌識別率提升至90%
    幾年前,Google啟動了一項試驗,其中包括在reCAPTCHAS(某種驗證碼服務)裡,識別谷歌街景所拍攝的門牌號碼,以便幫助網站降低垃圾郵件等信息的騷擾
  • 西安街景地圖昨正式上線 民族品牌PK谷歌地圖
    昨日,「天地圖·陝西」 2013版暨西安街景地圖正式上線,這也是全國省級第一個發布上線的街景地圖。今後,市民足不出戶即可「親臨」各地,360°全視角瀏覽指定位置的實地場景信息。「民族品牌」天地圖 PK 「美國籍」谷歌地圖信息更豐富 精度更高 畫質更清晰本報訊 據悉,「天地圖·陝西」是由國家測繪地理信息局和省測繪地理信息部門聯合構建的。相對已經被人們廣泛接受的「美國籍」谷歌地圖,新生的「天地圖·陝西」可謂咱的「民族品牌」。
  • 谷歌街景地圖多次因侵犯隱私被罰
    谷歌街景地圖的拍攝過程谷歌街景是谷歌旗下谷歌地圖的一部分,在造福社會的同時也引來不少官司,被懲高額罰金。谷歌2007年推出街景服務,用街景車收集街道圖像,實時展示在谷歌在線街景地圖上。2008年至2010年,谷歌公司的幾輛「街景」拍攝車遊遍比利時全境,採集了大量圖片和其他信息作為「谷歌地圖」的數據信息。拍攝車同時配備電子掃描儀,能夠沿途掃描無線網際網路信息。如果被掃描到的無線網際網路沒有採取保護措施,谷歌能夠收集、存儲密碼和電子郵件等被發送的數據信息。
  • 李飛飛團隊最新成果:識別谷歌街景中汽車圖像,預測人口政治傾向
    研究人員通過算法對谷歌街景圖像中各社區的汽車類型和位置數據進行分析,在此基礎上可為人口統計提供重大參考,其中包括可以預測社區人員的政治傾向。利用谷歌街景的人工智慧算法分析幾乎可以實時生成分析結果,相較社區調查優勢顯著。 "You are what you drive." 從低調的賓利到實用的皮卡,美國人認為你所開的汽車就代表了你的個性。