MIT 更新最大自然災害圖像數據集,囊括 19 種災害事件

2020-09-04 數據派THU

來源:HyperAI超神經
本文約2600字,建議閱讀9分鐘本文為你分享迄今為止規模最大、質量最高的自然災害衛星圖像數據集。
標籤:自然災害 數據集
[ 摘要 ]麻省理工學院在最近 ECCV 2020 上提交的一篇論文中,發布了一套自然災害圖像數據集。這是迄今為止規模最大、質量最高的自然災害衛星圖像數據集。
2020 年,多災多難的一年。年初爆發的疫情,夏天南方的洪災,近期美國加州的野火……

洪災、山火、地震之類的自然災害,總是威脅著人們的生命財產安全。而在無法避免其發生的情況下,如果能夠及時、迅速地發現一些細微的變化,就能更好地制定相應救援方案,更合理地進行資源配置,同時也有助於進行相關新聞的報導。

因此,麻省理工學院的工程學碩士生 Ethan Weber 和合作者 Hassan Kan,在最新論文《Building Disaster Damage Assessment in Satellite Imagery with Multi-Temporal Fusion》(《具有多時相融合的衛星影像中的建築物災害破壞評估》)中提出了一個深度學習模型,能夠對受損區域的衛星圖像進行更快、更精準的評估,從而為急救人員爭取更多的時間、最大程度地減少損失。

該論文在近期 CV 頂會 ECCV 2020 上發表

論文地址:https://arxiv.org/pdf/2004.05525.pdf


與此同時,他們還發布了一個最新的用於損壞評估的衛星圖像數據集,讓圖像事件檢測的相關研究更進一步,研究人員能實現更精確的定位和量化損失。


用 AI 與時間賽跑:加速災情評估

對於自然災害,現場應急小組減少反應時間,迅速響應、採取行動,對於減少損失和挽救生命至關重要。此外,為了更好地在受災地區部署資源,應急人員必須了解損失的確切位置和嚴重性,這些同樣重要。

目前,應急人員通常通過人力觀察衛星圖像的方法,來評估災害損壞程度,但評估過程可能要花費數小時之久,這對於搶救工作極為不利。

人員觀察分析衛星圖像耗時耗力

是目前自然災害評估工作中的一個瓶頸


Ethan Weber 的這項研究貢獻在於,創建自動分析圖像的工具,減少圖像分析時間,贏得與時間的賽跑。

另外,其研究通過共享權值的 CNN(卷積神經網絡),獨立地提供災前和災後圖像,可以獲得更好的性能。

他們還提出了一種新的計算機視覺模型,該模型能夠檢測在 Twitter 和 Flickr 等社交媒體平臺上發布的圖片中的事件。

論文中提出的建築損壞預測、評估模型架構


標記 19 種自然災害的 22068 張圖像

除了提出新模型外,該研究團隊還重磅發布了一個新的事件數據集:xBD 數據集。

該數據集包含 22068 張圖像,標記有 19 種不同的事件,包括地震,洪水,野火、火山爆發和車禍等。這些圖像包括了災前、災後圖像,圖像可用於構建定位和損傷評估這兩項任務。

颶風災前圖像(左圖)與災後圖像(右圖)


據介紹,xBD 數據集是迄今為止第一個建築破壞評估數據集,是帶注釋的高解析度衛星圖像中規模最大、質量最高的公共數據集之一。其基本信息如下:

xBD Dataset發布機構:MIT包含數量:22068 張圖像數據格式:png數據大小:31.2GB更新時間:2020 年 8 月下載地址:https://hyper.ai/datasets/13272

這些圖像解析度為 1024×1024,其中每個建築物都有標識符,並在災前災後圖片中保持一致。

但研究者發現建築物的解析度往往太小,模型無法準確繪製建築物邊界。為此,他們在 4 張 512×512 的圖像上訓練和運行模型,形成左上角、右上角、左下角和右下角象限。

根據這些災前和災後數據,損傷評估可以被定義為單時間和多時間任務。在單時間設置中,只有災後圖像被輸入模型,該模型必須預測每個像素的損傷水平。在多時間背景下,災前災後圖像都被輸入到模型中,該模型必須在後圖像上預測損傷程度。

團隊綜合多方資料,制定的損壞評估量表


數據集從何而來?

團隊表示,這套新數據集旨在填補該領域的空白。現有數據集的圖像數量和事件類別的多樣性都受到限制。

作者還解釋了如何創建數據集、如何創建模型以檢測圖像中的事件,以及如何過濾嘈雜的社交媒體數據中的事件。

他們的其中一項工作是,過濾了 4000 萬張 Flickr 圖片,來尋找災害事件。另外一些工作則是可對地震,洪水和其他自然災害期間,發布在 Twitter 上的圖像進行過濾。

比如,該團隊將與自然災害相關的推文過濾為特定事件,並通過將推文頻率與美國國家海洋和大氣管理局(NOAA)提供的資料庫相關聯,來驗證這一過程。

Ethan Weber 說:「我對這個數據集能夠進行進一步的研究以檢測圖像中的事件感到興奮,它也非常有效地激發了人們對計算機視覺界的興趣。」

他還表示,社交媒體和衛星圖像都是有助於應急響應的數據形式。社交媒體提供實地觀察,而衛星圖像提供宏觀的觀察(expansive insights),例如確定哪些地區受野火影響最大。

每逢災害發生,網友通常會在社交媒體上發布實地拍攝照片


正是意識到這種相互聯繫,Ethan Weber 和他的校友合作,在損害評估方面做出了卓越的成績。

Ethan Weber 說:「現在我們有了數據,對定位和量化破壞很感興趣。我們正在與應急組織合作,以保持專注並開展具有現實利益的研究。」

訪問 https://hyper.ai/datasets/13127 或點擊原文閱讀,即可高速下載該數據集。


編輯:黃繼彥

——END——

想要獲得更多數據科學領域相關動態,誠邀關注清華-青島數據科學研究院官方微信公眾平臺「 數據派THU 」。

相關焦點

  • 聯合國:過去20年間全球與氣候有關的災害數量出現驚人增長
    該報告的統計數據顯示,過去20年間,全球共記錄發生了7348起自然災害事件,遠遠超過1980年至1999年間的4212起;這七千多起自然災害造成123萬人死亡,帶來2.97萬億美元經濟損失,受災人口高達40億。
  • 自然科學|《地球的災害—自然災害篇》與《地球的災害—人為災害篇》
    《地球的災害—自然災害篇》分別分成《地震》、《火山爆發》、《山崩和雪崩》、《颱風和颶風》、《洪水和海嘯》、《饑荒和瘟疫》等六大部分,通過天然災害的介紹了解其成因
  • 今日Paper | COVID-19感染者篩查;生成式摘要;圖像融合數據集;端到...
    MFFW:一種新的多聚焦圖像融合數據集基於互連卷積神經網絡的端到端臉部分析AAAI2020|基於多任務驅動特徵模型的熱紅外目標跟蹤  異常呼吸模式分類器可能有助於以準確和不顯眼的方式對COVID-19感染者進行大規模篩查論文名稱:Abnormal
  • 建國前氣象災害歷史資料數據集整理完成
    中國氣象報通訊員韓瑞報導 近日,國家氣象信息中心資料服務室承擔的氣象監測與災害預警工程項目「省級及建國前氣象災害歷史資料處理」順利通過了業務驗收,建國前和建國初期(1898~1953年)中國多個氣象觀測資料數據集整理完成。
  • CMU大佬分享三類優質數據集:綜合、CV和NLP
    主要包括了綜合性數據集、CV計算機視覺數據集和NLP自然語言處理數據集。 PS:以前我們也分享過一些數據集的資源,感興趣的可以在公眾號歷史文章中搜索查看,數據集系列也會持續更新。 一、綜合性機器學習數據集 1.
  • 國務院公布5件自然災害類突發事件應急預案
    2006-01-11 08:20:28 | 來源:新華社   國務院近日發布5件自然災害類突發公共事件專項應急預案
  • MIT發現:ImageNet數據集存在系統性缺陷,用作基準數據集時與真實值不一致
    2009年,當史丹福大學視覺實驗室(Stanford University Vision Lab)在計算機視覺和模式識別(CVPR)會議上介紹ImageNet時,它比許多以前存在的圖像數據集要大得多。ImageNet的數據集包含了數百萬張照片,是在兩年多的時間裡收集到的。ImageNet將WordNet層次結構用於數據標籤,並被廣泛用作對象識別模型的基準。
  • NIH開源迄今最大臨床醫療圖像數據集,用深度學習構建通用疾病檢測...
    新智元報導來源:HIN作者:大明,聞菲   【新智元導讀】NIH臨床中心最新公布了一個迄今規模最大的多類別、病灶級別標註臨床醫療CT圖像開放數據集DeepLesion,研究人員在此基礎上訓練深度神經網絡,創建了一個具有統一框架的大規模通用病灶檢測器,能夠更準確、更自動地衡量患者體內所有病灶的大小,實現全身範圍的癌症初步評估。
  • 清華構建新一代數據集NICO,定義圖像分類新標準
    我們認為結論顯然是否定的,在真實場景下由於時空的約束性,訓練數據「一旦採集,就已落後」,時空維度上的跨度不可避免地會帶來數據分布上的異質性,從而打破I.I.D.假設。例如對於自動駕駛而言,最大的考驗就是不可預測的駕駛場景:更新換代的模型、不曾見過的街景、甚至是行人潮流穿搭上的變化都可能成為危險的誘因。那麼為什麼機器學習模型容易在數據分布變化時出現決策失誤呢?
  • 數據集被下線!MIT道歉:給黑人標N*gger,比基尼姑娘標記妓女
    事實上,我們已經將數據集下線,這樣違規的圖片和類別就可以被刪除。」在CSAIL網站上的一份聲明中,CSAIL表示,由於圖像太小,無法人工進行手動檢查和過濾,數據集將永久離線。:引起我們注意的是,微小的圖像數據集包含一些貶義詞分類和冒犯的圖像。
  • 突發事件應對案例之自然災害篇
    湖南4-10月,總輻射量佔全年總輻射量的70%-76%,降水量則佔全年總降水量的68%-84%,最大月雨量超過800毫米,最大日雨量超過300毫米,年平均降水量在1200-1700毫米之間,雨量充沛。大範圍的強降水常使江河水位猛漲,大片農田被淹,是造成洪澇災害的直接原因。二是氣候年內與年際的變化較大。冬寒冷而夏酷熱,春溫多變,秋溫陡降,春夏多雨,秋冬乾旱。
  • 自然災害的形成、特徵及影響
    自然災害的形成與發展  凡危害動植物的各類事件通稱之為災害。縱觀人類的歷史可以看出,災害的發生原因主要有二個:一是自然變異,二是人為影響。因此,通常把以自然變異為主因的災害稱之為自然災害,如地震、風暴,海嘯;將以人為影響為主因的災害稱之為人為災害,如人為引起的火災、交通事故和酸雨等。
  • ...中國洪澇災害數據專題服務網站上線 可查詢災害前後遙感數據集
    本文轉自【央視新聞客戶端】;近日,由中科院空天信息創新研究院負責運維的國家對地觀測科學數據中心和國家綜合地球觀測數據共享平臺聯合發布「2020年夏季中國洪澇災害數據專題服務」網站(www.chinageoss.cn/cddr),為地方政府、減災機構和科研院所提供科學數據支撐和信息保障
  • 1999年臺灣集集地震災害特徵對抗震韌性城鄉建設的啟示
    成為二戰後臺灣最嚴重的一次自然災害。今天是集集地震21周年紀念日,回顧分析1999年集集地震災害的主要特徵及其社會經濟影響,對於我國抗震韌性城鄉建設具有重要的啟示和借鑑意義。臺灣集集地震災害的主要特徵及其影響包括以下6個方面:(1)斷層錯動形成的破裂帶和斷層上盤效應破壞力極大。
  • 計算生物入侵成本 最新全球數據集覆蓋90國343物種
    中新網北京9月9日電 (記者 孫自法)施普林格·自然旗下國際專業期刊《科學數據》最新發表的一篇生態學研究論文,在線描述了一份數據集呈現出生物入侵對全球造成的經濟成本,這一可更新的數據集迄今已囊括1945年至2017年、與90個國家的343個物種有關的2419項估算成本。「生物入侵」是指原生生境以外物種的引入和傳播。
  • 前沿| MIT研發語音關聯的圖像識別系統,一次破解所有語言
    世界上有 7000 種語言,我認為只有不到 2% 具有自動語音識別(ASR)的能力,我們可能無暇解決其它語言的語音識別問題。因此,如果你在思考技術怎樣造福整個社會,那麼思考為了改變現狀我們可以做什麼也是很有趣的。我們多年來一直在探索的方法是怎樣在減少監督的情況下實現機器學習。」Glass 說道。
  • 前沿 MIT研發語音關聯的圖像識別系統,一次破解所有語言
    世界上有 7000 種語言,我認為只有不到 2% 具有自動語音識別(ASR)的能力,我們可能無暇解決其它語言的語音識別問題。因此,如果你在思考技術怎樣造福整個社會,那麼思考為了改變現狀我們可以做什麼也是很有趣的。我們多年來一直在探索的方法是怎樣在減少監督的情況下實現機器學習。」Glass 說道。
  • 專刊徵稿:重大地震災害與減災
    地震災害不僅會造成生命和財產的直接損失,而且能引起一系列次生自然災害及社會災害。中國是地震多發地區,中國大陸及其鄰近地區發育著眾多具有發生破壞性地震能力的不同類型活動構造,面臨著極高的地震災害風險。對重大地震災害案例進行詳細科學的研究,可以為地震災害預測與防治積累寶貴的經驗。
  • 自然災害造成全球發展滯後 - 經濟日報多媒體數字報刊
    本報日內瓦電 記者陳建報導:世界氣象組織日前發布報告指出,天氣、氣候以及與水相關的自然災害正在全球範圍內呈上升趨勢,並造成大量生命損失,使經濟和社會發展滯後數年乃至數十年。從1972年到2012年,全球共發生了8835次自然災害,造成194萬人死亡,經濟損失高達2.4萬億美元。
  • 印發廣東省自然災害救助應急預案的通知
    總則  1.1 編制目的  建立健全我省應對突發自然災害救助應急體系和運行機制,規範應急救助行為,提高應急救助能力,高效、有序地實施應急救助,最大程度減少人民群眾的生命和財產損失,維護災區社會穩定。  1.2 編制依據  依據《中華人民共和國憲法》、《中華人民共和國突發事件應對法》、《中華人民共和國公益事業捐贈法》、《中華人民共和國防洪法》、《中華人民共和國防震減災法》、《中華人民共和國氣象法》、《國家自然災害救助應急預案》、民政部《救災捐贈管理辦法》、《廣東省突發公共事件總體應急預案》、《廣東省自然災害救濟工作規定》及國家和廣東省有關救災工作方針