世界最大的博物館研究聯合體發布免費線上圖像數據集,你想好用它來...

2021-01-10 雷鋒網

近日，史密森尼學會宣布，將 280 萬張其收藏的高解析度二維和三維圖像發布到一個開放的在線平臺上，用戶可以免費閱讀和下載這些資源。

史密森尼學會是美國一系列博物館和研究機構的集合組織，擁有世界最大的博物館系統和研究聯合體。成立於 1846 年，其宗旨是「知識的增長和傳播」。

成立 174 年以來，這是史密森尼學會首次做這樣的嘗試。這個資料庫包括史密森博物館、9 個研究中心、圖書館、檔案館和國家動物園等 19 個博物館的數據和資料，旨在鼓勵公眾發揮自己的想像力，重複使用並將其轉換為他們選擇的任何東西，無論是明信片，啤酒 koozie 還是短靴、短褲。

開放獲取，自由創作

該資料庫的發布也標誌著全球不斷努力將博物館藏品遷移到公共領域的最新勝利。

近年來，包括阿姆斯特丹國家博物館、紐約大都會藝術博物館和芝加哥藝術學院在內的全球近 200 家機構也採取了類似的舉措，將它們的傑作數位化並發布出來。但倫敦國王學院數字文化遺產專家 Simon Tanner 表示，史密森尼學會的發行規模在深度和廣度上都是「前所未有的」。

該資料庫涵蓋了藝術、人文、科學和工程等領域，數據集的規模之大令人震驚，它做到了以前很難想像的事情，開闢了跨越科學和文化、空間和時間的更廣泛的內容範圍。這是對人類知識的驚人貢獻。

Effie Kapsalis 是史密森尼學會的高級數字項目官員，正在領導這項工作，她表示，他們的關鍵使命是成為世界各地人們的學習資源，「我們無法想像人們會如何處理這些收藏品，但我們已經做好了接受驚喜的準備。」

直到最近，史密森尼學會仍然保留對其藝術作品的高質量數字版本的權利。根據 CreativeCommonsZero（CC0），新資料庫中指定為 CC0 的部分不受版權限制，人們可以根據自己的想法和靈感，自由地利用這些圖像，包括用於商業目的。

目前，已經有人用這些數據做出了自己的作品。

藝術家 Amy Karle 製作了一系列雕塑，這些雕塑描繪了國家自然歷史博物館中有著 6600 萬年歷史的三角龍 Hatcher。Karle 擅長強調身體形態和功能的三維藝術作品，她熱衷於利用現代科技讓化石復活。她的九個三維印刷雕塑中有六個是 Hatcher 脊椎的複雜模型，每一個都在生物工程的精神下稍微「重新混合」。

三角龍化石形態重建

Amy Karle 創作的三角龍「Hatcher」系列雕塑

此外，插畫家 duo Jon Scieszka 和 Steven Weinberg 發布了一本教孩子們將史密森尼學會的收藏品轉變成滑稽的新藝術形式的小冊子。這與他們 2019 年的兒童讀物《AstroNuts》相呼應，該書採用了一組從 2013 年荷蘭國家博物館發布的圖片拼湊成了一系列五顏六色的滑稽角色。

duo Jon Scieszka 和 Steven Weinberg 發布的小冊子

在這本小冊子中，史密森尼學會的創始人 James Smithson 在 AstroNuts 隨行人員的陪同下，引導讀者完成了示例 Collagasaurus 的構造工作，該作品由博物館中公共領域的中流砥柱組成，包括 George Washington 的手臂，劍龍的尾巴和 Charlie Parker 的薩克斯管（圖中大象的鼻子）。

「Steven 和我就是為此而生，」Scieszka 說，「我喜歡做的事情是拿到一件東西，然後把它弄得一團糟。」他補充道，他們的目的是鼓勵孩子們也這樣做，這一過程中有所收穫。

Weinberg 說，當孩子們自己動手的時候，那就是深入研究某個主題的開始，他們將擁有非常豐富的藝術品知識。

Sallie E.Garrity 的 Ida B.Wells

在開放獲取時代，大量的研究工作也可能蓬勃發展。在與 Google 的一次合作中，史密森學會在其數據集中部署了機器學習算法，充實了其塑造科學史的著名女性名單。

Tanner 說，如果人們所依賴的知識是公開的，那麼你就可以更頻繁、更早地獲得創新。

2020 年還將發布 20 萬張圖片

如何獲取這些數字資源？

該資料庫的官方網址為：https://www.si.edu/openaccess

此外，還可以通過以下途徑獲取這些數據：

2019 年，史密森尼的網站訪客達到了 1.54 億人次，網站總滿意度為 80%，YouTube 視頻點擊量為 3.076 億。2019 年年底，史密森尼的 Facebook、Twitter、Instagram 粉絲總數達到了 1,660 萬。這些數據表明，史密森尼的數字資源能力毋庸置疑。

自 2020 年 2 月 20 日數字資源開放以來，資源訪問量累計 4,417,104 次，下載 32，649 次。

2 月 20 日以來的訪問量和下載量

然而，這只是一個開始。史密森學會在首次發行中發布的藏品不到總藏品的 2%。在 2020 年餘下的時間裡，史密森博物館將再發布 20 萬張左右的圖片，隨著該機構繼續將 1.55 億件收藏品數位化並進行統計，還會發布更多的圖片。

雖然其餘資源也會陸續開放，但 Kapsalis 強調，在可預見的未來，有些重要的內容不可能會公開，包括瀕危物種的位置信息、剝削性圖像和邊緣化社區的文物。她解釋說，如果這些數據和材料被公布，可能會危及弱勢群體的生計、價值觀甚至生存。

Kapsalis 說，過去人們捕捉某些文化的方式並不總是尊重他人的。她認為，在道德上，我們不能把這些項目放在開放的途徑分享。在開放之前必須諮詢受影響的社區，他們的意見才是最重要的。

最重要的是，開放訪問計劃在史密森尼學會及其全球受眾之間建立了一種重新定義的關係。這意味著信任必須是雙向的。但同時，這次發布也是該機構使命的體現，即「知識的增長和傳播」。人們將不僅僅是史密森尼學會的參觀者，還將是其遺產的參與者和創造者。

via：https://www.smithsonianmag.com/smithsonian-institution/smithsonian-releases-28-million-images-public-domain-180974263/

https://www.si.edu/openaccess

雷鋒網雷鋒網雷鋒網(公眾號：雷鋒網)

雷鋒網版權文章，未經授權禁止轉載。詳情見轉載須知。

相關焦點

上海交大發布 MedMNIST 醫學圖像分析數據集 & 新基準

By 超神經內容概要：醫學圖像分析是一個非常複雜的跨學科領域，近日上海交通大學發布了 MedMNIST 數據集，有望促進醫學圖像分析的發展。首先它是一個跨學科領域，要求從業者具備多方面知識背景，即使你是鑽研計算機視覺的專業人士，又或者是一個臨床醫學從業者，那你充其量只邁出了進行醫學圖像分析的半隻腳。
留學生,這些Youtube免費線上資源了解一下?

漫長的隔離期間，待在家裡，除了學習，我們還能做些什麼來開拓視野呢？居小堂而妙觀天下01大英博物館大英博物館位於英國倫敦新牛津大街北面的羅素廣場，是世界上歷史最悠久、規模最宏偉的綜合性博物館，也是世界上規模最大、最著名的世界四大博物館之一。
吳恩達團隊公布最大醫學影像數據集 MURA,基於深度學習檢測骨骼疾病

每個病例包含一個或多個圖像，均由放射科醫師手動標記。團隊表示，為鼓勵醫學影像診斷模型的進步，MURA 資料庫可以免費使用。MURA 是最大的公共影像數據集之一。基於 MURA，我們開發了一個有效的異常檢測模型。將一個或多個 X 光片輸入該模型來研究上肢部分。通過 169 層的卷積神經網絡預測每個 X 光片的異常概率，然後得出同一病例所有 X 光片異常概率的平均值，作為 X 光片的異常概率輸出。
Facebook用AI給模糊核磁共振圖像「填空」,會犧牲準確度嗎?

被激發的質子以射頻信號的形式釋放吸收的能量，發射物被掃描儀上的接收線圈接收。與其他成像工具相比，核磁共振成像通常是診斷器官、肌肉和其他軟組織問題的最佳工具，因為它們提供的細節水平較高。但這種掃描儀需要相當長的時間來收集必要的數據，這使得人們很難在檢查過程中如要求那般保持靜止，尤其對於好動的兒童來說。
14個超有趣的數據分析項目,數據集都給你整理好啦

新冠病毒可視化學習如何使用Plotly構建動態可視化數據，展示冠狀病毒是如何在全球範圍內傳播的。Plotly很好用，它可以做動態可視化，好看且操作簡單。哪些因素與員工離職和績效有關IBM公開了一個綜合數據集，可以使用它來了解各種因素如何影響員工的流失率和滿意度。一些變量包括教育程度，工作相關性，績效評估和工作生活平衡程度等。
14個超有趣的數據科學項目,數據集都準備好了!

Plotly很好用，它可以做動態可視化，好看且操作簡單。難易程度：簡單數據集：https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset世界大學排名你認為你的國家擁有世界上最好的大學嗎？成為「最好」大學的衡量標準是什麼？該數據集包含三個全球大學排名方式。
OpenAI發布新人工智慧系統:根據文字生成圖像

新浪科技訊 1月6日上午消息，據報導，舊金山人工智慧研究公司OpenAI已經開發了一種新系統，能根據短文本來生成圖像。新系統展示了「為一系列廣泛的概念」創造圖像的能力，創作的作品包括牛油果形狀的扶手椅等。通過神經網絡去生成圖像，這種技術並不新穎。此前，生成對抗網絡（GAN）已被廣泛用於創建真實的人、寵物、租賃房產和食物的照片。不過，DALL-E的獨特之處在於可以根據輸入的文本來創作圖像。該系統基於文字生成系統GPT-3的一個版本，該系統此前被用於撰寫詩歌和新聞文章等。
文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

過去的2020年，人工智慧研究組織OpenAI打造的1750億參數文本生成器GPT-3火爆全球。用它撰寫的博客文章成功欺騙了很多人類讀者。不少業內人士認為，GPT-3對AI行業具有顛覆力量。可以看到，自然語言處理的神經網絡規模越來越大，功能也越來越豐富。
每天一個數據科學項目,數據集都準備好了!

學習如何使用Plotly構建動態可視化數據，展示冠狀病毒是如何在全球範圍內傳播的。Plotly很好用，它可以做動態可視化，好看且操作簡單。難易程度：簡單數據集：https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset你認為你的國家擁有世界上最好的大學嗎？成為「最好」大學的衡量標準是什麼？該數據集包含三個全球大學排名方式。
狗狗視角看世界,用視覺數據預測狗的行為

本文的作者受近期「行為和交互在視覺理解中作用」研究工作的啟發，他們將視覺智能（visual intelligence）問題定義為：理解視覺數據並在視覺世界中採取行動或執行任務。在這種定義下，作者認為要像一個視覺智能體在視覺世界中那樣去學習。作為該項研究的切入口，他們選擇一隻狗作為視覺代理。
5大頂級博物館線上資源免費開放!宅家就可帶孩子領略世界級的美

故宮數字文物庫故宮的偉大在於建築，也在它的藏品。故宮博物院的前任院長單霽翔在北師大一場名為《故宮的世界，世界的故宮》的演講，曾經透露過故宮有180萬件藏品。全中國超過40%國家級珍貴文物都藏在故宮。它也很多人一生的夢想。但是因為距離遙遠，加上文物保護的措施，很多人一時半會無法實現。而透過數字敦煌，我們卻可以輕輕鬆鬆看到其中30個洞窟的高清圖像，並且進行全景漫遊。比如第390個洞窟，走進去正面可以看到的。轉一個角度看到的。以及抬頭看到的。連屋頂上密密麻麻的都是佛像。
新的快速圖像轉手繪方法,人類水準、戶外場景

作者們的方法並不意外，收集一個新的手繪數據集（真人進行的照片手繪），然後訓練神經網絡。不過與類似研究有所不同的是，作者們收集的是一個一對多的數據集，每張照片可以對應多個真人手繪 ground truth 圖像。所以作者們認為這不應當是在傳統的「優化調節邊緣檢測器」路線上繼續發展，同時直接使用各類現成的 cGAN 也無法帶來理想的表現。
全球16個線上博物館推薦,帶娃足不出戶看展覽!

之前團長推薦成都本地的線上博物館（附上連結），許多父母表示不夠看，於是團長精心挑選了16個線上博物館資源。這樣娃娃足不出戶，也能看遍全球的精彩展覽。PS：點擊所有圖片可直達各個線上博物館資源，喜歡的朋友們記得收藏哈！
把松鼠當海獅、蜻蜓當井蓋……為什麼圖像識別AI會犯這些「低級...

在部分情況下，只需在人眼不可見的靜態噪聲中添加一些可選的筆觸或圖層，就可以「愚弄」AI圖像識別系統，這有時甚至會造成致命的後果。例如，曾有研究人員將列印的塗鴉貼在路牌上導致AI自動駕駛系統將限速標誌識別為禁行，騰訊科恩實驗室也曾發布報告稱路面上難以注意到的小貼紙就能誤導特斯拉錯誤判斷並駛入反向車道。
OpenAI推出DALL-E模型,一句話即可生成對應圖像

此外，它還展示了一些意想不到但有用的行為，包括使用直覺邏輯來理解請求，比如要求它為同一隻(不存在的)貓畫多幅草圖：DALL·E：很強大，但仍有缺陷和GPT-3一樣，DALL-E也是一個Transformer語言模型。它同時接收文本和圖像作為單一數據流，其中包含多達1280個token，並使用最大似然估計來進行訓練，以一個接一個地生成所有的token。
FaceApp 數據收集比 Facebook 更過分?

要訓練這些算法，你不僅需要一兩個年輕人和老年人的例子，而是成千上萬的例子。這些數據集已經存在於網絡中。一份2018年面部衰老數據集的彙編顯示，研究人員已經可以在網上使用數十萬張圖像。如果你在網上發布了自己的照片，並持有一定的知識共享許可證，你就有可能成為其中的一員。
線上線下融合,良品鋪子如何用數據賣零食?

線上線下融合，良品鋪子如何用數據賣零食？ iwangshang ／梁周倩／ 2016-07-23 摘要：一個生長於線下的品牌為何能將電商數據運營玩得這麼溜？
走進亞洲最大動物博物館

而說到動物博物館，則顯得有些陌生。從著名的北京動物園向北約13公裡，在北京奧林匹克公園旁，坐落著一座低調但充滿「內涵」的博物館——國家動物博物館。　　國家動物博物館隸屬於中國科學院動物研究所，是集科研、標本收藏與科普為一體的國家級學術機構，有著與其名稱相匹配的「殿堂級」地位——亞洲最大的動物專業博物館。
舊金山灣區14間最受歡迎博物館盤點介紹 | 附加免費參觀時間匯總

這個博物館專門收藏來自於亞洲各地，如中國、土耳其、印度、日本、菲律賓等，的藝術品，館藏有著超過 18,000 件亞洲的藝術品與古文物，有些甚至可以追溯到 6,000 年以上，被視為西方國家中收藏亞州藝術品最大的一座博物館。
圖像版GPT3問世!打破語言與視覺界線,AI將更加聰明

OpenAI 在官博中介紹，DALLE 是 GPT-3 的 120 億參數版本，如此龐大的數據集，足以讓它發揮「想像力」創造出那些不同尋常的圖像。你只用簡單描述一下想要的圖像特徵，比如「一個高質量的龜兔插圖」「一隻模仿烏龜的兔子」「一隻烏龜做成的兔子」，DALLE 就可以生成以下圖像，堪稱幫助設計師「開腦洞」的神器。

世界最大的博物館研究聯合體發布免費線上圖像數據集,你想好用它來...

相關焦點

上海交大發布 MedMNIST 醫學圖像分析數據集 & 新基準

留學生,這些Youtube免費線上資源了解一下?

吳恩達團隊公布最大醫學影像數據集 MURA,基於深度學習檢測骨骼疾病

Facebook用AI給模糊核磁共振圖像「填空」,會犧牲準確度嗎?

14個超有趣的數據分析項目,數據集都給你整理好啦

14個超有趣的數據科學項目,數據集都準備好了!

OpenAI發布新人工智慧系統:根據文字生成圖像

文本一鍵生成圖像?OpenAI發布新模型,吳恩達前來點讚

每天一個數據科學項目,數據集都準備好了!

狗狗視角看世界,用視覺數據預測狗的行為

5大頂級博物館線上資源免費開放!宅家就可帶孩子領略世界級的美

新的快速圖像轉手繪方法,人類水準、戶外場景

全球16個線上博物館推薦,帶娃足不出戶看展覽!

把松鼠當海獅、蜻蜓當井蓋……為什麼圖像識別AI會犯這些「低級...

OpenAI推出DALL-E模型,一句話即可生成對應圖像

FaceApp 數據收集比 Facebook 更過分?

線上線下融合,良品鋪子如何用數據賣零食?

走進亞洲最大動物博物館

舊金山灣區14間最受歡迎博物館盤點介紹 | 附加免費參觀時間匯總

圖像版GPT3問世!打破語言與視覺界線,AI將更加聰明