數據獲取在研究中發揮著越來越重要的作用。實際上,許多研究領域幾乎完全依賴於開放獲取且管理完備的全球共享資料庫,這些功能目前大多由數據存儲平臺實現,因而數據存儲平臺已成為科學研究基礎設施的重要組成部分。
在此背景下,致力於歐洲納米科學研究的NFFA-EUROPE項目將設計歐洲範圍內有效的納米級數據共享方法確立為其主要任務之一。該項目在歐洲共有20個合作單位,以及150多種不同的實驗/計算儀器和技術。項目活動產生的科學數據將存儲於NFFA-EUROPE信息和數據存儲平臺(IDRP)。該平臺是完全開放的,科研人員在遵守數據政策的前提下可自由獲取平臺上的數據。IDRP還配套有一系列數據分析服務,這些服務自NFFA-EUROPE項目開始以來就在不斷進化。
在NFFA-EUROPE項目的設備中,掃描電子顯微鏡(SEM)是最常用的儀器之一,10個NFFA-EUROPE站點都配有SEM。SEM是一種常規使用的表徵技術,它通過將聚焦電子束掃描到樣品表面上,以提供樣品的形貌和組成信息,其解析度可達納米級別。
第一個實現的數據分析是由NFFA-EUROPE IDRP提供的服務,其核心是一個可自動進行圖像識別的工具,可用於幫助存儲、分類和標記SEM圖像:我們採用監督式機器學習算法,使用深度卷積神經網絡識別SEM圖像。為對網絡進行訓練,我們必須提供已標記的訓練集,即一組已由人正確分類的SEM圖像。
在《科學數據》發表的The first annotated set of scanning electron microscopy images for nanoscience一文中,來自CNR-IOM材料研究所的Rossella Aversa及同事建立了第一個公開的人類註解的掃描電子顯微鏡(SEM)圖像數據集。大約26,000張納米SEM圖像被劃分為10個類別,進而分別納入4個適合於圖像識別任務的標註訓練組。這10個類別包括零維物質如粒子、一維物質如納米線和纖維、二維物質如薄膜、塗層表面以及有圖案表面,三維結構如微機電系統(MEMS)器件和柱結構等。類別中還包括小部件、生物結構等以儘可能擴展圖像範圍。通過為各個類別創建子樹結構,並將可用的圖像儘可能歸入所屬類別,從而為該圖像數據集引入了初步的層次結構。

Doi: 10.1038/sdata.2018.172
Scientific Data is a peer-reviewed, open-access journal for descriptions of scientifically valuable datasets, and research that advances the sharing and reuse of scientific data. Scientific Data welcomes submissions from a broad range of research disciplines, including descriptions of big or small datasets, from major consortiums to single research groups. Scientific Data primarily publishes Data Descriptors, a new type of publication that focuses on helping others reuse data, and crediting those who share.
The 2017 journal metrics for Scientific Data are as follows:
2-year impact factor: 5.305
5-year impact factor: 5.862
Immediacy index: 0.843
Eigenfactor score: 0.00855
Article Influence Score: 2.597
2-year Median: 2