人工智慧走進植物分類學領域 |
深度學習算法成功鑑別出上千個植物標本 |
實現植物標本的數位化為研究人員開啟了一個全新的世界。
圖片來源:Peter Macdiarmid/Getty Images
研究人員報告稱,通過利用上千株保存下來的植物的圖像對計算機算法進行訓練,後者成功學會自動鑑別經過壓平、乾燥並被裝入植物標本卡的物種。
這項日前發表於《BMC進化生物學》雜誌的研究,是利用深度學習解決鑑別自然歷史館藏中的物種這一艱巨的分類任務的首次嘗試。深度學習是一種教會神經網絡利用大型複雜數據集的人工智慧技術。
全球自然歷史博物館正競相實現館藏數位化,即將標本圖像存入開放的資料庫中,從而使任何地方的研究人員都能搜尋到。其中一個數據聚合者——美國國家科學基金的iDigBio項目,擁有來自全美館藏的1.5億餘張植物和動物圖像。
全球約有3000多個植物標本室,據估測保存著3.5億個標本——僅有一小部分實現了數位化。然而,不斷擴大的數據集以及計算技術的發展,吸引著哥斯大黎加科技學院計算機專家Erick Mata-Montero和法國農業研究國際發展中心植物學家Pierre Bonnet想看看他們可以如何利用這些數據。
Bonnet帶領的團隊已通過Pl@ntNet項目在實現植物鑑別自動化方面取得進展。它累積了上百萬張新鮮植物的圖像。人們在田野中採集了這些植物,並且通常利用智慧型手機上的軟體識別樣本。
研究人員利用掃描植物標本卡獲得的2.6萬餘幅圖像對類似算法進行了訓練。該電腦程式最終能以近80%的準確度鑑別出植物物種。賓夕法尼亞州立大學古植物學家Peter Wilf表示,這可能比分類學家的表現好很多。
Bonnet說,此類結果經常會令植物學家擔心,其中很多人感覺他們的領域被低估。「人們感覺此類技術將降低植物學專業知識的價值。」Bonnet表示,「但這種方法只有在人類經驗的基礎上才可能成功。它將永遠不會消滅掉人類專業知識。」而且,人們仍需要證實這些結果。
這種方法或能幫助植物標本室處理新的樣本,從而簡化有時需要好幾個小時才能完成的繁瑣任務。類似努力還會在開展其他項目時派上用場,比如目前正在進行的讓人們手動標出哪些植物標本以花或者樹為特徵的眾包項目。iDigBio項目數位化專家、佛羅裡達州立大學植物學家Gil Nelson表示,研究人員肯定會非常歡迎用一種自動化的方式做這件事情。
Bonnet介紹說,該算法還能幫助較小的植物標本室鑑別物種。他帶領的團隊發現,利用來自大型標本室的大規模數據集訓練算法,改善了對來自數據相對貧乏地區的植物進行識別分類的努力。此項發現對於生物多樣性豐富但擁有較少植物館藏的地區來說尤其有用。
同時,這種深度學習方法將使研究人員得以開展額外的分析工作。植物樣本含有豐富的數據:比如,樣本是何時、何地被採集的,採集時植物是正在開花還是在結果實以及花簇密集程度如何。由於一些樣本已有上百年歷史,因此這些數據能描述出植物如何適應氣候變化的圖像。該領域在氣候變化的大背景下正日益引發廣泛關注。
Nelson表示,包括鑑別研究在內的類似努力是數位化的下一階段。「我們正試圖向可用來挖掘這些圖像的深層含義並從中獲得有用數據的方法過渡。」Nelso說,「這是我們目前關注的焦點。」
該項目並不局限於植物標本室。Nelson介紹了正在進行的實現果蠅鑑別自動化的努力,而Wilf正同合作者一道,對植物化石開展類似分析。此類化石帶來了其他問題,部分原因在於它們以各種形式存在——變成化石的果實和花朵、石化的樹幹或者留在巖石中的葉子。相比之下,植物標本卡要統一得多:平整、乾燥,並且通常放在標準尺寸的紙上。不過,儘管該領域尚存一些細節問題,但Wilf堅信,它們終將被破解。(宗華編譯)
更多閱讀
《自然》網站相關報導(英文)