《農業工程學報》2016年第32卷第13期刊載了華中師範大學於雷、洪永勝、周勇、朱強、徐良、李冀雲與聶豔的論文——「高光譜估算土壤有機質含量的波長變量篩選方法」。該研究由國家自然科學基金項目(41401232)等資助。
土壤高光譜數據量大、波段維數高,存在光譜信息無效、冗餘和重疊現象,導致基於全波段構建的土壤有機質含量反演模型不穩定、精度難以提升。因此,探尋篩選關鍵波長變量的方法,通過濾除幹擾、冗餘、共線信息,提高模型預測性能,是目前土壤高光譜研究的熱點之一。
該文對江漢平原公安縣的土壤樣本進行室內理化分析、光譜測量與處理等工作獲取了實證數據,採用無信息變量消除法(uninformative variableselimination,UVE)剔除無效變量,利用競爭性自適應重加權算法(competitive adaptivereweighted sampling,CARS)濾除冗餘變量,運用連續投影算法(successive projectionsalgorithm,SPA)消除共線變量,並嘗試將不同類型的篩選方法進行耦合篩選關鍵波長變量,應用偏最小二乘回歸(partial least squaresregression, PLSR)分別建立土壤有機質含量估算模型,對比各種變量篩選方法的優缺點,最終,構建篩選土壤高光譜數據關鍵變量的方法體系。
該文指出,光譜變量篩選,是土壤高光譜研究中的關鍵關節,不僅可以簡化模型結構,而且還可以剔除不相關、低貢獻的波長變量,能夠得到預測效果好、穩健性高的估算模型。
SPA算法能夠最大程度上避免光譜波段信息的重疊,但SPA-PLSR模型的預測集RPD值僅為1.87,只能實現對土壤有機質含量的粗略估算,這可能是由於土壤光譜數據中存在的有效光譜信息是非共線的,提取的特徵波段並不能將所有波段信息表達出來,丟失了部分的有效信息,從而導致SPA-PLSR模型性能降低。
UVE算法是基於PLSR回歸係數穩定性分析的基礎上進行變量篩選的方法,使用該方法可避免模型過度擬合,通常可以提高預測能力。但UVE法選擇的變量的數量仍然很多,需進一步採用SPA進行光譜向量的投影分析,尋找含有冗餘度最低、共線性最小的光譜變量組,可以壓縮建模的數據量並提高模型的運行速度和效率。
CARS算法通過自適應重加權採樣技術(ARS)選擇出PLSR模型中回歸係數絕對值較大的波長點,去掉權重小的波長點,可有效選擇與土壤有機質屬性相關的最優波長組合。將CARS與SPA的結合可以更好的篩選出最優變量子集。在7種變量篩選方法中,CARS-SPA-PLSR模型精度最高,預測集RPD值為3.60,說明CARS-SPA 是土壤有機質光譜數據分析有效的波長提取方法。
綜合上述,構建變量篩選方法體系可以有效去除無效、冗餘、共線變量的幹擾,提升利用高光譜估算土壤有機質含量的精度,為研發土壤近地傳感器提供理論基礎。
長按識別二維碼 關注「農業工程學報」