基於函數型數據聚類的京津冀空氣汙染特徵分析*
梁銀雙 劉黎明 盧媛
內容摘要:近年來,京津冀地區的空氣汙染問題受到高度關注,為探討該地區空氣汙染的特徵,文章採用函數型數據的聚類分析方法對空氣品質指數(AQI)進行研究。首先將空氣品質指數變化曲線,通過函數型數據的主成分分析進行降維,其次將主成分基係數進行K-均值聚類,最後利用ArcGIS9.3將京津冀地區空氣汙染的聚類結果在地圖上直觀實現。結果表明,京津冀地區空氣汙染在空間上可劃分為4類典型區域,呈現由北向南逐漸加重的趨勢;在時間分布上有明顯的相似性,具有顯著的季節特徵。
關鍵詞:函數型主成分;K-均值聚類;空氣品質指數;AQI
中圖分類號:C913.9文獻標識碼:A 文章編號:1004-7794(2017)05-0043-06
DOI: 10.13778/j.cnki.11-3705/c.2017.05.009
一、引言和文獻綜述
我國大氣汙染的區域性特徵日益明顯,以臭氧、PM2.5和酸雨為特徵的區域性複合型大氣汙染十分突出,在京津冀城市群的13個地級及以上城市中,有11個城市排在重汙染榜單的前20位。京津冀地區的空氣汙染問題受到國家的高度重視,2013年國務院下發的國家大氣汙染防治行動計劃,明確提出將改善京津冀區域空氣品質列入重要工作日程。同時,京津冀地區也是世界性霧霾問題最突出的地區之一,霧霾的成因、汙染的特徵及空氣汙染的區域合作治理是近年來研究的熱點問題[1-4]。王冠嵐等(2016)研究了2014年京津冀空氣汙染時空分布特徵及成因分析[5],鄭曉霞等(2014)研究了京津冀地區NO2汙染特徵[6],周磊等(2016)分析了京津冀PM2.5時空分布特徵及其汙染風險因素[7],杜曉惠等(2016)著重分析電力行業排放對津冀PM2.5的貢獻[8],張霖琳等(2014)對京津冀地區城市環境空氣顆粒物及其元素特徵做了詳細分析[9]。
上述研究對京津冀地區空氣汙染的特徵及影響因素、氣象因素的分析透徹全面,但統計方法的應用上不夠深入。根據國家城市環境空氣品質實時監測數據的發布,對於某個監測點,空氣品質數據按時間維度持續更新,具備函數特徵,與其將小時數據(日數據)看成離散點,不如以日(或年)為周期看作曲線,並將曲線視為抽象空間(如希爾伯特空間)的一個整體元素,進行函數型數據分析[10]。函數型數據分析(Functional Data Anylasis)是近年來統計學研究的熱點,也廣泛應用在了空氣品質問題的研究上,Febrero et al(2008)研究了NO2濃度日變動曲線的整體異常識別方法[11],Giraldo et al(2011)討論了空氣品質曲線的空間預測問題[12],Estevez et al(2013)基於方差分析,研究了不同監測點空氣品質變動曲線差異的假設檢驗問題[13],Ignaccolo et al(2008)基於樣條逼近,給出了一種空氣品質變動曲線的聚類方法[14]。
聚類分析是統計研究的重要方法,是將樣本觀測數據在沒有先驗知識的條件下,根據數據的特徵,按照其在性質上的「親疏程度」自動進行分組,使組內個體的結構特徵具有較強的相似性,組間個體的特徵具有較弱的相似性。近些年,函數型數據的聚類方法也逐漸成熟[15-19],主要分為三類:降維之後使用傳統方法聚類(如K-均值、系統聚類等);採用特殊距離或曲線差異的非參數方法;基於模型的聚類方法。總的來說,函數型數據聚類的難點都是因為數據屬於無限維空間,本文先採用函數型數據的主成分分析(Functional Principal Component Analysis,簡稱FPCA)進行降維,其次採用k-均值聚類,最後利用ArcGIS9.3將京津冀地區空氣汙染的聚類結果在地圖上直觀實現。
二、數據來源與數據特徵
研究數據來源於中華人民共和國環境保護部數據中心公布的《全國城市空氣品質日報》,數據具有權威性。日報發布形式為空氣品質指數(AQI)、首要空氣汙染物、空氣品質級別等。其中,AQI是定量描述空氣品質狀況的無量綱指數。針對單項汙染物還規定了空氣品質分指數。參與空氣品質評價的主要汙染物為細顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)6項。城市AQI由單項汙染物空氣品質分指數的最大值確定。
本文選擇北京、天津和河北省的11個地級市作為研究對象,整理了2014年和2015年空氣品質指數逐日數據並進行分析。對於每個城市,空氣品質指數數據按時間維度持續更新,具備函數特徵,以年為周期,利用非參數平滑技術,擬合成曲線,在泛函分析的角度,將曲線視為希爾伯特空間(Hilbert space)的一個元素。2014年和2015年京津冀地區的空氣品質變化趨勢如圖1和圖2所示。
圖1 左圖為2014年AQI原始數據,右圖為擬合後的2014年13個城市AQI年度變化曲線
圖2 左圖為2015年AQI原始數據,右圖為擬合後的2015年13個城市AQI年度變化曲線
三、基於函數型主成分分析的聚類方法
先將圖1中擬合的各地空氣品質的年度變化曲線,進行函數型主成分分析(FPCA),然後根據方差貢獻率提取前L個主成分作為基底,降為低維空間,最後對基係數進行K-均值聚類。函數型主成分分析是構成該聚類方法的重要工具,下面詳細介紹。
(一)函數型主成分分析模型
(二)模型估計
(三)京津冀空氣品質曲線族的主成分基
筆者利用上述方法,對京津冀2014年和2015年空氣品質變化曲線族分別提取了前3個主成分,累積方差貢獻率分別為89.1%和85.7%,可以代表曲線的大部分信息。
四、京津冀區域空氣汙染特徵的聚類實現及分析
(一)主成分基係數的K-均值聚類
(二)京津冀地區空氣汙染的時間分布特徵
根據聚類結果,將張家口、北京、石家莊、保定作為每一類的代表,畫出其AQI變化曲線(見圖4),來具體分析空氣汙染的時間分布特徵。京津冀區域空氣品質指數AQI在2014年和2015年有一致的變化趨勢,在時間分布上有明顯的相似性,具有周期性和顯著的季節變化特徵,總體表現為冬季最高,秋季、春季次之,夏季最低。1、2月份AQI值都較大,達到峰值;3月份開始降低,8、9月份AQI達到最低值;10 月份起,AQI值均明顯反彈,11、12月份再次達到峰值,整體呈現中間低、兩邊高的態勢。
2015年和2014年相比,震蕩的幅度有所降低,AQI高值區域有所減少,空氣品質有好轉趨勢。具體來看,空氣品質最好的張家口AQI曲線整體相對平緩,季節特徵不顯著;北京AQI曲線變化居中,空氣品質一般;汙染嚴重的石家莊和保定變動明顯,且2015年1、2月份空氣品質指數比2014年同期有顯著下降。
圖3 京津冀區域空氣品質變化曲線的K-均值聚類結果
圖44類典型區域代表城市的空氣品質變化曲線
(三)京津冀地區空氣汙染的空間分布特徵
將上述京津冀地區空氣汙染的聚類結果,利用ArcGIS9.3製圖軟體在地圖上直觀實現(見圖5),進一步分析空氣汙染問題在空間上的分布特徵。總的來說,京津冀空氣品質呈北部山區較優、南部平原區較差的分布特徵,表現出明顯的空間差異性。位於北部山區的張家口、承德、秦皇島2014年和2015年都是空氣品質較好的地區,屬輕度汙染的區域;中東部的北京、天津、唐山、廊坊、滄州次之,屬中度汙染的區域;西南部的保定、石家莊、衡水、邢臺、邯鄲5個地區空氣品質較差,屬重度汙染的區域,其中汙染最嚴重的地區由2014年的石家莊和邢臺轉移到了2015年的保定市。2014年位於京津冀北部的張家口、承德和秦皇島3市空氣品質為優良的天數佔67%~86%,北京、天津的佔46%,保定、衡水和邢臺的僅佔23%。
圖5 京津冀空氣汙染的空間分布特徵
五、結論與討論
(1)京津冀地區空氣汙染的時空分布特徵首先與自然因素和地理位置有關,秋冬季節大氣靜穩天氣增多,不利於汙染物的擴散,而春夏季節空氣汙染減輕依賴於風力加大、降水頻繁等氣象因素;其次空氣汙染與工業排放、燃煤排放、機動車排放、人口數量大等因素密切相關。
(2)京津冀地區空氣汙染4類典型區域的劃分,有助於確定汙染熱點區域以及引起汙染的源頭,有的放矢地制定汙染治理策略,進而探索京津冀空氣汙染區域合作治理模式。汙染嚴重的城市石家莊、邢臺、保定都位於河北省,聚集了大量的水泥、鋼鐵、煉油石化等高汙染行業,工業能源消耗仍以煤炭為主,空氣汙染主要與工業排放有關,因此應積極增加治汙投入,調整工業行業結構,走新型工業化道路。
(3)京津冀空氣汙染問題在空間位置上具有明顯的相關性,相鄰區域有相似的空氣汙染特徵。鑑於此,在理論上可以進一步考慮對空間相關函數型數據進行聚類。
參考文獻
[1] 繆育聰, 鄭亦佳, 王姝, 等. 京津冀地區霾成因機制研究進展與展望[J]. 氣候與環境研究, 2015, 20(3):356-368.
[2] 王慧麗, 雷宇, 陳瀟君, 等. 京津冀燃煤工業和生活鍋爐的技術分布與大氣汙染物排放特徵[J]. 環境科學研究, 2015, 28(10):1510-1517.
[3] 魏娜, 趙成根. 跨區域大氣汙染協同治理研究——以京津冀地區為例[J].河北學刊,2016(1):144-149.
[4] 薛儉, 謝婉林, 李常敏. 京津冀大氣汙染治理省際合作博弈模型[J]. 系統工程理論與實踐, 2014(3):810-816.
[5] 王冠嵐, 薛建軍, 張建忠. 2014年京津冀空氣汙染時空分布特徵及主要成因分析[J]. 氣象與環境科學, 2016, 39(1):34-42.
[6] 鄭曉霞, 李令軍, 趙文吉, 等. 京津冀地區大氣NO2汙染特徵研究[J].生態環境學報, 2014(12):1938-1945.
[7] 周磊, 武建軍, 賈瑞靜, 等. 京津冀PM2.5時空分布特徵及其汙染風險因素[J]. 環境科學研究, 2016(4):483-493.
[8] 杜曉惠, 徐峻, 劉厚鳳, 等. 重汙染天氣下電力行業排放對京津冀地區PM2.5的貢獻[J]. 環境科學研究, 2016(4): 475-483.
[9] 張霖琳, 王超, 刀諝, 等. 京津冀地區城市環境空氣顆粒物及其元素特徵分析[J]. 中國環境科學, 2014, 34(12):2993-3000.
[10] 黃恆君,漆威. 海量半結構化數據採集、存儲及分析——基於實時空氣品質數據處理的實踐[J]. 統計研究, 2014,31(5):10-16.
[11] Febrero M, Galeano P, Gonzalez-Manteiga W. Outlier Detection in Functional Data by Depth Measures, With Application to Identify Abnormal NOx Levels[J]. Environmetrics, 2008, 19(4): 331-345.
[12] Giraldo R, Delicado P, Mateu J. Ordinary Kriging for Function-Valued Spatial Data[J]. Environmental and Ecological Statistics. 2011, 18(3): 411-426.
[13] Estevez-Perez G, Vilar J A. Functional ANOVA Starting from Discrete Data: An Application to Air Quality Data[J]. Environmental and Ecological Statistics, 2013, 20(3): 495-517.
[14] Ignaccolo R, Ghigo S, Giovenali E. Analysis of air quality monitoring networks by functional clustering[J]. Environmetrics, 2008, 19(7): 672-686.
[15] Floriello D, Vitelli V. Sparse Clustering of Functional Data[J]. Journal of Multivariate Analysis, 2016, 154: 1-18.
[16] Tzeng S L, Hennig C, Li Y F, et al. Distance for Functional Data Clustering Based on Smoothing Parameter Commutation[J]. [2016-04-10]. arXiv: 1604.02668.
[17] Jacques J, Preda C. Model-based clustering for multivariate functional data[J]. Computational Statistics & Data Analysis, 2014, 71(3):92-106.
[18] Jacques J, Preda C. Functional data clustering: a survey[J]. Advances in Data Analysis & Classification, 2014, 8(3):231-255.
[19] 黃恆君.基於B-樣條基底展開的曲線聚類方法[J]. 統計與資訊理論壇, 2013,28(9): 3-8.
作者簡介:
梁銀雙,女,1982年生,現為鄭州工程技術學院信息工程學院講師,研究方向為數理統計。
劉黎明,女,1956年生,現為首都經濟貿易大學統計學院博士生導師、教授,研究方向為數理統計與運籌。
盧媛(通訊作者),女,1981年生,統計專業博士,現為海南大學經濟與管理學院講師,研究方向為應用數理統計。