2017.05:基於函數型數據聚類的京津冀空氣汙染特徵分析(梁銀雙等)

2020-11-25 國家統計局

基於函數型數據聚類的京津冀空氣汙染特徵分析*

 

梁銀雙 劉黎明 盧媛

 

  內容摘要:近年來,京津冀地區的空氣汙染問題受到高度關注,為探討該地區空氣汙染的特徵,文章採用函數型數據的聚類分析方法對空氣品質指數(AQI)進行研究。首先將空氣品質指數變化曲線,通過函數型數據的主成分分析進行降維,其次將主成分基係數進行K-均值聚類,最後利用ArcGIS9.3將京津冀地區空氣汙染的聚類結果在地圖上直觀實現。結果表明,京津冀地區空氣汙染在空間上可劃分為4類典型區域,呈現由北向南逐漸加重的趨勢;在時間分布上有明顯的相似性,具有顯著的季節特徵。

 

  關鍵詞:函數型主成分;K-均值聚類;空氣品質指數;AQI

 

  中圖分類號:C913.9文獻標識碼:A 文章編號:1004-7794(2017)05-0043-06

 

  DOI: 10.13778/j.cnki.11-3705/c.2017.05.009

 

  一、引言和文獻綜述

 

  我國大氣汙染的區域性特徵日益明顯,以臭氧、PM2.5和酸雨為特徵的區域性複合型大氣汙染十分突出,在京津冀城市群的13個地級及以上城市中,有11個城市排在重汙染榜單的前20位。京津冀地區的空氣汙染問題受到國家的高度重視,2013年國務院下發的國家大氣汙染防治行動計劃,明確提出將改善京津冀區域空氣品質列入重要工作日程。同時,京津冀地區也是世界性霧霾問題最突出的地區之一,霧霾的成因、汙染的特徵及空氣汙染的區域合作治理是近年來研究的熱點問題[1-4]。王冠嵐等(2016)研究了2014年京津冀空氣汙染時空分布特徵及成因分析[5],鄭曉霞等(2014)研究了京津冀地區NO2汙染特徵[6],周磊等(2016)分析了京津冀PM2.5時空分布特徵及其汙染風險因素[7],杜曉惠等(2016)著重分析電力行業排放對津冀PM2.5的貢獻[8],張霖琳等(2014)對京津冀地區城市環境空氣顆粒物及其元素特徵做了詳細分析[9]

 

  上述研究對京津冀地區空氣汙染的特徵及影響因素、氣象因素的分析透徹全面,但統計方法的應用上不夠深入。根據國家城市環境空氣品質實時監測數據的發布,對於某個監測點,空氣品質數據按時間維度持續更新,具備函數特徵,與其將小時數據(日數據)看成離散點,不如以日(或年)為周期看作曲線,並將曲線視為抽象空間(如希爾伯特空間)的一個整體元素,進行函數型數據分析[10]。函數型數據分析(Functional Data Anylasis)是近年來統計學研究的熱點,也廣泛應用在了空氣品質問題的研究上,Febrero et al2008)研究了NO2濃度日變動曲線的整體異常識別方法[11]Giraldo et al2011)討論了空氣品質曲線的空間預測問題[12]Estevez et al2013)基於方差分析,研究了不同監測點空氣品質變動曲線差異的假設檢驗問題[13]Ignaccolo et al2008)基於樣條逼近,給出了一種空氣品質變動曲線的聚類方法[14]

 

  聚類分析是統計研究的重要方法,是將樣本觀測數據在沒有先驗知識的條件下,根據數據的特徵,按照其在性質上的「親疏程度」自動進行分組,使組內個體的結構特徵具有較強的相似性,組間個體的特徵具有較弱的相似性。近些年,函數型數據的聚類方法也逐漸成熟[15-19],主要分為三類:降維之後使用傳統方法聚類(如K-均值、系統聚類等);採用特殊距離或曲線差異的非參數方法;基於模型的聚類方法。總的來說,函數型數據聚類的難點都是因為數據屬於無限維空間,本文先採用函數型數據的主成分分析(Functional Principal Component Analysis,簡稱FPCA)進行降維,其次採用k-均值聚類,最後利用ArcGIS9.3將京津冀地區空氣汙染的聚類結果在地圖上直觀實現。

 

  二、數據來源與數據特徵

 

  研究數據來源於中華人民共和國環境保護部數據中心公布的《全國城市空氣品質日報》,數據具有權威性。日報發布形式為空氣品質指數(AQI)、首要空氣汙染物、空氣品質級別等。其中,AQI是定量描述空氣品質狀況的無量綱指數。針對單項汙染物還規定了空氣品質分指數。參與空氣品質評價的主要汙染物為細顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO6項。城市AQI由單項汙染物空氣品質分指數的最大值確定。

 

  本文選擇北京、天津和河北省的11個地級市作為研究對象,整理了2014年和2015年空氣品質指數逐日數據並進行分析。對於每個城市,空氣品質指數數據按時間維度持續更新,具備函數特徵,以年為周期,利用非參數平滑技術,擬合成曲線,在泛函分析的角度,將曲線視為希爾伯特空間(Hilbert space)的一個元素。2014年和2015年京津冀地區的空氣品質變化趨勢如圖1和圖2所示。

 

 

1 左圖為2014AQI原始數據,右圖為擬合後的201413個城市AQI年度變化曲線

 

 

2 左圖為2015AQI原始數據,右圖為擬合後的201513個城市AQI年度變化曲線

 

  三、基於函數型主成分分析的聚類方法

 

  先將圖1中擬合的各地空氣品質的年度變化曲線,進行函數型主成分分析(FPCA),然後根據方差貢獻率提取前L個主成分作為基底,降為低維空間,最後對基係數進行K-均值聚類。函數型主成分分析是構成該聚類方法的重要工具,下面詳細介紹。

 

  (一)函數型主成分分析模型

 

   

 

  ()模型估計

 

   

 

    (三)京津冀空氣品質曲線族的主成分基

   

 

筆者利用上述方法,對京津冀2014年和2015年空氣品質變化曲線族分別提取了前3個主成分,累積方差貢獻率分別為89.1%85.7%,可以代表曲線的大部分信息。

 

  四、京津冀區域空氣汙染特徵的聚類實現及分析

 

  (一)主成分基係數的K-均值聚類

 

     

 

  (二)京津冀地區空氣汙染的時間分布特徵

 

  根據聚類結果,將張家口、北京、石家莊、保定作為每一類的代表,畫出其AQI變化曲線(見圖4),來具體分析空氣汙染的時間分布特徵。京津冀區域空氣品質指數AQI2014年和2015年有一致的變化趨勢,在時間分布上有明顯的相似性,具有周期性和顯著的季節變化特徵,總體表現為冬季最高,秋季、春季次之,夏季最低。12月份AQI值都較大,達到峰值;3月份開始降低,89月份AQI達到最低值;10 月份起,AQI值均明顯反彈,1112月份再次達到峰值,整體呈現中間低、兩邊高的態勢。

 

  2015年和2014年相比,震蕩的幅度有所降低,AQI高值區域有所減少,空氣品質有好轉趨勢。具體來看,空氣品質最好的張家口AQI曲線整體相對平緩,季節特徵不顯著;北京AQI曲線變化居中,空氣品質一般;汙染嚴重的石家莊和保定變動明顯,且201512月份空氣品質指數比2014年同期有顯著下降。

 

 

3 京津冀區域空氣品質變化曲線的K-均值聚類結果

 

 

44類典型區域代表城市的空氣品質變化曲線

 

  (三)京津冀地區空氣汙染的空間分布特徵

 

  將上述京津冀地區空氣汙染的聚類結果,利用ArcGIS9.3製圖軟體在地圖上直觀實現(見圖5),進一步分析空氣汙染問題在空間上的分布特徵。總的來說,京津冀空氣品質呈北部山區較優、南部平原區較差的分布特徵,表現出明顯的空間差異性。位於北部山區的張家口、承德、秦皇島2014年和2015年都是空氣品質較好的地區,屬輕度汙染的區域;中東部的北京、天津、唐山、廊坊、滄州次之,屬中度汙染的區域;西南部的保定、石家莊、衡水、邢臺、邯鄲5個地區空氣品質較差,屬重度汙染的區域,其中汙染最嚴重的地區由2014年的石家莊和邢臺轉移到了2015年的保定市。2014年位於京津冀北部的張家口、承德和秦皇島3市空氣品質為優良的天數佔67%86%,北京、天津的佔46%,保定、衡水和邢臺的僅佔23%

 

 

5 京津冀空氣汙染的空間分布特徵

 

  五、結論與討論

 

  (1)京津冀地區空氣汙染的時空分布特徵首先與自然因素和地理位置有關,秋冬季節大氣靜穩天氣增多,不利於汙染物的擴散,而春夏季節空氣汙染減輕依賴於風力加大、降水頻繁等氣象因素;其次空氣汙染與工業排放、燃煤排放、機動車排放、人口數量大等因素密切相關。

 

  (2)京津冀地區空氣汙染4類典型區域的劃分,有助於確定汙染熱點區域以及引起汙染的源頭,有的放矢地制定汙染治理策略,進而探索京津冀空氣汙染區域合作治理模式。汙染嚴重的城市石家莊、邢臺、保定都位於河北省,聚集了大量的水泥、鋼鐵、煉油石化等高汙染行業,工業能源消耗仍以煤炭為主,空氣汙染主要與工業排放有關,因此應積極增加治汙投入,調整工業行業結構,走新型工業化道路。

 

  (3)京津冀空氣汙染問題在空間位置上具有明顯的相關性,相鄰區域有相似的空氣汙染特徵。鑑於此,在理論上可以進一步考慮對空間相關函數型數據進行聚類。

 

  參考文獻

 

  [1]  繆育聰, 鄭亦佳, 王姝, . 京津冀地區霾成因機制研究進展與展望[J]. 氣候與環境研究, 2015 20(3):356-368.

 

  [2]  王慧麗, 雷宇, 陳瀟君, . 京津冀燃煤工業和生活鍋爐的技術分布與大氣汙染物排放特徵[J]. 環境科學研究, 2015 28(10):1510-1517.

 

  [3]  魏娜, 趙成根. 跨區域大氣汙染協同治理研究——以京津冀地區為例[J].河北學刊,2016(1):144-149.

 

  [4] 薛儉, 謝婉林, 李常敏. 京津冀大氣汙染治理省際合作博弈模型[J]. 系統工程理論與實踐, 2014(3):810-816.

 

  [5]  王冠嵐, 薛建軍, 張建忠. 2014年京津冀空氣汙染時空分布特徵及主要成因分析[J]. 氣象與環境科學, 2016 39(1):34-42.

 

  [6]  鄭曉霞, 李令軍, 趙文吉, . 京津冀地區大氣NO2汙染特徵研究[J].生態環境學報, 2014(12):1938-1945.

 

  [7]  周磊, 武建軍, 賈瑞靜, . 京津冀PM2.5時空分布特徵及其汙染風險因素[J]. 環境科學研究, 2016(4):483-493.

 

  [8]  杜曉惠, 徐峻, 劉厚鳳, . 重汙染天氣下電力行業排放對京津冀地區PM2.5的貢獻[J]. 環境科學研究, 2016(4): 475-483.

 

  [9]  張霖琳, 王超, 刀諝, . 京津冀地區城市環境空氣顆粒物及其元素特徵分析[J]. 中國環境科學, 2014 34(12):2993-3000.

 

  [10]       黃恆君,漆威. 海量半結構化數據採集、存儲及分析——基於實時空氣品質數據處理的實踐[J]. 統計研究, 201431(5):10-16.

 

  [11]       Febrero M Galeano P Gonzalez-Manteiga W. Outlier Detection in Functional Data by Depth Measures With Application to Identify Abnormal NOx Levels[J]. Environmetrics 2008 19(4): 331-345.

 

  [12]       Giraldo R Delicado P Mateu J. Ordinary Kriging for Function-Valued Spatial Data[J]. Environmental and Ecological Statistics. 2011 18(3): 411-426.

 

  [13]       Estevez-Perez G Vilar J A. Functional ANOVA Starting from Discrete Data: An Application to Air Quality Data[J]. Environmental and Ecological Statistics 2013 20(3): 495-517.

 

  [14]       Ignaccolo R Ghigo S Giovenali E. Analysis of air quality monitoring networks by functional clustering[J]. Environmetrics 2008 19(7): 672-686.

 

  [15]     Floriello D Vitelli V. Sparse Clustering of Functional Data[J]. Journal of Multivariate Analysis 2016 154: 1-18.

 

  [16]       Tzeng S L Hennig C Li Y F et al. Distance for Functional Data Clustering Based on Smoothing Parameter Commutation[J]. [2016-04-10]. arXiv: 1604.02668.

 

  [17]       Jacques J Preda C. Model-based clustering for multivariate functional data[J]. Computational Statistics & Data Analysis 2014 71(3):92-106.

 

  [18]       Jacques J Preda C. Functional data clustering: a survey[J]. Advances in Data Analysis & Classification 2014 8(3):231-255.

 

  [19]       黃恆君.基於B-樣條基底展開的曲線聚類方法[J]. 統計與資訊理論壇, 201328(9): 3-8.

 

  作者簡介:

 

  梁銀雙,女,1982年生,現為鄭州工程技術學院信息工程學院講師,研究方向為數理統計。

 

  劉黎明,女,1956年生,現為首都經濟貿易大學統計學院博士生導師、教授,研究方向為數理統計與運籌。

 

  盧媛(通訊作者),女,1981年生,統計專業博士,現為海南大學經濟與管理學院講師,研究方向為應用數理統計。

相關焦點

  • 京津冀等地空氣重汙染「病根」更清楚了
    在黨中央、國務院高度重視下,2017年4月,一項重要的科技攻關啟動,瞄準的是京津冀及周邊地區秋冬季大氣重汙染成因、重點行業和汙染物排放管控技術等難題。2017年10月,多部門和單位協作,由200多家單位、近2000人組成的科技攻關團隊投入研究,國務院為此設立專項資金5.75億元。原環境保護部專門成立了國家大氣汙染防治攻關聯合中心,統籌攻關工作。
  • 地下水汙染怎麼辦 京津冀地下水環境管理這樣做
    基於對照值,選取三氮、重金屬、揮發性有機物、半揮發性有機物指標共45項,對京津冀平原區的淺層地下水汙染進行評價分級。工欲善其事,必先利其器。針對典型行業與地下水汙染關聯性分析,課題組基於地質統計學和貝葉斯方法構建了一套模型。通過對京津冀地下水監測數據進行採集、汙染指標關聯分析測算和評估資料庫構建,可以實現在線汙染來源概率分析以及汙染分級計算。
  • 2019.01:小區「15分鐘社區生活圈」空間聚類研究——基於POI數據...
    >15分鐘社區生活圈」的空間聚類特徵,以更加微觀的視角研究分析「生活圈」,不僅是對「生活圈」量化研究的有益補充,也為提升城市公共服務均等化水平提供了抓手。由於本文所基於的研究數據為空間數據,而基於密度的DBSCAN算法可以更好地滿足空間聚類的要求,因此本文選用DBSCAN算法進行空間聚類。
  • 用數據說話!四問京津冀地區持續重汙染天氣
    用數據說話!四問京津冀地區持續重汙染天氣  新華社北京2月11日電 題:用數據說話!四問京津冀地區持續重汙染天氣  新華社記者高敬  春節放假,各地又加強疫情防控,京津冀及周邊地區近期仍多次出現重汙染天氣過程。11日,多位專家用翔實的數據解答網友關心的重汙染成因和變化趨勢等問題。
  • 京津冀大氣汙染病根何在?藍天保衛戰將精準施策
    攻關聯合中心對23次汙染過程都進行了精細化定量化解析,一一分析比對汙染全過程的汙染物組分、來源數據。以今年1月10—14日汙染過程中北京市的空氣品質變化為例,10—12日晚間均出現了PM2.5濃度快速增長的現象。專家們利用空氣品質模型進行模擬,結果表明,沿西南通道的汙染物傳輸「貢獻」最大。
  • 人民日報整版聚焦:京津冀及周邊地區大氣重汙染成因更清楚了
    攻關聯合中心對23次汙染過程都進行了精細化定量化解析,一一分析比對汙染全過程的汙染物組分、來源數據。以今年1月10—14日汙染過程中北京市的空氣品質變化為例,10—12日晚間均出現了PM2.5濃度快速增長的現象。專家們利用空氣品質模型進行模擬,結果表明,沿西南通道的汙染物傳輸「貢獻」最大。此外,北京12日晚間汙染最重時段,硝酸鹽、硫酸鹽、銨鹽濃度明顯上升,佔比合計超過50%。
  • 京津冀等地遭遇大氣重汙染 專家詳細分析解讀
    中新網11月14日電 據生態環境部微信公眾號消息,11月12日以來,京津冀及周邊地區正在經歷一次大氣重汙染過程,整體為中-重度汙染,汙染主要集中在北京、河北中南部和河南北部區域。國家大氣汙染防治攻關聯合中心邀請三位專家對本次汙染過程進行分析解讀。北京市民在重汙染的大霧天氣中出行。
  • 疫情期京津冀仍空氣汙染?專家:重汙染行業變化不大
    ]從除夕(1月24日)到大年初五(1月29日),京津冀及周邊地區出現區域性重汙染過程。環保部門的分析表明,部分城市在汙染峰值期間,煙花爆竹對PM2.5的貢獻率最高可達80%左右。監測結果顯示,除夕夜間至大年初一凌晨,各地煙花爆竹集中燃放導致空氣品質快速轉差約2個等級,通過分析典型城市的PM2.5組分,煙花爆竹燃放貢獻率大幅上升。
  • 集成聚類系列(三)圖聚類算法詳解
    圖聚類算法研究現狀聚類分析是一種常用的機器學習技術,它的目的是將一個數據點劃分為幾個類。同一個類的數據之間具有較高的相似性,不同的類之間的相似度較低。很多研究已表明圖聚類是一種極具競爭力的聚類算法,圖聚類是一種基於圖劃分理論的算法。與其他聚類算法相比,圖聚類算法有些明顯的優勢。
  • 京津冀大氣汙染確認「病根」,未來治理有兩個重點
    今天上午,2019年北京國際大都市清潔空氣行動論壇舉行圓桌論壇。國家大氣汙染防治攻關聯合中心副主任柴發合表示,經過專家組的聯合攻關研究,已經基本確認了京津冀大氣汙染的「病根」。塞罕壩國家森林公園七星湖景區資料圖 圖文無關,新華社供圖京津冀大氣汙染「病根」病根1從宏觀層面來看,京津冀及周邊地區秋冬季在西風—季風與「背風坡」地形的相互作用下,「弱風區」特徵明顯;與此同時,區域內汙染物排放強度較大,高出全國平均水平3到5
  • 專家:已基本弄清京津冀及周邊地區大氣重汙染成因
    新京報快訊 據國家大氣汙染防治攻關聯合中心消息,2017年4月以來,我國開展了大氣重汙染成因與治理攻關項目,匯集國內2000多名環境科學、大氣科學、氣象科學以及行業治理等方面的優秀科學家和一線科研工作者,建成了天地空綜合立體觀測網,通過外場觀測、實驗室分析和數值模擬等綜合研究手段,集中開展聯合攻關,目前已基本弄清了京津冀及周邊地區大氣重汙染的成因,實現了對重汙染過程的精細化定量化描述
  • 京津冀地區灰霾將持續至月底 空氣重汙染過程與原因
    重汙染天氣走了又來,10月來襲3次  灰霾天為何頻繁襲擊京津冀  環境保護部今天發布的信息說,華北地區、中西部地區和東北地區從10月22日起持續至今日的灰霾汙染或將延續至月底。這已是10月以來京津冀等地區遭遇的第3次大面積空氣汙染。
  • 京津冀區域大氣汙染協同治理如何推進?專家提出這些建議
    國家大氣汙染防治攻關聯合中心副主任柴發合《京津冀區域大氣汙染協同治理進展、挑戰及下一步措施》的報告中指出,未來京津冀區域大氣汙染的協同治理,要進一步強化區域聯防聯控,重點推進晉冀魯豫交界地區的產業結構升級,同時要重點強化揮發性有機物和氮氧化物減排。
  • 京津冀及周邊地區緣何重汙染?五專家集中解答釋疑惑
    從近10年的氣象觀測數據分析,京津冀及周邊「2+26」城市處於相同的大氣流場中,有時這些城市同步處於不利的氣象條件下,大氣環境容量整體變低。有時發生在局部,如河南北部城市、河北太行山前城市、北京和天津周邊城市等,氣象上叫「氣象輻合」,即各個城市排放的大氣汙染物向輻合中心積聚。
  • 數據產品經理之數據分析與挖掘
    (3)統計分析方法數據分析時需要選擇合適的統計分析方法進行數據的分析,常用統計分析方法有集中趨勢、離散程度、相關強度、參數估計、假設檢驗等,通過常用統計分析方法能夠描述數據的特徵。(4)數據挖掘方法數據挖掘時需要運用數據挖掘方法來從數據中挖掘價值,常用數據挖掘的方法有分類、回歸、關聯、聚類等,這些方法能夠從不同的角度對數據進行挖掘。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    基於liunx系統的python教程,課程裡也有liunx操作的詳細教學,不用擔心學習時不會操作liunx系統。 1-1課程導學 1-2 數據分析概述 2-1數據倉庫 2-2監視與抓取 2-3填寫,埋點,日誌,計算 2-4 數據學習網站 3-01數據案例介紹 3-02集中趨勢,離中趨勢 3-03數據分布-偏態與峰度 3-04抽樣理論 3-05編碼實現
  • 京津冀大氣汙染「病根」確認 應強化揮發性有機物和氮氧化物減排
    今天上午,2019年北京國際大都市清潔空氣行動論壇舉行圓桌論壇。國家大氣汙染防治攻關聯合中心副主任柴發合表示,經過專家組的聯合攻關研究,已經基本確認了京津冀大氣汙染的「病根」。方非 攝 資料圖京津冀大氣汙染「病根」病根1 :從宏觀層面來看,京津冀及周邊地區秋冬季在西風—季風與「背風坡」地形的相互作用下,「弱風區」特徵明顯;與此同時,區域內汙染物排放強度較大,高出全國平均水平3到5倍。
  • 安全數據的判別分析
    基本思想是投影,即將K組p維數據投影到某一個方向,使得組與組之間的距離儘可能的大,藉助一元方差分析的思想來構造一個線性判別函數,其係數是根據類與類之間距離最大、類內部距離最小的原則來確定,再根據所建立的線性判別函數結合相應的判別規則來判斷待判樣品的類別。
  • 有了K均值聚類,為什麼還需要DBSCAN聚類算法?
    既然已經有了K均值聚類,為什麼還需要DBSCAN這樣的基於密度的聚類算法呢?K均值聚類可以將鬆散相關的觀測聚類在一起。每一個觀測最終都成為某個聚類的一部分,即使這些觀測在向量空間中分散得很遠。由於聚類依賴於聚類元素的均值,因此每個數據點在形成聚類中都起著作用。
  • 2017.05:房地產市場價格影響因素的蛛網模型分析(翟帥等)
    房地產市場價格影響因素的蛛網模型分析——基於中部6省數據,分析住房市場的供求機制及價格波動特徵,可以判斷模型的收斂與發散。)05-0011-07   DOI: 10.13778/j.cnki.11-3705/c.2017.05.003