任昱衡:(三)紐約市政府利用相關分析監控違法建築,皮爾遜相關值的...

2021-01-15 騰訊網

同時相關關係還能夠幫助我們發現火災潛在因素之間的關係,比如建築物位置和是否申請改建令的相關係數達到0.63,這兩個因素互相之間存在某種聯繫,除此之外還有許多火災潛在因素之間是相互聯繫的。火災潛在因素之間的相互關係可以指導數據分析師選擇合適的降維方法,減少它們之間的共線性,這能夠提高預測系統的準確性。

正如Michael Flowers所說,解決問題的關鍵並不在於使用了多麼高深的技術,而在於洞察問題的本質和使用正確的數據。紐約市居住著800萬人口,有100萬棟建築,每天接到6.5萬次投訴(其內容從蟑螂投訴到路樹橫倒無所不有),誕生25萬條推特,產生1.2萬噸垃圾……紐約市每天要產生大量的數據,而這些數據絕大部分都集中在紐約市政府。

紐約市政府是全世界範圍內公開數據最多的政府,上圖展示了它所公開的數據類型,其中數據文件佔據壓倒性的優勢,這意味著紐約市政府所公開的數據中絕大部分是可供下載並進行分析的。Michael Flowers正是使用了這些數據找出與火災相關的因素,比如區域居民平均收入、建築物年齡、是否被投訴過、是否存在電氣性能問題等都和火災風險指數有重要關係。

Michael Flowers成功的關鍵並不在於他使用了多複雜的方法,而在於他通過和消防員等人交流,對發生違法改建的原因(還不起高額房貸)和一般流程(申請改建令後違法改建)有所掌握,從而發現居民平均財產、是否申請改建令等看似和火災沒有關係的因素和火災之間的潛在聯繫。儘管詳細的數據統計並未公布,但負責風險管理的助力署長說:「這個項目最終會讓我們看到火災發生次數減少了,火災的嚴重程度也會降低。」

相關分析用於研究兩個或多個變量間的密切程度,在相關分析中變量之間是平等的,不存在哪個是因哪個是果的區別。在相關分析中最重要的指標是相關係數,相關係數主要分為皮爾遜相關係數,等級相關係數,偏相關係數等。

皮爾遜相關係數也叫簡單相關係數,它是用途最廣的一種相關係數。在本小節所提到的例子中,判斷是否發生火災和其他因素的密切程度就使用了皮爾遜相關係數。這種相關係數對絕大多數數值型變量都是適用的;等級相關係數則專門用於研究定序變量,比如本案例中建築位置使用數字1、2、3來表示建築位置的危險等級,這些數字之間存在遞進的等級關係,數字越大位置就越危險,因此這就是一個定序變量,使用等級相關係數衡量它和其他因素的密切程度也是合理的。

偏相關係數關心的是矯正後的相關係數。比如本案例中是否發生火災和建築物位置有關係,建築物位置和是否申請改建令也有關係,是否發生火災和是否申請改建令同樣具有關係。但是建築物位置影響是否發生火災,建築物位置也影響是否申請改建令,因此我們就不知道是否發生火災和是否申請改建令之間的相關關係是不是同時受到建築物位置影響才產生。針對是否發生火災和是否申請改建令,偏相關分析可以衡量去掉建築物位置影響後的相關關係,而這時使用的相關係數就是偏相關係數。

相關分析和偏相關分析在軟體SPSS裡都可以十分簡便的完成,SPSS也提供了多種相關係數供數據分析師加以選擇。相關分析不但能夠自己解決問題,同時進行相關分析也是聚類分析、回歸分析、因子分析等分析方法的必要工作之一,在做這些分析之前,都需要首先進行相關分析以了解數據是否適合這些分析。

聚類分析的目的在於將相似的變量聚為一類,因此只有存在相關關係的變量才有可能聚為一類;回歸分析研究的是自變量和因變量的關係,自變量和因變量必然存在相關關係,否則回歸方程往往是不可信的;因子分析和聚類分析相似,它同樣是將存在相關關係的變量整合為一個因子。在做上述三種較為複雜的分析之前,首先進行相關分析可以幫助數據分析師提前了解自己的數據特徵,預知其他分析中可能出現的結果,這在實際工作中將節約許多時間和資源。

相關分析同樣具有缺點,它對於數值型數據工作最好,對其他數據則可能出現偏差。同時相關係數的計算受到數據樣本量的影響,數據量較小的樣本的相關係數常常較高,這和相關係數的計算公式有關。因此我們在使用相關分析時,數據量應儘量大於50。總的來說,相關係數具有簡潔可靠的優點,是數據分析師進行數據分析工作時的一個重要參考指標。

相關焦點

  • 管理心理學之統計(19)相關 皮爾遜相關與斯皮爾曼相關
    皮爾遜相關的假設檢驗假設檢驗的基本問題在於總體中是否存在相關,總體的相關通常用字母ρ表示。H0表示非零的樣本相關是由偶然因素決定的。也就是說總體沒有相關,樣本所得值是取樣誤差的結果。H1表示非零相關精確的代表了總體真實的非零相關。單尾檢驗的方向性檢驗會在H1中指明ρ>0或ρ<0。用符號表示假設為:樣本相關與它代表的總體相關會存在一些誤差。
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • 皮爾遜積差相關/斯皮爾曼等級相關的含義和使用條件
    一,皮爾遜積差相關積差相關通常是用來考察連續數據之間的相關性。
  • Pearson(皮爾遜)相關係數
    由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。
  • 自相關與偏自相關的簡單介紹
    自相關和偏自相關圖在時間序列分析和預測中經常使用。這些圖生動的總結了一個時間序列的觀察值與他之前的時間步的觀察值之間的關係強度。
  • 廣西建工集團建築工程總承包有限公司環境違法被罰1萬元
    每經AI快訊,「A股綠色報告」項目監控到的數據顯示,綠地控股(600606.SH)間接控股子公司廣西建工集團建築工程總承包有限公司因環境違法行為受到行政處罰。依據《廣西壯族自治區環境保護條例》第六十條第一款,廣西建工集團建築工程總承包有限公司被處以罰款1萬元,責令改正。
  • 「電偵探」讓違法排汙無處遁形 濟南率先應用電量監控環保執法
    要實行最嚴格的生態環境保護制度,全面建立資源高效利用制度,健全生態保護和修複製度,嚴明生態環境保護責任制度。今年,市生態環境局在全國率先開展非現場執法企業電量環保監控系統安裝應用,建成智慧環保監控平臺,執法人員用手機APP就能隨時隨地對企業治汙設施進行全方位24小時監控,讓環境執法更精準,企業生產更環保,把濟南區域綠色生產監管提升到了全新境界,引起業內廣泛關注。
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    K-S檢驗Kolmogorov-smirnov是一個比較頻率分布f(x)與理論分布g(x)或者兩個觀測值分布的檢驗辦法
  • 相關係數之Pearson
    定義說到相關係數需要了解的 3 個概念:相關分析、數據期望、協方差。先分別說明這些概念。
  • 澳門路660弄違法搭建五花八門 優秀歷史建築豈容侵蝕
    前行70米左右,一堵灰牆掩映著一塊市政府於2005年10月掛牌的「優秀歷史建築」銘牌。上面顯示:弄內1—15號、17—25號、27—37號、41—51號、229—239號、251—261號、267—277號、290—301號、307—317號、381—391號、397—407號,建築為典型的和洋折衷日本近代集合式住宅,約1920年代建造。
  • SPSS、EXCLE——偏相關分析
    SPSS、EXCLE——偏相關分析原始數據:一、為什麼要使用偏相關分析相關分析用於分析兩個事物之間的關係情況,在現實分析中,相關分析往往有第三變量的影響或作用,而使得相關係數不能真實地體現其線性相關程度。
  • 中山這棟違法建築被拆除
    阻礙城鎮有序開發和提檔升級  還嚴重侵害其他街坊的切身利益  引起街坊們的強烈反感  11月17日,民眾鎮綜合行政執法局、城管住建和農業農村局、公安分局等多個部門,依法對接源村的一處違法佔用耕地建築實行強制拆除,拆除面積為
  • 第二十二章 相關回歸分析
    第二十二章 相關回歸分析   提要 相關回歸的意義,原理;小樣本的直線相關和回歸分析;相關係數和回歸係數的意義及假設檢驗;應用直線相關和回歸分析時的注意事項。   在醫學上,許多現象之間都存在著相互聯繫,例如身高與體重,體溫與脈搏,年齡與血壓,釘螺與血吸蟲感染等。
  • 簡單相關分析中,相關係數r的取值的特點有( )。
    簡單相關分析中,相關係數r的取值的特點有( )。A.r的值越大,意味著變量之間的相關程度越高B.若兩變量相關,且變化的方向一致,則r值為負;反之,則r值為正C.r=0,意味著變量之間完全不相關D.r=l,意味著變量之間完全正相關E.r=﹣1,意味著變量之間完全負相關查看答案解析【正確答案】ACDE
  • Stata第七章 相關分析
    本節STATA 命令摘要correlate變量名1變量名2…變量名mspearman變量1 變量2·       線性關係的相關分析若計量資料變量1,…,變量m服從正態分布,對於它們之間是否存在線性相關關係可以通過相關分析方法,相應的STATA命令為:pwcorr變量名1變量名2…變量名m,sig
  • 新規學習:建築工程糾紛中實際施工人的相關規定(2021年)
    實際施工人的相關法律法規有哪些?披露實際施工人的身份有什麼影響?第一條 建設工程施工合同具有下列情形之一的,應當依據民法典第一百五十三條第一款的規定,認定無效:(一)承包人未取得建築業企業資質或者超越資質等級的;(二)沒有資質的實際施工人借用有資質的建築施工企業名義的;(三)建設工程必須進行招標而未招標或者中標無效的。
  • 關於第四代住房(城市森林花園建築) 相關政策的實施意見(試行)
    關於第四代住房(城市森林花園建築) 相關政策的實施意見(試行)2020年07月16日 16:54:31      來源:國土資源局    編輯:zgjy為提升人居環境品質,滿足新時代人民對美好生活的需求,根據我市實際情況,提出如下實施意見。
  • 【工業固廢】建築石膏相關外加劑研究及經濟效益分析
    北極星固廢網訊:石膏有著多種用途,將其用作建築材料也有一些歷史了,但一直都用的是性質穩定的天然石膏。隨著我國工業經濟的飛速發展,產生了越來越多的工業副產物,如生產磷化肥的副產物之一磷石膏、對含硫材料燃燒後處理的副產物之一脫硫石膏等。近年來,我國一直在強調循環經濟的發展模式,這些副產石膏產量大、汙染重,將其作為建築材料來使用,正符合循環經濟的發展之道。
  • 市政府辦公室轉發市化治辦關於南通市化工生產企業專項整治關閉...
    > 各縣(市)、區人民政府,市各有關部門和單位:   市化工行業專項整治工作領導小組辦公室提出的《關於南通市化工生產企業專項整治關閉違法違規企業工作意見》已經市政府同意,現轉發給你們,請認真貫徹執行。
  • 基於典型相關分析的詞向量
    分布式詞向量則乾脆直接用普通的向量來表示詞向量,而元素的值為任意實數,該向量的維數可以在事前確定,一般可以為50維或100維。這樣一來就克服了在深度學習中可能的維度災難,而且充分利用了空間,如果使用適當的訓練方法訓練出來的詞向量還可以直接根據兩個詞之間的距離來計算相似性。典型相關分析典型相關分析主要用於分析兩組變量之間的關係,通過該方法能有效分析相關關係。