同時相關關係還能夠幫助我們發現火災潛在因素之間的關係,比如建築物位置和是否申請改建令的相關係數達到0.63,這兩個因素互相之間存在某種聯繫,除此之外還有許多火災潛在因素之間是相互聯繫的。火災潛在因素之間的相互關係可以指導數據分析師選擇合適的降維方法,減少它們之間的共線性,這能夠提高預測系統的準確性。
正如Michael Flowers所說,解決問題的關鍵並不在於使用了多麼高深的技術,而在於洞察問題的本質和使用正確的數據。紐約市居住著800萬人口,有100萬棟建築,每天接到6.5萬次投訴(其內容從蟑螂投訴到路樹橫倒無所不有),誕生25萬條推特,產生1.2萬噸垃圾……紐約市每天要產生大量的數據,而這些數據絕大部分都集中在紐約市政府。
紐約市政府是全世界範圍內公開數據最多的政府,上圖展示了它所公開的數據類型,其中數據文件佔據壓倒性的優勢,這意味著紐約市政府所公開的數據中絕大部分是可供下載並進行分析的。Michael Flowers正是使用了這些數據找出與火災相關的因素,比如區域居民平均收入、建築物年齡、是否被投訴過、是否存在電氣性能問題等都和火災風險指數有重要關係。
Michael Flowers成功的關鍵並不在於他使用了多複雜的方法,而在於他通過和消防員等人交流,對發生違法改建的原因(還不起高額房貸)和一般流程(申請改建令後違法改建)有所掌握,從而發現居民平均財產、是否申請改建令等看似和火災沒有關係的因素和火災之間的潛在聯繫。儘管詳細的數據統計並未公布,但負責風險管理的助力署長說:「這個項目最終會讓我們看到火災發生次數減少了,火災的嚴重程度也會降低。」
相關分析用於研究兩個或多個變量間的密切程度,在相關分析中變量之間是平等的,不存在哪個是因哪個是果的區別。在相關分析中最重要的指標是相關係數,相關係數主要分為皮爾遜相關係數,等級相關係數,偏相關係數等。
皮爾遜相關係數也叫簡單相關係數,它是用途最廣的一種相關係數。在本小節所提到的例子中,判斷是否發生火災和其他因素的密切程度就使用了皮爾遜相關係數。這種相關係數對絕大多數數值型變量都是適用的;等級相關係數則專門用於研究定序變量,比如本案例中建築位置使用數字1、2、3來表示建築位置的危險等級,這些數字之間存在遞進的等級關係,數字越大位置就越危險,因此這就是一個定序變量,使用等級相關係數衡量它和其他因素的密切程度也是合理的。
偏相關係數關心的是矯正後的相關係數。比如本案例中是否發生火災和建築物位置有關係,建築物位置和是否申請改建令也有關係,是否發生火災和是否申請改建令同樣具有關係。但是建築物位置影響是否發生火災,建築物位置也影響是否申請改建令,因此我們就不知道是否發生火災和是否申請改建令之間的相關關係是不是同時受到建築物位置影響才產生。針對是否發生火災和是否申請改建令,偏相關分析可以衡量去掉建築物位置影響後的相關關係,而這時使用的相關係數就是偏相關係數。
相關分析和偏相關分析在軟體SPSS裡都可以十分簡便的完成,SPSS也提供了多種相關係數供數據分析師加以選擇。相關分析不但能夠自己解決問題,同時進行相關分析也是聚類分析、回歸分析、因子分析等分析方法的必要工作之一,在做這些分析之前,都需要首先進行相關分析以了解數據是否適合這些分析。
聚類分析的目的在於將相似的變量聚為一類,因此只有存在相關關係的變量才有可能聚為一類;回歸分析研究的是自變量和因變量的關係,自變量和因變量必然存在相關關係,否則回歸方程往往是不可信的;因子分析和聚類分析相似,它同樣是將存在相關關係的變量整合為一個因子。在做上述三種較為複雜的分析之前,首先進行相關分析可以幫助數據分析師提前了解自己的數據特徵,預知其他分析中可能出現的結果,這在實際工作中將節約許多時間和資源。
相關分析同樣具有缺點,它對於數值型數據工作最好,對其他數據則可能出現偏差。同時相關係數的計算受到數據樣本量的影響,數據量較小的樣本的相關係數常常較高,這和相關係數的計算公式有關。因此我們在使用相關分析時,數據量應儘量大於50。總的來說,相關係數具有簡潔可靠的優點,是數據分析師進行數據分析工作時的一個重要參考指標。