本文簡談統計圖表的發展和目前常見的統計圖表類型。
早在16世紀,概率論基礎、微積分、對數等統計數學理論就已經被發現並應用於實際,但直到1750-1800年,人們才發明了統計圖表來展示統計數據。
1786,威廉·普萊費爾(William Playfair)在其出版的《商業和政治圖解》一書中,引入了圖表來顯示經濟數據。我們今天還在廣泛使用的很多基礎圖表,如條形圖、折線圖、餅圖等都是他發明的。
威廉姆·普萊菲爾《商業和政治圖解》中的條形圖
其後,統計圖表被越來越廣泛的運用於醫學、經濟、戰爭傷亡、貧困調查等領域。約翰普林斯頓傑出的統計學家約翰·圖基(John Tukey)在1977年出版了具有開創性的著作《探索性數據分析》。儘管此時,他在書中教大家手繪圖表的技巧,但他憑藉其傑出的技術貢獻在這一領域開疆擴土,讓人們看到了統計圖表研究的價值和意義,而不僅僅只是枯燥乏味的章法。1982年,愛德華·塔夫特(EdwardTufte)出版《定量信息的可視化》,為數據的圖形可視化設定了新的標準。
技術的進步導致海量數據的產生,幾乎所有的領域都能用可視化來傳遞信息,可視化的研究和運用甚至已經超出了統計分析和數據挖掘的範疇,成為視覺領域的一種藝術表達。
這是數據可視化在新技術時代迎來的發展機遇,但數據的複雜性和可視化素材的豐富性在一定程度上也讓很多人望而卻步。本文希望通過梳理目前最常見的統計圖表類型,拉近大家與統計圖表的距離。
圖表的分類各式各樣,我選用下圖的劃分方式向大家介紹圖表的類型。下圖中將圖表分為了六大類,分別是:類型比較、概率分布、關係數據、KPI數據、成分數據、地理位置數據。
圖片來自Google
類型比較(comparison):即用於比較不同種類數據的大小和趨勢。圖中將分類數據和時間序列都歸為此類。
其中,分類數據比較不同項目的數值大小,一般用柱形圖、條形圖、堆疊圖、蝴蝶圖、文字雲、組合圖表示。
時間序列表示某事按一定的時間順序發展的走勢、趨勢,包括折線圖、面積圖、甘特圖、階梯折線圖,以及股價圖、K線圖等財務數據圖。
概率分布(distribution):概率分布用於表示各項目、類別間的比較,主要有直方圖、盒須圖、散點圖、置信區間圖,等。
關係數據(relationship):描述兩種或多種數據的關聯情況,我們也可以用散點圖、雷達圖、熱圖表示。
KPI數據(KPI):這裡的KPI指的是儀表圖,包括:儀表圖、錶盤、溫度計、數字顯示圖。
成分數據(composition):成分也叫做構成,用於表示整體中不同的組成部分,一般情況下用餅圖、樹狀圖、瀑布圖、南丁格爾圖等表示。
地理位置數據(geography):側重於用地圖來呈現含有地理位置的數據,如:填充地圖、符號地圖、熱力地圖,等。
雖然現在的圖表呈現方式多樣,但我們最常運用的圖表主要就是條形圖、折線圖、餅圖、散點圖和地圖,以及一系列它們的延伸圖表,比如:面積圖、樹狀圖、圓環圖,等等。此外,可以通過圖表間的相互疊加來形成複合圖表類型。
Excel中自帶的所有圖表類型基本滿足了大多數人的日常工作需要,在公眾號「數據挖掘與可視化分析」中,我依次介紹過常見圖表的適用場景和製作方式,可視化初學者可以翻看歷史文章查看。
不過,Excel的圖表類型和能夠分析的數據量有限,而且圖表製作和設計花費時間較多,設計模板不方便保存和重複使用。學習數據可視化的人通常都還會學習至少一門程式語言,比如R、python、processing、D3.js。另外,交互式的可視化分析工具也越來越受企業歡迎;比如輕量級可視化BI工具tableau,以及國內的BDP。
大家在學習統計圖表的過程中,不妨採用循序漸進的學習方法,先學會用Excel清晰數據、繪製圖表,等熟練掌握了Excel圖表以後,再進一步學習其他軟體繪製更複雜的圖表。
我們需要了解可視化的前世今生,以及各種圖表的適用場景,但數據可視化不是炫技,而是讓數據探索和表達的過程更加直觀、有趣。因此,要考慮自己的目的和具有的應用場景選擇合適的統計圖表。
統計圖表通常是放在數據可視化部分來講的話題,但其實它也是統計學中的重要組成部分。在《妙趣橫生的統計學》這門課程中,松鼠向大家詳細介紹了常見的統計圖表和最經典最常用的圖表繪製工具。
需要學習統計理論基礎、了解如何用Excel、Tableau和R語言繪製統計圖表的讀者可以點擊閱讀原文,觀看視頻課程。