利用ggforce繪製數據的分布規律

2021-01-11 一花視界

在R語言中,有很多函數可以描繪數據的分布規律,如利用geom_boxplot繪製箱線圖,用geom_histogram繪製直方圖,利用geom_violet繪製小提琴圖,利用geom_jitter繪製抖動圖等等。然而這些函數大多只能反映數據分布的部分規律和特徵。在實際數據分析時,往往需要多個函數圖形組合在一起,才能完整的描述一組數據的整體特徵。

本文主要介紹ggforce程序包的geom_sina函數,結合箱線圖和小提琴圖,以反映數據的分布規律及其特徵。

1. 產生數據集

以下代碼產生了一個df數據集,包含三個樣本數據。三個樣本均包含500個隨機產生的正態分布數據,產生三個樣本的正態總體的均數分別為8,6和4,方差均為1。

數據集代碼

2. 繪製小提琴圖、箱線圖和抖動圖

R代碼

小提琴圖、箱線圖和抖動圖是繪製數據分布規律的常用函數組合。下提琴圖展示數據核密度分布,箱線圖反映數據的集中和離散程度,抖動圖展示樣本數據點的數目分布。具體如下圖所示:

小提琴圖+箱線圖+抖動圖

3. geom_sina函數

ggplot2的擴展程序ggforce中,提供了一個函數geom_sina。該函數既可以反映數據的核密度分布,又可以直觀展示數據樣本點的具體數目。因此該函數可以看做是geom_violet和geom_jitter函數的組合。

geom_sina點圖

上圖為三個樣本數據的geom_sina函數繪圖結果。在點集的中心位置表示數據的平均數,而在垂直方向上點集的長度反映了數據的離散程度。樣本各數據點以核密度的形式分布排列,因此可以反映樣本整體的分布規律,以及在每個區段中數據點的數目。

4. geom_sina與箱線圖和小提琴圖的組合

雖然上圖反映的數據特徵比較全面,但從視覺上稍顯蒼白,不夠直觀。因此在geom_sina核密度點圖的基礎上,添加小提琴圖和箱線圖,予以補充,代碼如下:

geom_sina+箱線圖+小提琴圖代碼

以上代碼中,把小提琴圖放在最下一層,然後繪製箱線圖,在箱線圖之上繪製geom_sina圖。由於三個樣本的數據點比較密集,會遮擋下面圖層的顯示,故將geom_sina函數的透明度設置為alpha=0.3,具體效果如下圖。

geom_sina+箱線圖+小提琴圖

上圖中的顏色搭配仍需斟酌,但單純從圖片的視覺效果來看,geom_sina似乎不及geom_boxplot實用。在數據分析時,箱線圖仍然是描述數據特徵的首選。

相關焦點

  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 精品圖表|Excel繪製直方圖與正態分布曲線
    今日更新:Excel繪製直方圖與正態分布曲線老樣子,還是先上幾幅不同配色的圖來看一下:作圖思路先對原始的數據進行分割(組),計算每個分組的頻數與正態分布後。然後插入柱形圖與折線圖,調整柱形的分類間距與折線的平滑度即可。
  • 數據分析與挖掘 - 08圖形繪製
    首先我們來學習一下bar()函數,它的功能是在x軸上繪製定性數據的分布特徵,也就是柱狀圖。使用方法是plt.bar(x,y),其中x表示在x軸上的定性數據的類別,而y表示每種定性數據的類別的數量。如果你覺得有點抽象,那我們就直接上代碼吧。
  • 「北漂」鳥類如何「落戶」:公民科學數據首次用於分布研究
    近日,北京大學保護生物學教授、自然保護與社會發展研究中心執行主任呂植團隊與昆明市朱雀鳥類研究所(以下簡稱朱雀會)主持的中國觀鳥組織聯合行動平臺合作,利用近20多年來中國民間觀鳥愛好者的觀鳥記錄,繪製了包含1000多種鳥類的高解析度分布地圖,並模擬了2070年這些鳥類的預測分布圖。相關研究成果發表於《公共科學圖書館·綜合》。
  • 【Excel技巧】F分布概率密度函數圖表的繪製
    利用Excel繪製t分布的概率密度函數的相同方式,可以繪製F分布的概率密度函數圖表。
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 作圖詳解 | 利用R繪製馬賽克圖
    馬賽克圖常用於展示屬性數據的各分類數量關係,尤其善於展示高階列聯表數據。
  • 備戰高考洋流分布規律
    備戰高考洋流分布規律今天,學習有途網小編就為大家整理了高中地理知識點,希望對大家有用。更多學習內容和學習方法盡情關注有途網!1、按成因:風海流:形成動力為大氣運動,規模很大。例如:西風漂流、信風帶內的洋流。密度流:由密度差異引起,多出現在封閉海域與外洋之間。
  • 新研究通過用中國民間科學家20多年來的觀察記錄繪製出近1400種鳥類分布範圍
    新研究通過用中國民間科學家20多年來的觀察記錄繪製出近1400種鳥類分布範圍(神秘的地球uux.cn報導)據cnBeta:外媒報導,一項新研究通過用中國民間科學家在過去20多年來獲取的鳥類觀察記錄繪製出了近
  • 洋流的分布規律
    洋流的分布規律這一知識點是教師考試中的,中公教師今天特為大家總結了這一考點的相關知識,並結合練習題進行鞏固,希望對考生有所幫助。一、四大環流系統二、全球洋流分布模式圖
  • 故障壽命分布規律及維修策略
    現代設備的複雜化使得故障模式呈多樣化趨勢,設備故障率隨時間的發展規律主要有6種形式。1.浴盆曲線研究故障宏觀統計規律主要是研究故障率隨時間變化的規律。在一段時間內,具有代表性的是浴盆曲線,如圖1所示。2.一般設備故障率曲線的基本形式通過美國航空航天局(NASA)統計數據表明,航空設備故障率大致可以分為六種類型,其故障率曲線如圖2所示。
  • 科學家利用地震波繪製地球內部地圖 精確度空前
    據國外媒體報導,美國普林斯頓大學的科學家對地震進行監測,利用監測到的地震波繪製迄今為止精確度最高的地球內部模擬圖,揭示地殼與外核之間的層地幔。
  • 科學家繪製大腦詞語含義地圖
    一項研究描繪出了敘事性的語言含義在人類大腦中如何分布的詳細地圖。這項研究或有助於深入了解語言的神經生物學基礎。
  • 數據可視化,職場數據分析都需要哪些常用的圖表?
    ,便於讓讀者更高效閱讀,而不單是自己使用,通過數據可視化突出數據背後的規律,以此突出數據中的重要因素,並且,數據可視化可以將數據變得更加直觀。  圖表是對數據的可視化展示,精美的圖表可以方便用戶解讀數字之間的關係,相比起枯燥的表格來講,有助於發現容易被忽視的趨勢和規律。通過對趨勢和規律的分析,可以幫助用戶做出正確的判斷。我們將常用的圖表類型歸類為基礎圖表和高級可視化圖表。
  • 統計學入門級:常見概率分布+python繪製分布圖
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......基本概念離散型隨機變量如果隨機變量X的所有取值都可以逐個列舉出來,則稱X為離散型隨機變量。相應的概率分布有二項分布,泊松分布。
  • 利用Phyphox探究寬膠帶卷在斜面上的運動規律
    微主運用101教育PPT將手機實驗的畫面屏幕投射在大屏幕上,小心地將手機放置在寬膠帶卷的內部,調整好手機的位置,安排一位同學在斜面的底部保護手機,運行實驗程序,將寬膠帶卷從斜面的頂部無初速滾下,Phyphox就自動繪製出了寬膠帶卷圓心的速度時間圖像
  • Python學習第90課-數據可視化之散點圖繪製
    下面我們假設繪製一個散點圖需要的數據如下:x=[1,2,3,4,5,6,7,8,9,10]y=[2,5,3,1.6,4.3,5.8,6.2,7.5,8.1,9]根據之前學習繪製折線圖、柱狀圖、直方圖的經驗,我們可以總結出規律:用Python的matplotlib繪製圖形,就是plt.後面跟上要繪製的圖形的英文單詞的縮寫,或者截取該英文單詞的一部分作為一個函數
  • 公司人員分布組織結構圖如何繪製?這兩種方法很簡單
    為了明確各個部門與員工的具體情況,老闆會讓我們繪製出公司人員分布組織結構圖,一想到這很多人就會覺得頭大,其實有多種方法可以實現的,今天小編就來教教大家怎樣繪製公司人員分布組織結構圖。繪製方法一:使用SmartArt組織架構工具:Microsoft Office Word步驟一:先在電腦中新建一個空白word文檔,然後再點擊一下【插入】,我們在【插圖】中就可以看到SmartArt功能了。步驟二:點擊SmartArt功能後,我們需要選擇一下SmartArt的種類,而我們需要的公司人員分布組織結構圖就是【層次結構】中的一種了。
  • 哈佛利用磁共振技術繪製人腦內部3D圖
    哈佛利用磁共振技術繪製人腦內部3D圖,繪製出了人類大腦內部的詳細圖像,並且建立了人類大腦首個3D內部圖像,將為今後針對腦部的科學研究提供可靠的參考作用。
  • 鄭州地鐵通過大數據繪製熱力圖:1號線每天10萬人做「潮汐運動」
    以進出站客流量為基礎,以OD數據繪製的熱力圖來分析,鄭州市軌道交通有限公司運營分公司調度票務中心創新工作室目前正在通過另一個視角來分析鄭州地鐵。  數據  地鐵1號線:日均運送乘客43萬人次  (早晚高峰期間,每天10萬乘客完成了從西向東、再從東向西的「大遷徙」。)