如何全面解析數據並創造數據故事 | 網際網路數據資訊網-199IT |...

2021-01-12 網際網路數據資訊網

介紹

「講故事」的主意是極好的:將一個想法或事件變成一個故事。它將想法帶進生活,並為其增添了樂趣。這發生在我們的日常生活中。無論我們陳述一個有趣的事件還是新發現,故事總是吸引聽眾和讀者興趣的首選。

例如,當我們談論一個朋友是如何被老師責罵時,我們傾向於從頭開始講述事件,這樣故事才能流暢。

對於一個 「常見的導致駕駛分心的原因」 的案例,我們以性別分類,可以有2種方式去講述它:

第一種方式,給出如下的統計數據:

6%的男性認為發簡訊是一種幹擾,而女性有4.2%這樣認為;兒童在車裡可能導致9.8%的男性分心,而女性分心的有26.3%。

第二種方式,以下面這種視覺的方式,重新創建類似的統計信息:

你覺得哪種,講述了一個更好的故事?

目錄

一、講故事的必要性

二、如何創造故事?

1. 從紙—筆開始

2. 深入挖掘,找出你的故事的唯一目的

3. 使用一個強大的標題

4. 設計 「路線圖」

5. 簡要的總結

三、數據類型和合適的圖表

1. 文本 [Wordclouds 文字雲]

2. 混合 [Facet Grids 面網格]

3. 數字 [Line Charts/Bar Charts 折線圖/條形圖]

4. 股票 [Candlestick Charts 燭臺圖]

5. 地理 [Maps 地圖]

四、預測模型步驟中的故事

1. 數據探索

2. 特徵可視化

3. 模型創建

4. 模型比較

五、講故事的最佳實踐

六、結尾語

一、講故事的必要性

講故事的藝術,既簡單又複雜。故事激發思考,並能提出以前沒有被理解或被解釋的見解。在數據驅動操作中,它經常被忽視,因為我們認為這只是一項微不足道的任務。我們沒有意識到的是,再好的故事,如果沒有很好地呈現出來,也終究毫無用處!

在一些公司中,分析任何事件的第一步是將故事載入其中。提問如,為什麼我們要分析它?我們能從中作出什麼決定?有時,單憑數據就可以講述一些直觀或複雜的故事,我們就不需要再運行複雜的相關性來證實了。

需要故事和圖像來解釋數據的一個最好的例子是 「Anscombe四重奏解析」。「Anscombe四重奏」中包含四個數據集,它們擁有非常相似的統計結論,但當你將它們可視化後,結果卻完全不同。

以上是 「Anscombe四重奏」中描述的4個數據集。如果只看數字,會發現它們的匯總統計數據幾乎是相同的。

讓我們看看可視化後,它們的樣子:

你有想過這四個數據集會呈現如此不同的視覺效果嗎?

二、如何創造故事?

創造故事或一個情節是推進你的想法的第一步。大多數人沒有去思考他們自己的故事,也就無法區別於平庸。讓我舉個例子,指導你完成創建故事的步驟。

我們將探索一個數據集,該數據集包含新聞頭條和納斯達克100家科技公司每支股票的詳細價格記錄 ( NASDAQ-100 technology sector)。

選擇的列名如下:

 

1. 從紙—筆開始

視覺上引人入勝的演示文稿將啟發你的聽眾,但它們肯定需要投入更多的工作。其中一個最好的演示文稿是在粗糙的頁面和薄紙上創建的。

在你創建你的故事前寫下想法和流程,對於最終的成品非常關鍵。

為了顯著地提高你的分析,你要做的最重要的一件事是要講一個故事。你生成的流程最終的結果中可能會有很多衝突。

亞里斯多德的經典五點計劃,有助於提供強烈的影響:

傳遞一個能引起聽眾興趣的故事或觀點;提出一個必須解決或回答的問題;為你提出的問題提供一種答案;描述採用該答案下的行動方案的具體的好處;提出行動號召。

我構建報告的一般方式是加入圖表,它們能讓我更好的理解數據。

我的第一個想法是,通過使用手頭上的數據,如何能做出更好的股票業務決策?

使用折線圖可以幫助我分析特定股票價格的趨勢線。

如我所見,2016年2月所有股票都下跌了。這將幫助我從那個事件段中搜索新聞,以確定導致下降的原因。現在,我該如何選擇從哪個新聞源獲取信息?

通過確定哪個新聞源對某一特定股票報告的最多,我們將有理由相信,對於該支股票,那將是一個不錯的信息來源。

2. 深入挖掘,找出你的故事的唯一目的

仔細辨認,你的故事是什麼意思。問問自己,「用這個故事我真正地給出的是什麼?」 不是故事本身,而是故事能做什麼,以使你做出更好的決策。你展示的是一個更好的決策或分析的想法。【果殼與果仁兒的關係】提出一個「個人激情宣言」。用一句話,說出你的期望和為什麼你對於使用這樣的想法而由衷得感到興奮。你的激情宣言將被銘記很久。

3. 使用強大的標題

創建你的標題,一句話來陳述你的故事,視覺或分析。最有效的標題是簡潔的,具體的,並能提供給個人好處的。記住,你的標題是一個能使你的聽眾更好地去理解的觀點。不是關於你自己的,也不是關於他們的。

4. 設計一個路線圖

創建一個清單,其中包含所有你想讓聽眾,從你的故事,視覺化或分析中知道的關鍵詞.對該清單分類,直到只剩下3個主要信息點。這3個點構成一組將為你的故事提供縱向路線.在每條關鍵信息的下面,添加支持證據以增強敘述。可以是個人故事,事實,例子,類比等。

5. 簡要的總結

現在你已經提出了你故事中的所有關鍵點,你的結論應該簡短有力。在我的報告中,我提到了3–4行的總結來說明為什麼要買某支股票。

三、數據類型和合適的圖表

讓我們了解一下常見數據類型和如何通過選擇最適合的圖表來講述故事。

 

常見的數據類型:

1. 文本數據

當數據以這種形式發現時,通常很容易找出一個詞被使用的頻率或文本情感。使用這種形式的數據可以最好地講述故事。

文本數據最適合的可視化方式之一是「文字雲」。它的機理是,將更頻繁的詞放到中心並放大它們,讓我們清楚地了解文本的一般概念所描繪的內容。

例如,上面顯示的文字雲給出了Twitter數據集的表示。這表明dismal和miss是最常用的消極詞。

2. 混合數據

當我們的數據由數字或者其它各種格式組成時,我們需要知道哪些格式是重要的,並從數據集中得到好的見解。

這種數據的首選視覺效果可能會有所不同;這裡我將向你展示如何使用「平面網格」來處理數據。我將使用的是鐵達尼號的乘客數據。

正如這張圖所示,女性和頭等艙乘客的生存機率高於機組成員或較低艙位的男性。

這不正是鐵達尼號上真正發生的事嗎?

另一種可視化此類數據的方式是嘗試使用「多變量圖」。下面是關於汽車性能和規格的數據集。

這裡我們能看到,擁有更重車身的汽車比那些擁有更輕車身的汽車慢。有道理,對嗎?

3. 數字數據

當我們遇到這種數據時,通常會尋找描述數字的線條或趨勢。折線圖會是不錯的選擇。

這裡我們可以很清晰地看到,成人和兒童在當地景點的價格上漲。很容易就看出每年的增長幅度。

4. 股票

我們還會碰到與股票有關的數據集。股市數據主要是一個數值數據的時間序列,但作為一個交易員或投資者,我想謹慎地了解每個日期和下跌信息。

在這方面,最具吸引力的可視化方式是「燭臺圖」。

這裡我們以特斯拉股票為例。燭臺圖可以在每個日期上操縱,並單獨查看股票的高低。這有助於我們根據當前或過去的市場趨勢做出更好的投資決策。

如圖所示,2016年2月特斯拉股票下跌。我們可以利用這些信息來了解其它市場情況和經濟狀況,從而對它們的股票做出決策。

5. 地理數據

當我們有關於特定位置和區域的數據時,我們使用地圖來增加分析的清晰度和意義。

在這個例子中,我們可以看到各國在2002年世界盃前後的表現。德國隊進球最多,是世界足球史上最具統治力的球隊之一。

四、在預測模型的每一步中講述故事

我們經常被問到,故事和視覺效果在創建數據模型時,是如何起作用或提供幫助的。在預測建模的所有階段中,講述故事可能是對分析的重要補充。

讓我們了解從數據中創建模型並在其中講述故事的基本步驟。

1. 數據探索

建模的第一步是了解你的數據。我將向你展示如何在不計算複雜的統計數據的情況下,探索數據。

這是一個關於葡萄酒質量的數據集。該數據集的結構如下:

這裡是對該數據集的相關統計摘要:

所以,如果我們需要看酒精量和葡萄酒質量間是否有任何關係時,該怎麼做呢?

可以計算Pearson的『r』。它將幫助我們建立模型,但不會幫我們分析太多。

這表明酒精含量與葡萄酒質量之間存在很強的相關性。 但它會告訴你其他什麼嗎?

理想情況下,它沒有。 那麼,有什麼用呢?

讓我們看看,如何從可視化中了解更多。

首先,我們看紅酒質量是怎樣和酒精含量相關的。

可以看出,酒精含量越高,葡萄酒質量越好,這有助於我們更好地了解我們的數據。在這種情況下,我們還能發現異常值。

接下來,你會想知道葡萄酒中的酸含量是如何影響其質量的嗎?

這是可視化酸效應的一種方式。隨著Violin Plot橫向擴展,表面在這些區域中有更多的數據點。

2. 特徵可視化

在你生成特性後,如何看出一個預測的好壞。

圖表告訴我們,預測點離擬合線的距離。

另一個我們必須創建的視覺效果的例子是「主成分分析」(Principal Component Analysis)。如果您想深入了解PCA,可以閱讀下面連結中的文章。

Practical Guide to Principal Component Analysis (PCA) in R & Pythonhttps://www.analyticsvidhya.com/blog/2016/03/practical-guide-principal-component-analysis-python/

這是在Rstudio中的Iris數據集:

 

當我們對該數據集運行主成分分析時,會發現這些統計信息。

當我們繪製這個時,我們會發現視覺化結果比統計數據更具信息性。

 

3. 模型創建與比較

到了模型創建階段,我們會發現需要了解數據的擬合方式。

這是一個根據道路坡度和顛簸程度預測汽車該快還是慢的模型。

如你所見,決策邊界清楚地對大多數數據進行了分類,但88.21%的準確率並不能說明問題。圖中我們甚至可以看到錯誤分類的點離決策邊界有多遠。

我們可以通過查看決策邊界來比較某些算法和技術。

下面顯示了使用Iris數據集的另一個示例:

這裡沒有太多信息來獲取關於模型的有價值的見解。

想了解更多關於向量機的信息,可以閱讀下面這篇文章:

Understanding Support Vector Machine algorithm from examples (along with code)

Understanding Support Vector Machine algorithm from examples (along with code)

另一方面,該圖向我們展示了一個清晰的物種的分類邊界。

五、講故事的最佳實踐

現在你已經知道可以用「講故事」的方式來解釋我們的觀點,當你自己解決這個問題是,我將給你一些實用的提示:

始終在圖中標記軸並給出繪圖標題;必要時使用圖例;使用眼睛看起來較淺並且比例適中的顏色;避免添加不必要的細節,比如不具備良好可讀性的背景或主題;只有一個點可以根據水平和垂直位置同時編碼兩個定量值;如何你正在進行時間序列的編碼,不要使用點進行可視化。

六、結束語

講故事的方式不僅僅是它的用法。它能幫你從你過去遺漏的數據中發掘新見解。數字永遠無法清晰的描述特徵和數據之間的關係,故事和圖表將是很好的替代。

本文中我們已經詳細闡述了故事是如何在各種途徑中被使用的。從它們在模型構建步驟中的使用方式開始,我們逐漸了解哪些圖表適合哪些特定的數據類型。

希望你讀完這篇文章很開心。 期待聽到你的數據故事!

原文標題:

The Art of Story Telling in Data Science and how to create data stories?

原文連結:

The Art of Story Telling in Data Science and how to create data stories?

來自: THU數據派

相關焦點

  • 網紅電商如涵IPO路演PPT解析 | 網際網路數據資訊網-199IT | 中文...
    解析:對商業模式中最重要的環節——KOL系統 進行說明。同樣使用了流程圖的形式說明KOL運作系統,清晰地展示了人、貨、錢在系統中是如何流動,形成商業閉環。| 消費習慣的變化、自媒體的發展、增長的數字市場、技術發展將帶動網際網路KOL經濟的飛速發展。解析:展示優質的運營數據後,對整個KOL經濟市場進行分析,向投資人說明如涵還有很大的發展空間。2017年KOL經濟市場已達到近千億人民幣,除了較高的年複合增長率,整個消費市場和科技市場都對網紅電商市場的發展起促進作用。
  • 如何將數據科學與商業結合起來 | 網際網路數據資訊網-199IT | 中文...
    我們將產生2500萬的各種跟數據有關係的東西。還有將有250億套設備,連接到通過數據構建的網絡裡面。大家注意到這不是網際網路連接的數據,而是通過數據來連接的世界,剛才幾位專家也分享了,工業4.0,很多機器真正連到網際網路上去,但是它們內部建造了各種複雜優美的網絡,最後就是數據量的問題。
  • 銀行業深度報告:網際網路改變金融 | 網際網路數據資訊網-199IT | 中文...
    網際網路金融概念的爆發是有原因的。以阿里 巴巴和騰訊為代表的網際網路企業正在創造著一個又一個新的商業模式,各界素來對銀行僵硬迂訥的經營方式頗有微詞,自然而然寄望於網際網路為金融帶來生機與活 力。當下網際網路正極大地衝擊著商貿、出版、造紙等行業的既有模式,因此當阿里推出小貸和餘額寶開始挑戰銀行固有領域時,對於未來金融新模式的想像空間就被 極大地打開了。
  • .| 網際網路數據資訊網-199IT | 中文網際網路數據研究資訊中心-199IT
    第30版《世界生活成本指數》顯示了Covid-19大流行如何改變了全球133個城市的生活成本。該報告將重點關注由於匯率波動、供應鏈問題、稅收和補貼的影響以及消費者偏好的變化而導致的商品成本變化,以及全球消費品公司如何適應這種情況。總體而言,以美元計價漲幅最大的是德黑蘭(伊朗)。美國制裁影響了商品供應的情況下,其整體生活成本指數上漲了10個百分點。
  • CheetahLab:2018中國人工智慧報告 | 網際網路數據資訊網-199IT |...
    獵豹全球智庫基於獵豹大數據(Cheetah Data)對人工智慧產品在移動端表現的監控,為你呈現最全面的人工智慧商業化圖譜。註:本文中所涉及人工智慧產品均系分析師人工分類一、從1到100的創新即將開始加速過去幾年,對於人工智慧來說,儘管從0 到1的探索依然充滿了許多未知,但是從1到100的創新已經在悄然興起。
  • 信息可視化在新媒體時代的實踐思考 | 網際網路數據資訊網-199IT |...
    如何通過一些新穎有趣的方式去展示信息,是當下我們作為設計者需要思考的問題。本文通過一些案例來展示和分析如何通過新媒體藝術裝置這一種新的媒介來對信息進行設計,從不同的感官維度來設計和傳達信息。由於裝置藝術創造使用的材料非常豐富,其作品傳達信息的維度也是非常廣,在藝術語言上傳統平面繪畫與其相比有著一定的劣勢。同理,隨著時代的變遷,信息設計也需要找到一種新的媒介去承載,去傳達更多維、更抽象的信息。本文以4個方向、10個案例來分析信息設計在新媒體藝術裝置中的實踐。
  • 極光大數據:2018年電商行業研究報告 | 網際網路數據資訊網-199IT |...
    本報告定義的電商是狹義的電商概念,即消費者通過網際網路進行一手商品購買的平臺,不含B2B和二手交易。電商行業的概念與範疇本報告定義的電商是狹義的電商概念,即消費者通過網際網路進行一手商品購買的平臺,不含B2B和二手交易本報告將結合電商大數據以及電商用戶調研的數據,從行業運營情況、用戶評價、用戶粘性、用戶價值、雙十一情況、用戶畫像等多個方面綜合分析電商行業的情況
  • CheetahLab:2017年度中國app報告 | 網際網路數據資訊網-199IT |...
    又或者是,小鎮青年已經成為了移動網際網路世界的主流?2017年過去了,你是否懷念它?在這一年,改變不聲不響地發生著。獵豹全球智庫從數據出發,帶你俯瞰移動網際網路行業大震蕩。新零售浪潮對物流領域的影響也相當明顯,獵豹大數據顯示貨運物流app的活躍滲透率2017年增長了66%。獵豹大數據顯示,短視頻app2017年的活躍滲透率增長了近兩倍,而這一年,短視頻app的日均在線使用時長也成功超越了視頻app。行動支付、網際網路金融、銀行app在2017年也都有不同程度的增長。
  • 2017全球房車露營數據年中匯總 | 網際網路數據資訊網-199IT | 中文...
    21RV獨家解析2016-2017年度美國、歐洲、澳大利亞、日本、加拿大最新房車銷量及露營地最新數據,展望世界房車行業發展動態。中國 【房車】截止2016年12月31日,中國大陸房車保有量約4.5萬輛,2016年房車銷售量為8000餘輛,雖然無法與歐美國家的數百萬輛相較,但相對於2015年的30000輛增幅高達50%。
  • ...Online beta版本上線 | 網際網路數據資訊網-199IT | 中文網際網路...
    隨著生命科學領域數據爆炸式的增長,如何及時獲取、快速分析、安全儲存這些龐大的數據是研究者們急需解決的問題。BGI Online就是為此而生,它集成了高性能計算,大規模存儲及安全網絡互聯等基礎設施,支持數據的雲端存儲、分析、展示和交付。用戶可以在BGI Online上訪問自己的數據,獲取標準分析結果,也可以定製個性化的數據分析方案,並與其他授權用戶分享數據和成果。
  • FT中文:中國網際網路的「權力遊戲」 | 網際網路數據資訊網-199IT |...
    如今,更具顛覆性且不容忽視的力量主要以三家大型網際網路集團為代表,即百度(Baidu)、阿里巴巴(Alibaba)與騰訊(Tencent),合稱BAT(編者註:中國這三家大型網際網路集團名稱的英文首字母縮寫是BAT,在英文中是「蝙蝠」的意思)。這三家公司在短短幾年內已經使中國的許多方面發生了翻天覆地的變化。以阿里巴巴旗下的螞蟻金服(Ant Financial)為例。
  • 尼爾森:2018年點播歌曲流量增長49% | 網際網路數據資訊網-199IT |...
    根據尼爾森的最新數據,音樂行業在2018年經歷了顯著的整體增長,點播音頻歌曲流量增長了49%,推動音樂收聽總量同比增長23%。
  • 如何讓用戶研究變得重要 | 網際網路數據資訊網-199IT | 中文網際網路...
    我與他們討論了什麼才是好的研究問題(比如以「如何……」,「什麼……」等開頭的開放性問題,而不是「可以……」或「要做……」開頭)。但,好消息是你自己可以開始創造和培養這個環境了!1. 發展說服力(Develop persuasion skills)作為一個性格內向的人,「說服力」這個詞讓我有些反胃。當我聽到這個詞時,我就想起了一些歷史上偉大的演講者,向人群宣講,散發著超凡的領導力與個人魅力。
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    一、一個悲傷的故事:破滅的年少成名之夢        首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做        由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!
  • 2015年度10大Plotly數據可視化美圖及工具介紹 | 網際網路數據資訊網...
    學習如何用Plotly在IPython Notebooks中製作這種網絡圖(how to make this network graph), 你也可以運用R和MATLAB來實現。第八位. 「美國國債收益曲線」
  • 數據挖掘過程中要避免的11大錯誤 | 網際網路數據資訊網-199IT |...
    (Shannon實驗室在國際長途電話上的分析):不要試圖在一般的通話中把欺詐和非欺詐行為分類出來,重點應放在如何描述正常通話的特徵,然後據此發現異常通話行為。大多數研究人員會沉迷於模型的收斂性來儘量降低誤差,這樣讓他們可以獲得數學上的美感。但更應該讓計算機做的事情應該是如何改善業務,而不是僅僅側重模型計算上的精度。
  • Web網站分析:保證數據與業務的聯繫和價值 | 網際網路數據資訊網-199...
    如果你在獲取數據前沒有經過縝密的思考,那麼在分析數據時就只能碰運氣了。重新審視獲得數據的過程,保證數據從一開始就與業務有緊密的聯繫。 現在重新審視一下我們之前的問題,在網站分析過程中,我們所獲得的數據大部分都屬於低價值的基礎數據。這些數據有兩類共同的特點: 由網站分析工具產生的標準化數據。數據中不包含業務及運營背景信息。對於這樣數據,無論是你使用什麼樣的分析方法,都很難從中獲得洞察。原因很簡單,數據本身就缺少價值。
  • 數據可視化最有價值的50個圖表 | 網際網路數據資訊網-199IT | 中文...
    在數據分析和可視化中最有用的 50 個 Matplotlib 圖表。 這些圖表列表允許您使用 python 的 matplotlib 和 seaborn 庫選擇要顯示的可視化對象。這些圖表根據可視化目標的7個不同情景進行分組。 例如,如果要想像兩個變量之間的關係,請查看「關聯」部分下的圖表。 或者,如果您想要顯示值如何隨時間變化,請查看「變化」部分,依此類推。
  • POCT:掘金IVD潛力賽道 | 網際網路數據資訊網-199IT | 中文網際網路...
    青桐資本持續關注IVD賽道,繼上一篇《分子診斷:進擊的2020,如何持續領跑IVD?》後,我們再次聚焦POCT領域,在服務項目的基礎上,先後與60+創業者、投資人深度交流,試圖展現這個潛力賽道背後的「百景圖」。
  • 大數據時代可能影響你的7個商業趨勢 | 網際網路數據資訊網-199IT |...
    我們也看到了一個有益的生態系統的出現,迅速的讚美或擴展能力的核心支持技術,在大數據案例中,大數據生態系統已經迅速集中一批技術提供者,例如:Hadoop,Cassandra,Accumulo,Oracle,IBM.那麼在大數據的生態系統中我可以看到哪些趨勢會出現?有一大批的技術公司努力構建一種no-sql技術,從而為大數據提供解決方案例如:hadoop。