數據分析中連結數據及基本操作

2020-09-18 DataFocus

第三章 連接數據源

3.1 連接本地文件

打開DataFocus系統,點擊左側數據管理,然後點擊右側操作按鈕,點擊導入數據。可導入本地CSV、TXT、XLS、XLSX以及JSON等本地數據文件。選中後點擊上傳,並確認行列屬性是否正確。若行列屬性不正確(如數值保留了字符串格式未轉化為數值格式),則無法進行可視化分析。適用於一些本地已有文件(如一些店鋪數據或是自錄數據表)的分析,或是一些未購買資料庫的企業。

圖3-1

3.2 連接資料庫

點擊左側數據管理模塊,點擊上方數據源按鈕,點擊右側新建數據源,可點擊直連數據和導入數據。需要注意的是,導入數據為數據導入到DataFocus自帶大數據倉庫,直連數據為直接抽取伺服器數據進行分析。若是操作大量分析,建議使用導入數據,DataFocus數據倉庫性能可保障分析順暢,否則直連數據分析則依靠對方設備的性能。數據導入後,可點擊上方「開始」則可進行導入,列表可查看導入狀態。

導入數據支持定時更新,更新頻率一般為每天、每周、每月。直連數據可支持實時更新,資料庫中數據有變化,DataFocus中直連的這些表,以及依賴這些表製作的報表等也都能實時更新。

圖3-2

圖3-3

第四章 DataFocus基礎操作

4.1 列名搜索

打開DataFocus系統,點擊左上方選擇數據源按鈕,進行數據選擇。

圖4-1-1

選擇需要操作的數據表,並點擊右上角「確定」按鈕。一般新導入的數據表會顯示在靠前的位置。

圖4-1-2

雙擊左側列名即可進行組合分析,根據業務需要選擇需要分析的列名即可。不需要分析的列名可點擊搜索框的「x」按鈕,刪除此列名。此方法是最為簡便的搜索方法,雙擊搜索即分析,尤其是一些列名規範的數據表,如「產品名稱」、「銷售金額」等寫明確的數據表,則能快速進行分析,雙擊兩個列名即可出現每個產品的銷售金額情況。

圖4-1-3

並且,可點擊右側圖形轉換按鈕進行圖形轉換,比如需求變更為看趨勢,可將柱形圖轉換為折線圖。可變換的圖形主要分為基礎圖形和高級圖形,基礎圖形有柱狀圖、折線圖、面積圖、條形圖、堆積柱狀圖、餅圖、環形圖、散點圖、氣泡圖、堆積條形圖、漏鬥圖、帕累託圖、KPI指標、儀表圖、雷達圖、位置圖、數據透視表以及組合圖。高級圖形有樹形圖、瀑布圖、旭日圖、打包圖、箱型圖、詞雲圖、弦圖、桑基圖、平行圖、時序柱狀圖、時序條形圖、時序散點圖、時序氣泡圖、經緯圖、涇渭氣泡圖、熱力圖和統計圖。具體可在DataFocus系統中進行體驗。

4.2 關鍵詞搜索

關鍵詞搜索,即為在搜索框輸入一些關鍵詞進行搜索分析,主要分為以下類型:

1)時間日期關鍵詞搜索分析:

每年/每季度/每月 銷售金額

按月統計 銷售金額

2018(具體年份)銷售金額—>2018 銷售金額 9月(加上具體月份)

按周日期統計 銷售金額

周三(具體周幾) 銷售金額

在"2018/04/06" 和"2018/05/31" 之間的銷售金額

環比:按 訂單日期 計算的 銷售金額的總和 的月/季度/周/年增長率

同比:按 訂單日期 計算的 銷售金額的總和 的月/季度/周/年增長率

圖4-2-1

圖4-2-2

2)排序關鍵詞搜索分析

排名前X的 銷售金額 的總和 產品名稱

產品名稱 排名後X的銷售金額 的總和

按銷售金額 的總和 降序/升序排列的 產品名稱

圖4-2-3

圖4-2-4

3)字符串關鍵詞搜索分析

產品名稱包含/不包含「XX」 銷售金額

姓名開頭是/開頭不是「X」 銷售金額

圖4-2-5

4)分組統計關鍵詞搜索分析

按 銷售金額 分組統計的

按 銷售金額 分X組統計的

按 銷售金額 分組間隔為X統計的

圖4-2-6

5)vs關鍵詞搜索

時間vs:去年vs今年銷售金額、8月vs9月銷售金額、2016vs2017銷售金額

同屬性不同值vs:&39;vs&39; 銷售金額、」華東」vs」華南」 銷售數量

多數值列vs:去年vs今年銷售額,目標額,完成率

&39;vs&39;銷售數量,毛利,利潤,成本

&39;vs&39;vs&39; 銷售數量,銷售金額

圖4-2-7

6)關鍵詞複合搜索

某年多月環比對比:

按 訂單日期 計算的 銷售金額的總和 的月/季度/年/周/日增長率 九月vs十月 2016

某月多年同比對比:

按 訂單日期 計算的 銷售金額的總和 的月/季度/年/周/日增長率與往年同期相比 九月

多層次排名統計:

按區域統計 排名前3的銷售金額的總和 產品名稱

多年每月對比:

按月統計 2016 vs2017銷售金額

圖4-2-8

4.3 篩選鑽取

數據鑽取:搜索出圖表之後,右擊圖表,點擊向上或向下鑽取,選擇鑽取欄位,即可鑽取數據。

圖4-3-1

數據篩選:點擊左側或下方坐標軸名稱,即可進行篩選。選擇需要的數據維度,點擊完成即可。還可以通過按住滑鼠左鍵,框取數據圖進行篩選。比如只需要查看某些數據維度或是集中分析的時候。

圖4-3-2

圖4-3-3

4.4 公式應用

公式模塊是數據分析系統的核心模塊之一,用於進行欄位的數據處理,DataFocus包含了絕大部分的excel函數,可以涵蓋工作中幾乎全部的使用場景,並設計了公式輔助功能,免除用戶去記憶繁多的公式函數,僅需要點出輔助框,按分類索引引用即可,如下圖4.4.1所示。將滑鼠移至對應函數上,還可以看到該函數的說明和使用樣例,方便快速理解和準確使用函數。點擊函數可以將該函數立即加入搜索框,保證用戶書寫效率。

圖 4.4.1 公式輔助

公式模塊也配備了和搜索相似的智能輸入提示功能,在書寫的同時,補全函數並提示可作為參數的數據列,提高公式書寫的準確度和效率。

下面來給大家逐一進行介紹各類公式函數與用法。

4.4.1聚合函數

聚合函數包括了八種基本聚合方式和累積、分組、範圍等四種條件聚合函數。八種基本聚合方式分別為平均值(average)、計數(count)、最大值(max)、最小值(min)、標準差(stddev)、總和(sum)、方差(variance)、唯一計數(unique_count)。

其中屬性列在有聚合情況下,僅支持計數(count)、去重計數(unique_count)兩種聚合方式。系統默認數值列的聚合方式為總和,屬性列無聚合方式。用戶可以在搜索同時在搜索框內直接限定數據列的聚合方式,也可以在數據管理的對應數據表詳情中修改默認聚合方式。在公式計算時,遇到需要修改聚合方式的情況,就可以使用聚合函數直接進行修改,比如數據表中有銷售額、銷售數量、價格三個數值列(默認均為總和聚合方式),我想查看單個產品實際銷售價格(即「銷售額/銷售數量」)和價格的差值,即單品的每件銷售利潤,這裡就需要對「銷售額/銷售數量」進行聚合修改如圖4.4.2,否則會出現錯誤如圖4.4.3。

圖 4.4.2 對計算結果進行聚合修改

圖 4.4.3 錯誤示範

所以用戶在進行數據分析時,要關注數據的聚合方式,確保數據準確性,並且善用聚合函數來對聚合方式進行靈活的轉化。

4.4.2 字符串函數

字符串函數用於對字符進行連接、剪切、匹配等操作,讓我們可以將幾個零散的字符列拼接成完整易用的一個字符列,或者是從一個長串字符列中截取到我們需要的部分。我們在收集用戶的使用反饋過程中,發現DataFocus用戶最常用字符串函數去處理收集原始數據文件裡不規範的時間信息,通過處理變成標準易用的日期時間列來進行下一步的時間維度搜索分析,就如下圖4.4.4所示的,將零散的年月信息合成成日期列。

圖 4.4.4 字符串拼接

4.4.3數字函數

數字函數是公式中間最基礎也是使用最廣泛的一類,用於對數值進行計算,如加減乘除、三角運算、多次乘方、絕對值、取整等等,還有一些複雜運算,包含了excel中的所有數學和三角函數,以及部分的統計函數,滿足各種數值計算需求。

這一部分相信在座做數據分析都經常用到,去計算各種財務數據或者運營指標等等。那下圖4.4.5中使用一個簡單的例子來進行演示。

已知每種貨品的銷售額和利潤,求該類貨品的銷售成本。

圖 4.4.5 用數字函數計算數值

4.4.4 類型轉換函數

類型轉換函數用於對數據類型進行轉換,系統支持轉化為五種,分別是布爾型、日期型、浮點型、整數型和字符型。

在業務中,用戶可以將數值型的數據列轉化為字符型,然後作為屬性列進行搜索;也可以轉化數據列的數據類型作為參數在公式中調用;比較常用還有將不規範的日期數據通過字符串重組成規範的日期組成,再用’to_date』日期類型轉換函數轉換為日期列,進行各種日期關鍵詞的搜索。

比如像下圖中這樣一個非常複雜不規範的日期形式,我們就可以通過字符串函數加上日期類型轉換函數整理成正常、易用的日期數據列來使用,如下圖4.4.6。

最終使用效果如圖4.4.7.

圖 4.4.6 日期類型轉換

圖 4.4.7 轉換完成的時間列

還有各種應用場景,都可以根據需求靈活使用,也可以結合其他的函數進行嵌套使用。

4.4.5 邏輯函數

邏輯函數用於進行邏輯判定和邏輯運算。獨立使用比較少見,多用於和其他函數結合,在判斷條件中調用。

其中的『if…then…else』函數常用於進行特殊分組分群,比如下圖4.4.8中利用該函數進行用戶分群,將會員按消費特徵分為四個群體,就是很常見的應用場景。

圖 4.4.8 分群操作

4.4.6 混合函數

混合函數是用於對數值比較進行判斷的函數,主要分兩種,一種是判斷兩個值的關係,如『<』『>=』『!=』等,根據判斷結果返回true或false;第二種是判斷兩個值的大小,返回較大/較小的一個值。該函數常用於和其他函數一起使用,作為參數被調用,或者單獨作為比較返回較大/較小值使用。比如,在上一節的分群公式中(圖4.4.8)作為if的條件使用。

4.4.7 時間日期函數

時間日期函數是針對時間列的函數,可以對時間列進行各種統計、計算。比如,你可以計算某一時間日期是周內的星期幾,是否是周末,是幾月、第幾個季度等等;也可以計算一整列中的每一天距離某一個日期的天數,這種在計算用戶活躍度中的最近一次上線間隔天數這種指標非常方便;也可以計算該日期的年份、月份、季度數目。

如圖4.4.9所示,計算日期對應的年月份。

圖 4.4.9 計算年月

4.4.8 公式嵌套

在實際業務場景中,常常遇到使用某個之前創建過的公式的情況,如果再輸入一遍會導致公式邏輯比較複雜,這裡就需要用到公式嵌套功能了。顧名思義,公式嵌套就是在當前正在創建的公式中使用之前創建過的公式,還是非常常見的。

DataFocus系統除了極為稀少的一些場景為了避免數據錯誤,比如對含有計數(count)聚合或唯一計數(unique_count)聚合的公式進行再聚合的場景,正常的公式嵌套都是可以使用的,公式中的智能提示也會將之前的公式納入補全選擇。

這裡我們繼續使用4.4.1中的場景進行示範。

數據表中有銷售額、銷售數量、價格三個數值列(默認均為總和聚合方式),我想查看單個產品實際銷售價格(即「銷售額/銷售數量」)和價格的差值,即單品的每件銷售利潤。這裡之前已經創建了一個銷售價格公式,計算了單個產品的實際銷售價格如圖4.4.2所示,接下來我們要調用這個銷售價格公式來進行單品的每件銷售利潤的計算,如圖4.4.10。

圖 4.4.10 公式嵌套

圖 4.4.11 單品銷售利潤計算結果

4.5 多表查詢

在實際業務中,我們常常需要從不同的多個表裡調取欄位進行數據分析,所以跨表多表查詢是非常重要的功能。

跨表查詢的前提是所需表之間有相應的關聯關係。DataFocus可以在數據管理頁面的表詳情頁中進行關聯關係的建立,我們在數據表的關聯關係頁面,點擊添加關聯即可以當前表作為主表開始進行關聯關係的配置,如圖4.5.1所示,用戶需要選擇關聯的數據表,選擇連接類型(內連接、左連接、右連接),最後確認兩表之間的關聯列(可多個)即可。當然,你可以對某張表創建多個關聯關係,只要符合關聯關係不閉環的條件即可。

關聯關係創建完畢並生效後,會在對應表的名稱上顯示對應的紅色箭頭,向下表明該表在關聯關係中作為主表存在,向上為從表,雙向箭頭則即為主表也為另一張表的從表存在於多個關聯關係中。並在表的關聯關係頁面中顯示相應的視圖,如圖4.5.2,這張銷售記錄表就有著兩個關聯關係,分別是產品信息表(內連接,關聯列為產品碼)和時間碼錶(內連接,關聯列為周ID)。

圖 4.5.1 關聯關係配置頁

圖 4.5.2 關聯關係視圖

當按照分析需求正確地建立了多表間的關聯關係後就可以在搜索頁面,或者中間表頁面,作為數據源進行多表查詢了,如圖4.5.3所示。

圖 4.5.3 多表查詢

4.6 中間表應用

中間表是DataFocus系統進行複雜數據處理的主要方法,有兩種不同的中間表創建方式。

第一種是在搜索時進行中間表的創立,比如我在搜索過程中對數據進行了分析整理和計算,最終得到一張圖表如圖4.6.1所示,並且想將這張表的數據保存下來做進一步的分析,就可以直接在搜索頁面的操作項中找到『保存為中間表』,將當前表的數據保存為中間表。

圖 4.6.1 搜索中間表

中間表的創建需要一定的時間,進入道數據管理頁面時,可以看到在創建過程中的中間表會顯示為灰色不可用狀態,並標明當前的創建進程,根據數據量和複雜度的不同等待時間不同。等中間表創建完成後,就會變回黑色可用狀態,並且可以作為一張表類型為搜索中間表的一般數據表在數據源中選擇使用。

第二種方式是在數據管理頁面的操作項中點擊『創建中間表』,進入一個和搜索頁面相似的中間表創建頁面,如圖4.6.2所示。這裡和搜索頁面一樣可以選擇數據源、使用公式和選擇數據源中的各個欄位。我們點擊需要加入的欄位和創建公式加入,來構建所需要的中間表,完成以後保存,就可以像搜索創建中間表時一樣在數據管理頁面找到它了,不同之處在於表類型為關聯中間表。

圖 4.6.2 關聯中間表

那麼你可能要問了,這兩種表為什麼有著不同的表類型,除了操作不同,他們有什麼本質的不同呢?

DataFocus系統在搜索分析時是會對數據進行聚合的,就比如我的數據源表中有兩條名稱相同的商品的銷售記錄,有著不同的兩個銷售數量了,當我只按商品名稱進行搜索分析時,出現的數據結果是一條商品記錄,銷售數量為數據源表中兩條記錄的銷售數量的總和,這裡發生了一次聚合。而關聯中間表創建過程中是沒有聚合的,就依然還是兩條記錄。

相關焦點

  • 快速連結你的數據 玩轉數據分析
    第二章 連結你的數據無論是個人還是企業,需要分析的數據正在變得越來越多,數據的來源也變得越來越多樣,這些待分析的數據往往分散在多個資料庫、文本文件、電子表格,外部數據源中。DataFocus為用戶提供了整合各種數據源的「數據管理」功能模塊,用戶可以通過它連接各種各樣主流的資料庫,也可以上傳或者同步本地excel文件。
  • 基本數據統計分析--spss
    在數據分析工作中,描述性統計分析是我們日常使用率最高的,主要的基本統計分析維度包括但不限於均值、 中位數、眾數、方差、百分位、頻數、峰度、偏度、探索分析、交叉聯列表分析、多選項分析、基本統計報表製作等。而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。
  • 說說數據分析中的數據建模
    隨著數據量的不斷增加,人們必然面對注入數據定義、數據處理、數據存儲、數據安全等各種複雜問題,那麼自然而然地資料庫這個概念就應運而生了。大數據時代環境下,大數據分析中越來越用到數據建模的應用操作,那數據建模的步驟又是怎麼樣的呢?首先我們先講一下什麼叫資料庫。
  • 基於連結獨立成分分析的多模態數據融合
    我們實現了一個基於貝葉斯獨立成分分析的模型從多模態數據中提取關聯分量,使用來自特定模態分析的對比度圖像作為輸入。例如這些輸入可以是來自 FMRI 的 GLM 對比度、來自結構 MRI 的皮質厚度或 VBM 圖、以及來自擴散加權成像的骨架化矢量。ICA 是在無監督環境中尋找有意義的、空間獨立的分量的高效模型,因為它對數據中真實結構化特徵的非高斯空間源進行搜索。
  • R數據分析:一些數據可視化的基本原則
    今天跟大家聊聊數據可視化的一些常見的原則,今天的文章沒有代碼,基本全是簡單介紹哈。visual cue的選擇我們想要可視化數據首先得選擇用什麼來可視化對不對,比如我們可以用面積的改變、形狀或者顏色的變化來可視化數據等等,這些東西就叫做visual cue。
  • 強大的數據分析,從數據的集成開始
    使用雲數據倉庫,您能夠快速在雲端搭建TB級-PB級數據倉庫,無需關注集群的管理以及繁重的運維工作。通過在控制臺的操作,即可實現集群管理、監控維護等工作。2.支持數據源範圍廣一般企業都會建立自己業務系統的資料庫,DataFocus Cloud自帶大數據倉庫,可以整合各業務系統的數據導入,解決數據孤島問題。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • 數據分析方法論是什麼?
    一、數據分析的基本思路數據分析應該以業務場景為起始思考點,以業務決策作為終點。1、明確思路明確數據分析的目的以及思路是確保數據分析過程有效進行的首要條件。3、處理數據處理數據是指對收集到的數據進行加工整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。數據處理的基本目的是從大量的、雜亂無章、難以理解的數據中,抽取並推導出對解決問題有價值、有意義的數據。數據處理主要包括數據清洗、數據轉化、數據提取、數據計算等處理方法。
  • 數據分析神操作,第一個操作就跪了!(建議收藏)
    本文轉載自【微信公眾號:機器學習算法與Python精研 ,ID:AITop100】,經微信公眾號授權轉載,如需轉載原文作者聯繫從各大招聘網站中可以看到,今年招聘信息少了很多,但數據分析相關崗位有一定增加,而數據分析能力幾乎已成為每個崗位的必備技能。
  • 「何為數據分析」-遊戲數據分析實踐
    2.1 數據需求與收集明確需求是確保數據分析過程有效性的首要條件,為收集和分析數據提供清晰的目標;收集的數據涉及企業內部或企業外部兩個數據來源,如產品中用戶行為數據、問卷調查數據、新聞、貼吧、QQ群、爬取的數據等等。
  • 做大數據分析需要哪些基本資源
    不管涉及重大隱私問題或企業困難的挑戰,僅2017年大數據投資就獲得了超過570億美元的增長。預計未來三年,大數據投資的年增長率將達到10%左右。   一 大數據分析所需的基本資源   大數據諮詢已成為軟體開發服務提供商的可行選擇。
  • 數據分析應用
    城市數據團公眾號、知乎等平臺粉絲超30萬,長期為政府、城市公共機構、地產商等提供城市級大數據產品及一體化解決方案。 網易教學團隊則結合遊戲、電商、教育、數據平臺等一線產品真實案例,幫助學員進階數據分析。課程還額外邀請了來自矽谷的數據科學家為大家揭秘世界級網際網路公司的數據分析應用之道。包含課程01 數據思維導論:如何從數據中挖掘價值?第一章 數據能做什麼?
  • 使用切片器分析數據,透視表中插入切片器——想像力電腦應用
    一、在透視表及透視圖中插入切片器在透視表及透視圖中插入切片器的操作如下所述:(1)將滑鼠定位在創建好的透視圖中,激活「數據透視表工具」選項組;(2)單擊「分析」選項卡;(3)單擊「插入切片器」按鈕;(4)彈出「插入切片器」對話框;具體操作步驟如下圖所示。
  • 公眾號數據查詢怎麼操作?哪可以查看公眾號的基本數據?
    大家在每天編輯微信公眾號文章的時候,都想了解下一些數據,那麼公眾號數據查詢怎麼操作?哪可以查看公眾號的基本數據呢?今天拓途數據就來具體介紹下這些問題,以供參考。廣告主誤投水號,大多是對閱讀量數據的判斷有誤,數據如果存在大量刷量,就算呈現再好看的數據也是於事無補。閱讀數的分鐘級監控後可以得到增量曲線圖,通過簡答的分析可以判斷出是否存在刷量的可能。數據的分析,除了閱讀數增量曲線可以直觀判斷是否是水號,查看西瓜數據往期推文中的閱讀數增量,點讚以及粉絲留言情況也可以很好的得到分析。通過粉絲的留言可以了解到公眾號與粉絲間的互動情況。
  • 分析含義與基本內容,關於大數據
    我們來講一下關於大數據含義與基本內容的分析——眾所周知大數據,那大數據分析是什麼呢?大數據分析是指對規模巨大的數據進行分析,挖掘數據的有利信息並加以有效利用,將數據的深層價值體現出來。有了大數據分析才能讓規模巨大的數據有條有理,正確分類,產生有價值的分析報告,從而應用到各領域中,促進其發展。
  • 入坑數據分析必備的數據預處理操作
    本文解決的是2類目標業務:有數據不知道怎麼做數據分析操作的office軟體(推薦2016版)Python開發環境(推薦Anaconda,對新手友好)牢記的數據分析路線採集生成需要分析的數據表單,或者從資料庫中提取。
  • 操作簡單、分析快的大數據分析軟體
    這樣操作簡單、分析快的大數據分析軟體還能有誰,就商業智能BI(大數據可視化分析軟體)。點擊,這個操作多見於智能分析功能的應用,如一鍵點擊應用計算佔比、累計,以及點擊設置行計算、落地智能鑽取等;此外還包括其他基礎性操作,如一鍵上傳數據源、一鍵新建報表等。
  • 大數據時代,如何培養數據分析思維?
    於是,你將圓領深色服裝推銷給甲,將寬鬆淺色服裝推銷給乙,將B品牌短褲購買連結添加在A品牌購買頁中,將D品牌促銷優惠加到C頁面,一番操作後商品銷售量大幅提升。這就是發現規律。03數據分析工具有哪些?數據分析工具除基本的Excel及SQL外,還有一些主流利器Python、R語言、SPSS、SAS等。
  • 數據分析:大數據處理的基本流程(三)
    分析的本質是讓業務更加清晰,讓決策更加高效。數據分析作為大數據價值產生的必要步驟、整個大數據處理流程的核心,其在企業中的地位也越來越重要。數據分析的目的說白了就是把隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,對其加以匯總、理解並消化,以求最大化地開發數據的功能,從而找出所研究對象的內在規律,發揮數據的作用。
  • 金融大數據:股票數據的可視化分析
    此次案例分析的數據包含了標準普爾500指數中找到的所有公司的歷史股票價格,時間跨度為5年,從2013年2月8日至2018年2月7日,包括股票的開盤價、收盤價、最高價、最低價、成交量,此次案例主要分析的是AMZN(亞馬遜)公司的股票情況,利用股票技術指標對股票收盤價等數據進行可視化,觀察市場走勢。