3.1 連接本地文件
打開DataFocus系統,點擊左側數據管理,然後點擊右側操作按鈕,點擊導入數據。可導入本地CSV、TXT、XLS、XLSX以及JSON等本地數據文件。選中後點擊上傳,並確認行列屬性是否正確。若行列屬性不正確(如數值保留了字符串格式未轉化為數值格式),則無法進行可視化分析。適用於一些本地已有文件(如一些店鋪數據或是自錄數據表)的分析,或是一些未購買資料庫的企業。
圖3-1
3.2 連接資料庫
點擊左側數據管理模塊,點擊上方數據源按鈕,點擊右側新建數據源,可點擊直連數據和導入數據。需要注意的是,導入數據為數據導入到DataFocus自帶大數據倉庫,直連數據為直接抽取伺服器數據進行分析。若是操作大量分析,建議使用導入數據,DataFocus數據倉庫性能可保障分析順暢,否則直連數據分析則依靠對方設備的性能。數據導入後,可點擊上方「開始」則可進行導入,列表可查看導入狀態。
導入數據支持定時更新,更新頻率一般為每天、每周、每月。直連數據可支持實時更新,資料庫中數據有變化,DataFocus中直連的這些表,以及依賴這些表製作的報表等也都能實時更新。
圖3-2
圖3-3
4.1 列名搜索
打開DataFocus系統,點擊左上方選擇數據源按鈕,進行數據選擇。
圖4-1-1
選擇需要操作的數據表,並點擊右上角「確定」按鈕。一般新導入的數據表會顯示在靠前的位置。
圖4-1-2
雙擊左側列名即可進行組合分析,根據業務需要選擇需要分析的列名即可。不需要分析的列名可點擊搜索框的「x」按鈕,刪除此列名。此方法是最為簡便的搜索方法,雙擊搜索即分析,尤其是一些列名規範的數據表,如「產品名稱」、「銷售金額」等寫明確的數據表,則能快速進行分析,雙擊兩個列名即可出現每個產品的銷售金額情況。
圖4-1-3
並且,可點擊右側圖形轉換按鈕進行圖形轉換,比如需求變更為看趨勢,可將柱形圖轉換為折線圖。可變換的圖形主要分為基礎圖形和高級圖形,基礎圖形有柱狀圖、折線圖、面積圖、條形圖、堆積柱狀圖、餅圖、環形圖、散點圖、氣泡圖、堆積條形圖、漏鬥圖、帕累託圖、KPI指標、儀表圖、雷達圖、位置圖、數據透視表以及組合圖。高級圖形有樹形圖、瀑布圖、旭日圖、打包圖、箱型圖、詞雲圖、弦圖、桑基圖、平行圖、時序柱狀圖、時序條形圖、時序散點圖、時序氣泡圖、經緯圖、涇渭氣泡圖、熱力圖和統計圖。具體可在DataFocus系統中進行體驗。
4.2 關鍵詞搜索
關鍵詞搜索,即為在搜索框輸入一些關鍵詞進行搜索分析,主要分為以下類型:
1)時間日期關鍵詞搜索分析:
每年/每季度/每月 銷售金額
按月統計 銷售金額
2018(具體年份)銷售金額—>2018 銷售金額 9月(加上具體月份)
按周日期統計 銷售金額
周三(具體周幾) 銷售金額
在"2018/04/06" 和"2018/05/31" 之間的銷售金額
環比:按 訂單日期 計算的 銷售金額的總和 的月/季度/周/年增長率
同比:按 訂單日期 計算的 銷售金額的總和 的月/季度/周/年增長率
圖4-2-1
圖4-2-2
2)排序關鍵詞搜索分析
排名前X的 銷售金額 的總和 產品名稱
產品名稱 排名後X的銷售金額 的總和
按銷售金額 的總和 降序/升序排列的 產品名稱
圖4-2-3
圖4-2-4
3)字符串關鍵詞搜索分析
產品名稱包含/不包含「XX」 銷售金額
姓名開頭是/開頭不是「X」 銷售金額
圖4-2-5
4)分組統計關鍵詞搜索分析
按 銷售金額 分組統計的
按 銷售金額 分X組統計的
按 銷售金額 分組間隔為X統計的
圖4-2-6
5)vs關鍵詞搜索
時間vs:去年vs今年銷售金額、8月vs9月銷售金額、2016vs2017銷售金額
同屬性不同值vs:&39;vs&39; 銷售金額、」華東」vs」華南」 銷售數量
多數值列vs:去年vs今年銷售額,目標額,完成率
&39;vs&39;銷售數量,毛利,利潤,成本
&39;vs&39;vs&39; 銷售數量,銷售金額
圖4-2-7
6)關鍵詞複合搜索
某年多月環比對比:
按 訂單日期 計算的 銷售金額的總和 的月/季度/年/周/日增長率 九月vs十月 2016
某月多年同比對比:
按 訂單日期 計算的 銷售金額的總和 的月/季度/年/周/日增長率與往年同期相比 九月
多層次排名統計:
按區域統計 排名前3的銷售金額的總和 產品名稱
多年每月對比:
按月統計 2016 vs2017銷售金額
圖4-2-8
4.3 篩選鑽取
數據鑽取:搜索出圖表之後,右擊圖表,點擊向上或向下鑽取,選擇鑽取欄位,即可鑽取數據。
圖4-3-1
數據篩選:點擊左側或下方坐標軸名稱,即可進行篩選。選擇需要的數據維度,點擊完成即可。還可以通過按住滑鼠左鍵,框取數據圖進行篩選。比如只需要查看某些數據維度或是集中分析的時候。
圖4-3-2
圖4-3-3
4.4 公式應用
公式模塊是數據分析系統的核心模塊之一,用於進行欄位的數據處理,DataFocus包含了絕大部分的excel函數,可以涵蓋工作中幾乎全部的使用場景,並設計了公式輔助功能,免除用戶去記憶繁多的公式函數,僅需要點出輔助框,按分類索引引用即可,如下圖4.4.1所示。將滑鼠移至對應函數上,還可以看到該函數的說明和使用樣例,方便快速理解和準確使用函數。點擊函數可以將該函數立即加入搜索框,保證用戶書寫效率。
圖 4.4.1 公式輔助
公式模塊也配備了和搜索相似的智能輸入提示功能,在書寫的同時,補全函數並提示可作為參數的數據列,提高公式書寫的準確度和效率。
下面來給大家逐一進行介紹各類公式函數與用法。
4.4.1聚合函數
聚合函數包括了八種基本聚合方式和累積、分組、範圍等四種條件聚合函數。八種基本聚合方式分別為平均值(average)、計數(count)、最大值(max)、最小值(min)、標準差(stddev)、總和(sum)、方差(variance)、唯一計數(unique_count)。
其中屬性列在有聚合情況下,僅支持計數(count)、去重計數(unique_count)兩種聚合方式。系統默認數值列的聚合方式為總和,屬性列無聚合方式。用戶可以在搜索同時在搜索框內直接限定數據列的聚合方式,也可以在數據管理的對應數據表詳情中修改默認聚合方式。在公式計算時,遇到需要修改聚合方式的情況,就可以使用聚合函數直接進行修改,比如數據表中有銷售額、銷售數量、價格三個數值列(默認均為總和聚合方式),我想查看單個產品實際銷售價格(即「銷售額/銷售數量」)和價格的差值,即單品的每件銷售利潤,這裡就需要對「銷售額/銷售數量」進行聚合修改如圖4.4.2,否則會出現錯誤如圖4.4.3。
圖 4.4.2 對計算結果進行聚合修改
圖 4.4.3 錯誤示範
所以用戶在進行數據分析時,要關注數據的聚合方式,確保數據準確性,並且善用聚合函數來對聚合方式進行靈活的轉化。
4.4.2 字符串函數
字符串函數用於對字符進行連接、剪切、匹配等操作,讓我們可以將幾個零散的字符列拼接成完整易用的一個字符列,或者是從一個長串字符列中截取到我們需要的部分。我們在收集用戶的使用反饋過程中,發現DataFocus用戶最常用字符串函數去處理收集原始數據文件裡不規範的時間信息,通過處理變成標準易用的日期時間列來進行下一步的時間維度搜索分析,就如下圖4.4.4所示的,將零散的年月信息合成成日期列。
圖 4.4.4 字符串拼接
4.4.3數字函數
數字函數是公式中間最基礎也是使用最廣泛的一類,用於對數值進行計算,如加減乘除、三角運算、多次乘方、絕對值、取整等等,還有一些複雜運算,包含了excel中的所有數學和三角函數,以及部分的統計函數,滿足各種數值計算需求。
這一部分相信在座做數據分析都經常用到,去計算各種財務數據或者運營指標等等。那下圖4.4.5中使用一個簡單的例子來進行演示。
已知每種貨品的銷售額和利潤,求該類貨品的銷售成本。
圖 4.4.5 用數字函數計算數值
4.4.4 類型轉換函數
類型轉換函數用於對數據類型進行轉換,系統支持轉化為五種,分別是布爾型、日期型、浮點型、整數型和字符型。
在業務中,用戶可以將數值型的數據列轉化為字符型,然後作為屬性列進行搜索;也可以轉化數據列的數據類型作為參數在公式中調用;比較常用還有將不規範的日期數據通過字符串重組成規範的日期組成,再用’to_date』日期類型轉換函數轉換為日期列,進行各種日期關鍵詞的搜索。
比如像下圖中這樣一個非常複雜不規範的日期形式,我們就可以通過字符串函數加上日期類型轉換函數整理成正常、易用的日期數據列來使用,如下圖4.4.6。
最終使用效果如圖4.4.7.
圖 4.4.6 日期類型轉換
圖 4.4.7 轉換完成的時間列
還有各種應用場景,都可以根據需求靈活使用,也可以結合其他的函數進行嵌套使用。
4.4.5 邏輯函數
邏輯函數用於進行邏輯判定和邏輯運算。獨立使用比較少見,多用於和其他函數結合,在判斷條件中調用。
其中的『if…then…else』函數常用於進行特殊分組分群,比如下圖4.4.8中利用該函數進行用戶分群,將會員按消費特徵分為四個群體,就是很常見的應用場景。
圖 4.4.8 分群操作
4.4.6 混合函數
混合函數是用於對數值比較進行判斷的函數,主要分兩種,一種是判斷兩個值的關係,如『<』『>=』『!=』等,根據判斷結果返回true或false;第二種是判斷兩個值的大小,返回較大/較小的一個值。該函數常用於和其他函數一起使用,作為參數被調用,或者單獨作為比較返回較大/較小值使用。比如,在上一節的分群公式中(圖4.4.8)作為if的條件使用。
4.4.7 時間日期函數
時間日期函數是針對時間列的函數,可以對時間列進行各種統計、計算。比如,你可以計算某一時間日期是周內的星期幾,是否是周末,是幾月、第幾個季度等等;也可以計算一整列中的每一天距離某一個日期的天數,這種在計算用戶活躍度中的最近一次上線間隔天數這種指標非常方便;也可以計算該日期的年份、月份、季度數目。
如圖4.4.9所示,計算日期對應的年月份。
圖 4.4.9 計算年月
4.4.8 公式嵌套
在實際業務場景中,常常遇到使用某個之前創建過的公式的情況,如果再輸入一遍會導致公式邏輯比較複雜,這裡就需要用到公式嵌套功能了。顧名思義,公式嵌套就是在當前正在創建的公式中使用之前創建過的公式,還是非常常見的。
DataFocus系統除了極為稀少的一些場景為了避免數據錯誤,比如對含有計數(count)聚合或唯一計數(unique_count)聚合的公式進行再聚合的場景,正常的公式嵌套都是可以使用的,公式中的智能提示也會將之前的公式納入補全選擇。
這裡我們繼續使用4.4.1中的場景進行示範。
數據表中有銷售額、銷售數量、價格三個數值列(默認均為總和聚合方式),我想查看單個產品實際銷售價格(即「銷售額/銷售數量」)和價格的差值,即單品的每件銷售利潤。這裡之前已經創建了一個銷售價格公式,計算了單個產品的實際銷售價格如圖4.4.2所示,接下來我們要調用這個銷售價格公式來進行單品的每件銷售利潤的計算,如圖4.4.10。
圖 4.4.10 公式嵌套
圖 4.4.11 單品銷售利潤計算結果
4.5 多表查詢
在實際業務中,我們常常需要從不同的多個表裡調取欄位進行數據分析,所以跨表多表查詢是非常重要的功能。
跨表查詢的前提是所需表之間有相應的關聯關係。DataFocus可以在數據管理頁面的表詳情頁中進行關聯關係的建立,我們在數據表的關聯關係頁面,點擊添加關聯即可以當前表作為主表開始進行關聯關係的配置,如圖4.5.1所示,用戶需要選擇關聯的數據表,選擇連接類型(內連接、左連接、右連接),最後確認兩表之間的關聯列(可多個)即可。當然,你可以對某張表創建多個關聯關係,只要符合關聯關係不閉環的條件即可。
關聯關係創建完畢並生效後,會在對應表的名稱上顯示對應的紅色箭頭,向下表明該表在關聯關係中作為主表存在,向上為從表,雙向箭頭則即為主表也為另一張表的從表存在於多個關聯關係中。並在表的關聯關係頁面中顯示相應的視圖,如圖4.5.2,這張銷售記錄表就有著兩個關聯關係,分別是產品信息表(內連接,關聯列為產品碼)和時間碼錶(內連接,關聯列為周ID)。
圖 4.5.1 關聯關係配置頁
圖 4.5.2 關聯關係視圖
當按照分析需求正確地建立了多表間的關聯關係後就可以在搜索頁面,或者中間表頁面,作為數據源進行多表查詢了,如圖4.5.3所示。
圖 4.5.3 多表查詢
4.6 中間表應用
中間表是DataFocus系統進行複雜數據處理的主要方法,有兩種不同的中間表創建方式。
第一種是在搜索時進行中間表的創立,比如我在搜索過程中對數據進行了分析整理和計算,最終得到一張圖表如圖4.6.1所示,並且想將這張表的數據保存下來做進一步的分析,就可以直接在搜索頁面的操作項中找到『保存為中間表』,將當前表的數據保存為中間表。
圖 4.6.1 搜索中間表
中間表的創建需要一定的時間,進入道數據管理頁面時,可以看到在創建過程中的中間表會顯示為灰色不可用狀態,並標明當前的創建進程,根據數據量和複雜度的不同等待時間不同。等中間表創建完成後,就會變回黑色可用狀態,並且可以作為一張表類型為搜索中間表的一般數據表在數據源中選擇使用。
第二種方式是在數據管理頁面的操作項中點擊『創建中間表』,進入一個和搜索頁面相似的中間表創建頁面,如圖4.6.2所示。這裡和搜索頁面一樣可以選擇數據源、使用公式和選擇數據源中的各個欄位。我們點擊需要加入的欄位和創建公式加入,來構建所需要的中間表,完成以後保存,就可以像搜索創建中間表時一樣在數據管理頁面找到它了,不同之處在於表類型為關聯中間表。
圖 4.6.2 關聯中間表
那麼你可能要問了,這兩種表為什麼有著不同的表類型,除了操作不同,他們有什麼本質的不同呢?
DataFocus系統在搜索分析時是會對數據進行聚合的,就比如我的數據源表中有兩條名稱相同的商品的銷售記錄,有著不同的兩個銷售數量了,當我只按商品名稱進行搜索分析時,出現的數據結果是一條商品記錄,銷售數量為數據源表中兩條記錄的銷售數量的總和,這裡發生了一次聚合。而關聯中間表創建過程中是沒有聚合的,就依然還是兩條記錄。