64個數據分析常用語

2021-02-19 昆明協卡

1、絕對數和相對數

絕對數:是反應客觀現象總體在一定時間、一定地點下的總規模、總水平的綜合性指標,也是數據分析中常用的指標。比如年GDP,總人口等等。

相對數:是指兩個有聯繫的指標計算而得出的數值,它是反應客觀現象之間的數量聯繫緊密程度的綜合指標。相對數一般以倍數、百分數等表示。相對數的計算公式:

相對數=比較值(比數)/基礎值(基數)

2、百分比和百分點

百分比:是相對數中的一種,它表示一個數是另一個數的百分之幾,也稱為百分率或百分數。百分比的分母是100,也就是用1%作為度量單位,因此便於比較。

百分點:是指不同時期以百分數的形式表示的相對指標的變動幅度,1%等於1個百分點。

3、頻數和頻率

頻數:一個數據在整體中出現的次數。

頻率:某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。

4、比例與比率

比例:是指在總體中各數據佔總體的比重,通常反映總體的構成和比例,即部分與整體之間的關係。

比率:是樣本(或總體)中各不同類別數據之間的比值,由於比率不是部分與整體之間的對比關係,因而比值可能大於1。

5、倍數和番數

倍數:用一個數據除以另一個數據獲得,倍數一般用來表示上升、增長幅度,一般不表示減少幅度。

番數:指原來數量的2的n次方。

6、同比和環比

同比:指的是與歷史同時期的數據相比較而獲得的比值,反應事物發展的相對性。

環比:指與上一個統計時期的值進行對比獲得的值,主要反映事物的逐期發展的情況。

7、變量

變量來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。

8、連續變量

在統計學中,變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。

9、離散變量

離散變量的各變量值之間都是以整數斷開的,如人數、工廠數、機器臺數等,都只能按整數計算。離散變量的數值只能用計數的方法取得。

10、定性變量

又名分類變量:觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。

11、均值

即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。

12、中位數

對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。

13、缺失值

它指的是現有數據集中某個或某些屬性的值是不完全的。

14、異常值

指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。

15、方差

是衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值。

16、標準差

又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。

17、皮爾森相關係數

皮爾森相關係數是用來反映兩個變量線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。

18、PV(Page View)頁面瀏覽量

指某段時間內訪問網站或某一頁面的用戶的總數量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網站日常流量數據的重要指標。PV可重複累計,以用戶訪問網站作為統計依據,用戶每刷新一次即重新計算一次。

19、UV(Unique Visitor)獨立訪客

指來到網站或頁面的用戶總數,這個用戶是獨立的,同一用戶不同時段訪問網站只算作一個獨立訪客,不會重複累計,通常以PC端的Cookie數量作為統計依據。

20、Visit 訪問

指用戶通過外部連結來到網站,從用戶來到網站到用戶在瀏覽器中關閉頁面,這一過程算作一次訪問。

21、Bounce Rate 跳出率

指用戶通過連結來到網站,在當前頁面沒有任何交互就離開網站的行為,這就算作此頁面增加了一個「跳出」,跳出率一般針對網站的某個頁面而言。

跳出率=在這個頁面跳出的用戶數/PV

22、退出率

一般針對某個頁面而言。指用戶訪問某網站的某個頁面之後,從瀏覽器中將與此網站相關的所有頁面全部關閉,就算此頁面增加了一個「退出「。

退出率=在這個頁面退出的用戶數/PV

23、Click 點擊

一般針對付費廣告而言,指用戶點擊某個連結、頁面、banner的次數,可重複累計。比如我在PC端看到一則新聞連結點進去看了一會就關了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點擊。

24、avr.time 平均停留時長

指某個頁面被用戶訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內容的質量。

avr.time=訪客數量/用戶總停留時長

25、CTR 點擊率

指某個廣告、Banner、URL被點擊的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。

CTR=點擊數(click)/被用戶看到的次數

26、Conversion rate 轉化率

指用戶完成設定的轉化環節的次數和總會話人數的百分比,通常用來評價一個轉化環節的好壞,如果轉化率較低則需優化該轉化環節。轉化率=轉化會話數/總會話數

27、漏鬥

通常指產生目標轉化前的明確流程,比如在淘寶購物,從點擊商品連結到查看詳情頁,再到查看顧客評價、領取商家優惠券,再到填寫地址、付款,每個環節都有可能流失用戶,這就要求商家必須做好每一個轉化環節,漏鬥是評價轉化環節優劣的指標。

28、投資回報率(ROI:Return On Investment )

反映投入和產出的關係,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。

其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用於評估企業對於某項活動的價值,ROI高表示該項目價值高。

29、重複購買率

指消費者在網站中的重複購買次數

30、流失分析(Churn Analysis/Attrition Analysis)

描述哪些顧客可能停止使用公司的產品/業務,以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用於為可能要流失的顧客準備新的優惠。

31、顧客細分&畫像(Customer Segmentation & Profiling)

根據現有的顧客數據,將特徵、行為相似的顧客歸類分組。描述和比較各組。

32、顧客的生命周期價值 (Lifetime Value, LTV)

顧客在他/她的一生中為一個公司產生的預期折算利潤。

33、購物籃分析(Market Basket Analysis)

識別在交易中經常同時出現的商品組合或服務組合,例如經常被一起購買的產品。此類分析的結果被用於推薦附加商品,為陳列商品的決策提供依據等。

34、實時決策(Real Time Decisioning, RTD)

幫助企業做出實時(近乎無延遲)的最優銷售/營銷決策。比如,實時決策系統(打分系統)可以通過多種商業規則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。

35、留存/顧客留存(Retention / Customer Retention)

指建立後能夠長期維持的客戶關係的百分比。

36、相關性分析(Correlation analysis)

是一種數據分析方法,用於分析變量之間是否存在正相關,或者負相關。

37、生存分析(Survival Analysis)

估測一名顧客繼續使用某業務的時間,或在後續時段流失的可能性。此類信息能讓企業判斷所要預測時段的顧客留存,並引入合適的忠誠度政策。

38、算法(Algorithms)

可以完成某種數據分析的數學公式。

39、商業智能(Business Intelligence)

分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。

40、分類分析(Classification analysis)

從數據中獲得重要的相關性信息的系統化過程;這類數據也被稱為元數據(meta data),是描述數據的數據。

41、聚類分析(Clustering analysis)

它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。

42、對比分析(Comparative analysis)

在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。

43、數據分析(Data Analysis)

是指根據分析目的,用適當的分析方法及工具,對數據進行處理與分析,提取有價值的信息,形成有效結論的過程。

44、數據處理(Data Processing)

數據處理是指根據數據分析的目的,將收集到的數據進行加工、整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。

45、數據挖掘(Data mining)

數據挖掘是通過使用複雜的模式識別技術,從而找到有意義的模式,並得出大量數據的見解。

46、數據清洗(Data cleansing)

對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性。

47、數據質量(Data Quality)

有關確保數據可靠性和實用價值的過程和技術。高質量的數據應該忠實體現其背後的事務進程,並能滿足在運營、決策、規劃中的預期用途。

48、數據建模(Data modelling)

使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義。

49、數據集(Data set)

大量數據的集合。

50、判別分析(Discriminant analysis)

將數據分類,按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,並從中獲取分類規則。

51、探索性分析(Exploratory analysis)

在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法。

52、機器學習(Machine learning)

人工智慧的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。

53、網絡分析(Network analysis)

分析網絡或圖論中節點間的關係,即分析網絡中節點間的連接和強度關係。

54、異常值檢測(Outlier detection)

異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象,該對象與數據集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。

55、模式識別(Pattern Recognition)

通過算法來識別數據中的模式,並對同一數據源中的新數據作出預測

56、預測分析(Predictive analysis)

大數據分析方法中最有價值的一種分析方法,這種方法有助於預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的數據集,例如歷史數據,事務數據,社交數據,或者客戶的個人信息數據,來識別風險和機遇。

57、回歸分析(Regression analysis)

確定兩個變量間的依賴關係。這種方法假設兩個變量之間存在單向的因果關係(譯者註:自變量,因變量,二者不可互換)。

58、路徑分析(Routing analysis)

針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優路徑,以達到降低燃料費用,提高效率的目的。

59、情感分析(Sentiment Analysis)

通過算法分析出人們是如何看待某些話題。

60、SQL

在關係型資料庫中,用於檢索數據的一種程式語言。

61、時序分析(Time series analysis)

分析在重複測量時間裡獲得的定義良好的數據。分析的數據必須是良好定義的,並且要取自相同時間間隔的連續時間點。

62、文本挖掘(Text Mining)

對包含自然語言的數據的分析。對源數據中詞語和短語進行統計計算,以便用數學術語表達文本結構,之後用傳統數據挖掘技術分析文本結構。

63、可視化(Visualization)

只有正確的可視化,原始數據才可被投入使用。這裡的「可視化」並非普通的圖型或餅圖,可視化指是的複雜的圖表,圖表中包含大量的數據信息,但可以被很容易地理解和閱讀。

64、儀錶板(Dashboard)

使用算法分析數據,並將結果用圖表方式顯示於儀錶板中。

(文章來源:大數據分析和人工智慧)

相關焦點

  • 超強盤點:常用的6個大數據可視化分析工具
    數據能表現出更為客觀、理性的一面,能我們更加直觀、清晰的認識世界,而根據數據,企業也才能制定出正確的策略。今天給大家推薦常用的5個大數據可視化分析工具,希望對你們有幫助。它重點關注可視化,而非分析,它可以處理相對較大的圖形,基本上可以無壓力地運行多達十萬個節點,它還可以計算度數,中心性等常見指標。3、EChartsEcharts是一個比較輕量的工具,它的文件體積也很小,打包方式靈活,能自由選擇需要的圖表和組件。
  • Python數據分析、挖掘常用工具
    、挖掘場景中常用特性:列表(可以被修改),元組(不可以被修改)字典(<k,v>結構)集合(同數學概念上的集合)函數式編程(主要由lambda()、map()、reduce()、filter()構成)Python數據分析常用庫
  • 常用數據分析方法:方差分析及實現!
    方差分析是一種常用的數據分析方法,其目的是通過數據分析找出對該事物有顯著影響的因素、各因素之間的交互作用及顯著影響因素的最佳水平等。本文介紹了方差分析的基礎概念,詳細講解了單因素方差分析、雙因素方差分析的原理,並且給出了它們的python實踐代碼。
  • 高薪運營常用64個工具大全(乾貨)
    第一:數據分析淘系相關網址1.淘寶情報//i.data.taobao.com2.淘寶排行榜//top.taobao.com3.數據市場//home.shuju.taobao.com9.數據魔方//data.taobao.com10.生e經(常用,非官方)11.搜索診斷助手//notice.taobao.com12.天貓商家成長(不包含淘寶網的數據)//zhaoshang.mall.taobao.com/
  • Excel玩轉數據分析常用的43個函數!
    李啟方 | 作者簡書 | 來源Excel是我們工作中經常使用的一種工具,對於數據分析來說,這也是處理數據最基礎的工具。很多傳統行業的數據分析師甚至只要掌握Excel和SQL即可。對於初學者而言,有時候並不需要急於苦學R語言等專業工具(當然,學會了就是加分項).因為Excel涵蓋的功能足夠多,也有很多統計、分析、可視化的插件等,只不過我們平時處理數據的時候對於許多函數都不知道怎麼用!
  • python數據分析常用庫
    其中做數據分析時那些庫常用,怎麼用是本篇文字討論的內容。一、PandasPandas 是一個開源 Python 庫,它被廣泛用於分析數據,以及數據清洗和準等工作。它的名字來源是由 Panel data(面板數據,一個計量經濟學名詞)兩個單詞拼成的。簡單地說,你可以把 Pandas 看作是 Python 版的 Excel。
  • HR最常用的64個計算公式
    HR經常需要和數據打交道,如入職率、離職率、加班費計算等。雖然日常工作中,單個數據的計算並不麻煩,但幾十上百個累計在一起,確實很容易混淆,甚至計算失誤。不過大橙子急HR之所急,整理了常用的64個人力資源計算公式,HR可以添加至收藏夾隨時使用,也可以列印出來貼在電腦旁邊隨時查詢。
  • 8個常用數據分析方法,輕鬆搞定各種業務分析
    在數據分析訓練營給大家講解數據分析案例的時候,發現一些新手小白在做數據分析時,拿到數據不知道怎麼分析、從什麼維度分析,腦海裡沒有清晰的分析思路。對於數據分析思路的培養是一個不斷練習積累的過程,剛入行的小白可以先套用一些常用的數據分析方法或模型,掌握基礎的分析思路。
  • SEM優化常用的幾種數據分析方法
    做過SEMer的會知道,數據的準確是相對的,不可只看表面而需要挖掘,透過數字看現象、根據結果找原因,以及,使用數據分析為了得到什麼?這裡分享一則常用的分析思路,例如:為何分析→需要什麼數據→搜集整理這些數據→得到具有參考意義的思路SEM數據分析的常用方法,主要四種:一、趨勢分析法這是一種體現出整體趨勢的簡略分析法
  • HR數據分析常用的50個公式
    HR經常需要和數據打交道,如入職率、離職率、加班費計算等。日常工作中,HR需要用到很多的公式,確實很容易混淆,甚至計算失誤。今天小編整理了HR常用的100個人力資源計算公式,快來看看吧!
  • 常用的數據分析工具
    科學技術的發展帶動信息的不斷傳播,信息傳播過程中產生了大量的數據,這些數據對我們的生活產生了很大的影響,比如在某寶上購買產品,會比較店鋪的銷售量、好評等數據。除了這些直觀的數據之外,數據背後隱藏的秘密就需要分析所得。今天從定義、功能、應用領域介紹幾款常用的數據分析工具。
  • 數據分析的幾種常用方法概覽
    數據分析常用方法概覽(之一)對數據進行分析的方法很多,常用的有對比分析法、分組分析法、結構分析法、交叉分析法、漏鬥圖分析法、矩陣分析法、綜合評價分析法、5W1H分析法、相關分析法、回歸分析法、 聚類分析法、判別分析法、主成分分析法、因子分析法
  • Python數據分析 - Numpy
    前言NUMPY(以下簡稱NP)是Python數據分析必不可少的第三方庫,np的出現一定程度上解決了Python運算性能不佳的問題,同時提供了更加精確的數據類型。如今,np被Python其它科學計算包作為基礎包,已成為Python 數據分析的基礎,可以說,NP是SciPy、Pandas等數據處理或科學計算庫最基本的函數功能庫。因此,理解np的數據類型對python數據分析十分有幫助。下面,本文將介紹Np的常用操作和基本數據類型。NP提供了以下重點功能。
  • 數據分析師最常用的三大數據分析法,助你搭建數據分析體系
    作為一個數據分析師,最重要的就是先建立起自己的數據分析體系,這個體系可以由很多的數據方法搭建而成,今天我們就來了解一下簡單實用的三大數據分析方法,分別是:對比分析細分分析轉化分析細分分析細分分當中的第一點是分類分析,本質上還是化整為零,通過拆解不同的模塊進行單獨的分析,比如說我們可以劃分產品的類目、價格帶、折扣帶、年份等等,經過這樣劃分之後,什麼時候需要主打什麼樣的產品,就會又一個清晰的概念。
  • 五種常用大數據分析方法
    這些關係可能會導致對數據所代表的總體得出某些推論或結論。結論可能會導致數學模型預測當前不在數據集中的數據結果。但是,在導致決策或行動步驟之前,數據分析無效。  在一番掙扎之後,中琛魔方給大家總結了網際網路運營的五大數據分析方法,希望幫助大家在數據分析中越來越遊刃有餘~加油!
  • 產品數據分析常用的4種方法
    那麼,針對產品,常用的數據分析方法有哪些呢?今天我們通過中琛魔方大數據與大家一起來探討一下!一般做成簡單的數據趨勢圖,但光製作成數據趨勢圖還不算分析,還需要觀察數據上有哪些趨勢上的變化,有沒有周期性,有沒有拐點,並分析背後的原因,無論是內部原因還是外部原因。   趨勢分析最好的產出是比值。有環比、同比、定基比。
  • 【數據分析】Pandas
    其他常用方法                ✦ ✦ ✦ ✦ ✦ ✦1、簡介pandas是一個強大的Python數據分析的工具包,它是基於Numpy構建的,正因pandas的出現,不需要自己手動創建查看數據常用屬性和方法:index    獲取行索引columns  獲取列索引
  • 營銷活動分析的3個常用方法:數據趨勢、對比和細分分析
    數據說到底,就是這樣一個工具——通過數據,我們可以衡量營銷,可以了解活動,可以在數據驅動下改進活動方式。數據分析和數據處理本身是一個非常大的領域,這裡主要總結一些我個人覺得比較基礎且實用的部分,在日常工作中可以發揮比較大作用。
  • 【數據分析】Numpy
    Numpy是高性能科學計算和數據分析的基礎包。它也是pandas等其他數據分析的工具的基礎,基本所有數據分析的包都用過它。4、常用屬性屬性描述T數組的轉置(對高維數組而言)dtype數組元素的數據類型size數組元素的個數ndim數組的維數shape數組的維度大小(以元組形式)T:轉置li1 = [    [1,2,3],    [4,5,6
  • 常用的四種大數據分析方法
    本文主要講述數據挖掘分析領域中,最常用的四種數據分析方法:描述型分析、診斷型分析、預測型分析和指令型分析。當剛涉足數據挖掘分析領域的分析師被問及,數據挖掘分析人員最重要的能力是什麼時,他們給出了五花八門的答案。其實我想告訴他們的是,數據挖掘分析領域最重要的能力是:能夠將數據轉化為非專業人士也能夠清楚理解的有意義的見解。使用一些工具來幫助大家更好的理解數據分析在挖掘數據價值方面的重要性,是十分有必要的。其中的一個工具,叫做四維分析法。