考考你,這些數據分析常用術語你都分清楚了嗎?

2021-01-08 DataHunter

有個朋友是金融行業產品經理,最近在對已有的站內用戶做分層與標籤分類,需要對用戶進行聚類分析。一般從事數據分析行業的朋友對這類詞並不陌生,但是像市場運營人員就會把這類些名詞概念搞混,導致結果不準確。數據分析相關概念多且雜,容易搞混。為了便於大家區分,今天小編就來盤點一下數據分析常用的術語解釋。建議大家收藏起來方便查看。

按照以下三類進行匯總。

1、網際網路常用名詞解釋

2、統計學名詞解釋

3、數據分析名詞解釋

一、網際網路常用名詞解釋

1、PV(Page View)頁面瀏覽量

指某段時間內訪問網站或某一頁面的用戶的總數量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網站日常流量數據的重要指標。PV可重複累計,以用戶訪問網站作為統計依據,用戶每刷新一次即重新計算一次。

2、UV(Unique Visitor)獨立訪客

指來到網站或頁面的用戶總數,這個用戶是獨立的,同一用戶不同時段訪問網站只算作一個獨立訪客,不會重複累計,通常以PC端的Cookie數量作為統計依據。

3、Visit 訪問

指用戶通過外部連結來到網站,從用戶來到網站到用戶在瀏覽器中關閉頁面,這一過程算作一次訪問。

Visit可重複累計,比如我打開一個網站又關閉,再重新打開,這就算作兩次訪問。

4、Home Page 主頁

指一個網站起主目錄功能的頁面,也是網站起點。通常是網站首頁。

5、Landing Page 著陸頁

指用戶從外部連結來到網站,直接跳轉到的第一個頁面。比如朋友給我發了一個介紹爆款T恤的淘寶連結,我點開會直接跳轉到介紹T恤的那個頁面,而不是淘寶網眾多其他頁面之一,這個介紹T恤的頁面可以算作是著陸頁。

6、Bounce Rate 跳出率

指用戶通過連結來到網站,在當前頁面沒有任何交互就離開網站的行為,這就算作此頁面增加了一個「跳出」,跳出率一般針對網站的某個頁面而言。

跳出率=在這個頁面跳出的用戶數/PV

7、退出率

一般針對某個頁面而言。指用戶訪問某網站的某個頁面之後,從瀏覽器中將與此網站相關的所有頁面全部關閉,就算此頁面增加了一個「退出「。

退出率=在這個頁面退出的用戶數/PV

8、Click 點擊

一般針對付費廣告而言,指用戶點擊某個連結、頁面、banner的次數,可重複累計。比如我在PC端看到一則新聞連結點進去看了一會就關了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點擊。

9、avr.time 平均停留時長

指某個頁面被用戶訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內容的質量。

avr.time=訪客數量/用戶總停留時長

10、CTR 點擊率

指某個廣告、Banner、URL被點擊的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。

CTR=點擊數(click)/被用戶看到的次數

11、Conversion rate 轉化率

指用戶完成設定的轉化環節的次數和總會話人數的百分比,通常用來評價一個轉化環節的好壞,如果轉化率較低則急需優化該轉化環節。

轉化率=轉化會話數/總會話數

12、漏鬥

通常指產生目標轉化前的明確流程,比如在淘寶購物,從點擊商品連結到查看詳情頁,再到查看顧客評價、領取商家優惠券,再到填寫地址、付款,每個環節都有可能流失用戶,這就要求商家必須做好每一個轉化環節,漏鬥是評價轉化環節優劣的指標。

13、投資回報率(ROI:Return On Investment )

反映投入和產出的關係,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。

其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用於評估企業對於某項活動的價值,ROI高表示該項目價值高。

14、重複購買率

指消費者在網站中的重複購買次數。

15、Referrer 引薦流量

通常指將用戶引導至目標頁面的URL(超連結)。在百度統計中,引薦流量叫做「外部連結」。

16、流失分析(Churn Analysis/Attrition Analysis)

描述哪些顧客可能停止使用公司的產品/業務,以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用於為可能要流失的顧客準備新的優惠。

17、顧客細分&畫像(Customer Segmentation & Profiling)

根據現有的顧客數據,將特徵、行為相似的顧客歸類分組。描述和比較各組。

18、顧客的生命周期價值 (Lifetime Value, LTV)

顧客在他/她的一生中為一個公司產生的預期折算利潤。

19、購物籃分析(Market Basket Analysis)

識別在交易中經常同時出現的商品組合或服務組合,例如經常被一起購買的產品。此類分析的結果被用於推薦附加商品,為陳列商品的決策提供依據等。

20、實時決策(Real Time Decisioning, RTD)

幫助企業做出實時(近乎無延遲)的最優銷售/營銷決策。比如,實時決策系統(打分系統)可以通過多種商業規則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。

21、留存/顧客留存(Retention / Customer Retention)

指建立後能夠長期維持的客戶關係的百分比。

22、社交網絡分析(Social Network Analysis, SNA)

描繪並測量人與人、組與組、機構與機構、電腦與電腦、URL與URL、以及其他種類相連的信息/知識實體之間的關係與流動。這些人或組是網絡中的節點,而它們之間的連線表示關係或流動。SNA為分析人際關係提供了一種方法,既是數學的又是視覺的。

23、生存分析(Survival Analysis)

估測一名顧客繼續使用某業務的時間,或在後續時段流失的可能性。此類信息能讓企業判斷所要預測時段的顧客留存,並引入合適的忠誠度政策。

二、統計學名詞解釋

1、絕對數和相對數

絕對數:是反應客觀現象總體在一定時間、一定地點下的總規模、總水平的綜合性指標,也是數據分析中常用的指標。比如年GDP,總人口等等。

相對數:是指兩個有聯繫的指標計算而得出的數值,它是反應客觀現象之間的數量聯繫緊密程度的綜合指標。相對數一般以倍數、百分數等表示。相對數的計算公式:

相對數=比較值(比數)/基礎值(基數)

2、百分比和百分點

百分比:是相對數中的一種,他表示一個數是另一個數的百分之幾,也成為百分率或百分數。百分比的分母是100,也就是用1%作為度量單位,因此便於比較。

百分點:是指不同時期以百分數的形式表示的相對指標的變動幅度,1%等於1個百分點。

3、頻數和頻率

頻數:一個數據在整體中出現的次數。

頻率:某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。

4、比例與比率

比例:是指在總體中各數據佔總體的比重,通常反映總體的構成和比例,即部分與整體之間的關係。

比率:是樣本(或總體)中各不同類別數據之間的比值,由於比率不是部分與整體之間的對比關係,因而比值可能大於1。

5、倍數和番數

倍數:用一個數據除以另一個數據獲得,倍數一般用來表示上升、增長幅度,一般不表示減少幅度。

番數:指原來數量的2的n次方。

6、同比和環比

同比:指的是與歷史同時期的數據相比較而獲得的比值,反應事物發展的相對性。

環比:指與上一個統計時期的值進行對比獲得的值,主要反映事物的逐期發展的情況。

7、變量

變量來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。

8、連續變量

在統計學中,變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。

9、離散變量

離散變量的各變量值之間都是以整數斷開的,如人數、工廠數、機器臺數等,都只能按整數計算。離散變量的數值只能用計數的方法取得。

10、定性變量

又名分類變量:觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。

11、均值

即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。

12、中位數

對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。

13、缺失值

它指的是現有數據集中某個或某些屬性的值是不完全的。

14、缺失率

某屬性的缺失率=數據集中某屬性的缺失值個數/數據集總行數。

15、異常值

指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。

16、方差

是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值。

17、標準差

中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。

18、皮爾森相關係數

皮爾森相關係數是用來反映兩個變量線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。

19、相關係數

相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母r表示。由於研究對象的不同,相關係數有多種定義方式,較為常用的是皮爾森相關係數。

20、特徵值

特徵值是線性代數中的一個重要概念。在數學、物理學、化學、計算機等領域有著廣泛的應用。設A是向量空間的一個線性變換,如果空間中某一非零向量通過A變換後所得到的向量和X僅差一個常數因子,即AX=kX,則稱k為A的特徵值,X稱為A的屬於特徵值k的特徵向量或特徵矢量。

三、數據分析名詞解釋

A

聚合(Aggregation):搜索、合併、顯示數據的過程。

算法(Algorithms):可以完成某種數據分析的數學公式。

分析法(Analytics):用於發現數據的內在涵義。

異常檢測(Anomaly detection):在數據集中搜索與預期模式或行為不匹配的數據項。除了「Anomalies」,用來表示異常的詞有以下幾種:outliers,exceptions,surprises,contaminants.他們通常可提供關鍵的可執行信息。

匿名化(Anonymization):使數據匿名,即移除所有與個人隱私相關的數據。

分析型客戶關係管理(Analytical CRM/aCRM):用於支持決策,改善公司跟顧客的互動或提高互動的價值。針對有關顧客的知識,和如何與顧客有效接觸的知識,進行收集、分析、應用。

B

行為分析法(Behavioural Analytics):這種分析法是根據用戶的行為如「怎麼做」,「為什麼這麼做」,以及「做了什麼」來得出結論,而不是僅僅針對人物和時間的一門分析學科,它著眼於數據中的人性化模式。

批量處理(Batch processing):儘管從大型計算機時代開始,批量處理就已經出現了。由於處理大型數據集,批量處理對大數據具有額外的意義。批量數據處理是處理一段時間內收集的大量數據的有效方式。

商業智能(Business Intelligence):分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。

C

分類分析(Classification analysis):從數據中獲得重要的相關性信息的系統化過程;這類數據也被稱為元數據(meta data),是描述數據的數據。

雲計算(Cloud computing):構建在網絡上的分布式計算系統,數據是存儲於機房外的(即雲端)。

集群計算(Cluster computing):這是一個使用多個伺服器集合資源的「集群」的計算術語。要想更技術性的話,就會涉及到節點,集群管理層,負載平衡和並行處理等概念。

聚類分析(Clustering analysis):它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。

冷數據存儲(Cold data storage):在低功耗伺服器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時。

對比分析(Comparative analysis):在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。

相關性分析(Correlation analysis):是一種數據分析方法,用於分析變量之間是否存在正相關,或者負相關。

D

儀錶板(Dashboard):使用算法分析數據,並將結果用圖表方式顯示於儀錶板中。

數據聚合工具(Data aggregation tools):將分散於眾多數據源的數據轉化成一個全新數據源的過程。

數據分析師(Data analyst):從事數據分析、建模、清理、處理的專業人員。

資料庫(Database):一個以某種特定的技術來存儲數據集合的倉庫。

數據湖(Data lake):數據湖是原始格式的企業級數據的大型存儲庫。與此同時我們可以涉及數據倉庫,它在概念上是相似的,也是企業級數據的存儲庫,但在清理、與其他來源集成之後是以結構化格式。數據倉庫通常用於常規數據(但不是專有的)。數據湖使得訪問企業級數據更加容易,你需要明確你要尋找什麼,以及如何處理它並明智地試用它。

暗數據(Dark Data):基本上指的是,由企業收集和處理的,但並不用於任何意義性目的的數據,因此它是「暗」的,可能永遠不會被分析。它可以是社交網絡反饋,呼叫中心日誌,會議筆記等等。有很多人估計,所有企業數據中的 60-90% 可能是「暗數據」,但誰又真正知道呢?

數據挖掘(Data mining):數據挖掘是通過使用複雜的模式識別技術,從而找到有意義的模式,並得出大量數據的見解。

數據中心(Data centre):一個實體地點,放置了用來存儲數據的伺服器。

數據清洗(Data cleansing):對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性。

數據質量(Data Quality):有關確保數據可靠性和實用價值的過程和技術。高質量的數據應該忠實體現其背後的事務進程,並能滿足在運營、決策、規劃中的預期用途。

數據訂閱(Data feed):一種數據流,例如Twitter訂閱和RSS。

數據集市(Data Mart):進行數據集買賣的在線交易場所。

數據建模(Data modelling):使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義。

數據集(Data set):大量數據的集合。

數據虛擬化(Data virtualization):數據整合的過程,以此獲得更多的數據信息,這個過程通常會引入其他技術,例如資料庫,應用程式,文件系統,網頁技術,大數據技術等等。

判別分析(Discriminant analysis):將數據分類,按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,並從中獲取分類規則。

分布式文件系統(Distributed File System):提供簡化的,高可用的方式來存儲、分析、處理數據的系統。

文件存貯資料庫(Document Store Databases):又稱為文檔資料庫,為存儲、管理、恢復文檔數據而專門設計的資料庫,這類文檔數據也稱為半結構化數據。

E

探索性分析(Exploratory analysis):在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法。

提取-轉換-加載(ETL:Extract,Transform and Load):是一種用於資料庫或者數據倉庫的處理過程,天善學院有國內唯一的最全的ETL學習課程。即從各種不同的數據源提取(E)數據,並轉換(T)成能滿足業務需要的數據,最後將其加載(L)到資料庫。

G

遊戲化(Gamification):在其他非遊戲領域中運用遊戲的思維和機制,這種方法可以以一種十分友好的方式進行數據的創建和偵測,非常有效。

圖形資料庫(Graph Databases):運用圖形結構(例如,一組有限的有序對,或者某種實體)來存儲數據,這種圖形存儲結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能,也就是說,資料庫中每個元素間都與其他相鄰元素直接關聯。

網格計算(Grid computing):將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過雲將計算機相連在一起。

H

Hadoop:一個開源的分布式系統基礎框架,可用於開發分布式程序,進行大數據的運算與存儲。

Hadoop資料庫(HBase):一個開源的、非關係型、分布式資料庫,與Hadoop框架共同使用。

HDFS:Hadoop分布式文件系統(Hadoop Distributed File System);是一個被設計成適合運行在通用硬體(commodity hardware)上的分布式文件系統。

高性能計算(HPC:High-Performance-Computing):使用超級計算機來解決極其複雜的計算問題。

I

內存資料庫(IMDB:In-memory):一種資料庫管理系統,與普通資料庫管理系統不同之處在於,它用主存來存儲數據,而非硬碟。其特點在於能高速地進行數據的處理和存取。

物聯網(IoT):最新的流行語是物聯網(IOT)。IOT通過網際網路將嵌入式對象(傳感器,可穿戴設備,汽車,冰箱等)中的計算設備進行互連,並且能夠發送以及接收數據。IOT生成大量數據,提供了大量大數據分析的機會。

K

鍵值資料庫(Key-Value Databases):數據的存儲方式是使用一個特定的鍵,指向一個特定的數據記錄,這種方式使得數據的查找更加方便快捷。鍵值資料庫中所存的數據通常為程式語言中基本數據類型的數據。

L

負載均衡(Load balancing):將工作量分配到多臺電腦或伺服器上,以獲得最優結果和最大的系統利用率。

位置信息(Location data):GPS信息,即地理位置信息。

日誌文件(Log file):由計算機系統自動生成的文件,記錄系統的運行過程。

M

M2M數據(Machine 2 Machine data):兩臺或多臺機器間交流與傳輸的內容。

機器數據(Machine data):由傳感器或算法在機器上產生的數據。

機器學習(Machine learning):人工智慧的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。

Map Reduce:是處理大規模數據的一種軟體框架(Map:映射,Reduce:歸納)。

大規模並行處理(MPP:Massivel yParallel Processing):同時使用多個處理器(或多臺計算機)處理同一個計算任務。

元數據(Meta data):被稱為描述數據的數據,即描述數據數據屬性(數據是什麼)的信息。

多維資料庫(Multi-Dimensional Databases):用於優化數據聯機分析處理(OLAP)程序,優化數據倉庫的一種資料庫。

多值資料庫(MultiValue Databases):是一種非關係型資料庫(NoSQL),一種特殊的多維資料庫:能處理3個維度的數據。主要針對非常長的字符串,能夠完美地處理HTML和XML中的字串。

N

自然語言處理(Natural Language Processing):是計算機科學的一個分支領域,它研究如何實現計算機與人類語言之間的交互。

網絡分析(Network analysis):分析網絡或圖論中節點間的關係,即分析網絡中節點間的連接和強度關係。

NewSQL:一個優雅的、定義良好的資料庫系統,比SQL更易學習和使用,比NoSQL更晚提出的新型資料庫。

NoSQL:顧名思義,就是「不使用SQL」的資料庫。這類資料庫泛指傳統關係型資料庫以外的其他類型的資料庫。這類資料庫有更強的一致性,能處理超大規模和高並發的數據。

O

對象資料庫(Object Databases):(也稱為面象對象資料庫)以對象的形式存儲數據,用於面向對象編程。它不同於關係型資料庫和圖形資料庫,大部分對象資料庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象。

基於對象圖像分析(Object-based Image Analysis):數字圖像分析方法是對每一個像素的數據進行分析,而基於對象的圖像分析方法則只分析相關像素的數據,這些相關像素被稱為對象或圖像對象。

操作型資料庫(Operational Databases):這類資料庫可以完成一個組織機構的常規操作,對商業運營非常重要,一般使用在線事務處理,允許用戶訪問、收集、檢索公司內部的具體信息。

優化分析(Optimization analysis):在產品設計周期依靠算法來實現的優化過程,在這一過程中,公司可以設計各種各樣的產品並測試這些產品是否滿足預設值。

本體論(Ontology):表示知識本體,用於定義一個領域中的概念集及概念之間的關係的一種哲學思想。(譯者注:數據被提高到哲學的高度,被賦予了世界本體的意義,成為一個獨立的客觀數據世界)

異常值檢測(Outlier detection):異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象,該對象與數據集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。

聯機分析處理(On-Line Analytical Processing,OLAP):能讓用戶輕鬆製作、瀏覽報告的工具,這些報告總結相關數據,並從多角度分析。

P

模式識別(Pattern Recognition):通過算法來識別數據中的模式,並對同一數據源中的新數據作出預測

平臺即服務(PaaS:Platform-as-a-Service):為雲計算解決方案提供所有必需的基礎平臺的一種服務。

預測分析(Predictive analysis):大數據分析方法中最有價值的一種分析方法,這種方法有助於預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的數據集,例如歷史數據,事務數據,社交數據,或者客戶的個人信息數據,來識別風險和機遇。

公共數據(Public data):由公共基金創建的公共信息或公共數據集。

Q

數位化自我(Quantified Self):使用應用程式跟蹤用戶一天的一舉一動,從而更好地理解其相關的行為。

R

R:是一種程式語言,在統計計算方面很出色。如果你不知道 R,你就稱不上是數據科學家。R 是數據科學中最受歡迎的語言之一。

再識別(Re-identification):將多個數據集合併在一起,從匿名化的數據中識別出個人信息。

回歸分析(Regression analysis):確定兩個變量間的依賴關係。這種方法假設兩個變量之間存在單向的因果關係(譯者註:自變量,因變量,二者不可互換)。

實時數據(Real-time data):指在幾毫秒內被創建、處理、存儲、分析並顯示的數據。

推薦引擎(Recommendation engine):推薦引擎算法根據用戶之前的購買行為或其他購買行為向用戶推薦某種產品。

路徑分析(Routing analysis):–針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優路徑,以達到降低燃料費用,提高效率的目的。

S

半結構化數據(Semi-structured data):半結構化數據並不具有結構化數據嚴格的存儲結構,但它可以使用標籤或其他形式的標記方式以保證數據的層次結構。

結構化數據(Structured data):可以組織成行列結構,可識別的數據。這類數據通常是一條記錄,或者一個文件,或者是被正確標記過的數據中的某一個欄位,並且可以被精確地定位到。

情感分析(Sentiment Analysis):通過算法分析出人們是如何看待某些話題。

信號分析(Signal analysis):指通過度量隨時間或空間變化的物理量來分析產品的性能。特別是使用傳感器數據。

相似性搜索(Similarity searches):在資料庫中查詢最相似的對象,這裡所說的數據對象可以是任意類型的數據。

仿真分析(Simulation analysis):仿真是指模擬真實環境中進程或系統的操作。仿真分析可以在仿真時考慮多種不同的變量,確保產品性能達到最優。

軟體即服務(SaaS:Software-as-a-Service):基於Web的通過瀏覽器使用的一種應用軟體。

空間分析(Spatial analysis):空間分析法分析地理信息或拓撲信息這類空間數據,從中得出分布在地理空間中的數據的模式和規律。

SQL:在關係型資料庫中,用於檢索數據的一種程式語言。

流處理(Stream processing):流處理旨在對有「連續」要求的實時和流數據進行處理。結合流分析,即在流內不間斷地計算數學或統計分析的能力。流處理解決方案旨在對高流量進行實時處理。

T

時序分析(Time series analysis):分析在重複測量時間裡獲得的定義良好的數據。分析的數據必須是良好定義的,並且要取自相同時間間隔的連續時間點。

拓撲數據分析(Topological Data Analysis):拓撲數據分析主要關注三點:複合數據模型、集群的識別、以及數據的統計學意義。

交易數據(Transactional data):隨時間變化的動態數據

透明性(Transparency):–消費者想要知道他們的數據有什麼作用、被作何處理,而組織機構則把這些信息都透明化了。

文本挖掘(Text Mining):對包含自然語言的數據的分析。對源數據中詞語和短語進行統計計算,以便用數學術語表達文本結構,之後用傳統數據挖掘技術分析文本結構。

U

非結構化數據(Un-structured data):非結構化數據一般被認為是大量純文本數據,其中還可能包含日期,數字和實例。

V

價值(Value):(譯者註:大數據4V特點之一)所有可用的數據,能為組織機構、社會、消費者創造出巨大的價值。這意味著各大企業及整個產業都將從大數據中獲益。

可變性(Variability):也就是說,數據的含義總是在(快速)變化的。例如,一個詞在相同的推文中可以有完全不同的意思。

多樣(Variety):(譯者註:大數據4V特點之一)數據總是以各種不同的形式呈現,如結構化數據,半結構化數據,非結構化數據,甚至還有複雜結構化數據

高速(Velocity):(譯者註:大數據4V特點之一)在大數據時代,數據的創建、存儲、分析、虛擬化都要求被高速處理。

真實性(Veracity):組織機構需要確保數據的真實性,才能保證數據分析的正確性。因此,真實性(Veracity)是指數據的正確性。

可視化(Visualization):只有正確的可視化,原始數據才可被投入使用。這裡的「可視化」並非普通的圖型或餅圖,可視化指是的複雜的圖表,圖表中包含大量的數據信息,但可以被很容易地理解和閱讀。

大量(Volume):(譯者註:大數據4V特點之一)指數據量,範圍從Megabytes至Brontobytes。

W

天氣數據(Weather data):是一種重要的開放公共數據來源,如果與其他數據來源合成在一起,可以為相關組織機構提供深入分析的依據。

網絡挖掘/網絡數據挖掘(Web Mining / Web Data Mining):使用數據挖掘技術從網際網路站點、文檔或服務中自動發現和提取信息。

X

XML資料庫(XML Databases):XML資料庫是一種以XML格式存儲數據的資料庫。XML資料庫通常與面向文檔型資料庫相關聯,開發人員可以對XML資料庫的數據進行查詢,導出以及按指定的格式序列化。

以上就是數據分析相關術語的盤點,看完別忘了收藏喲~

-數據分析展示就用DataHunter-

相關焦點

  • 機器學習與數據分析常用術語-基礎篇(一)
    前言 之前在給公司的程式設計師培訓機器學習專題實戰的時候,發現他們聽的認真,也非常想學,但是每當問他們有哪裡不懂的時候,他們總是回答不出哪裡不懂,識懂非懂的狀態,後來我總結了一下原因,1.機器學習領域跟程序開發的區別非常大,機器學習屬於一個交叉學科,即需要數學也需要計算機學,難度相對與單學科要大些,2.機器學習領域有很多專業詞彙與術語,之前程式設計師都沒聽說過和接觸過
  • 小雞寶寶考考你成語沆瀣一氣是個常用的貶義詞,其中沆瀣是指?
    小雞寶寶考考你成語沆瀣一氣是個常用的貶義詞,其中沆瀣是指?時間:2020-10-08 07:14   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:小雞寶寶考考你成語沆瀣一氣是個常用的貶義詞,其中沆瀣是指? 小雞寶寶考考你,成語沆瀣一氣是個常用的貶義詞,其中沆瀣是指?
  • 你要是連這幾個數學術語都不清楚,恐怕很難用Excel做好數據分析哦
    數據分析涉及到一些統計學中的專業術語,理解這些術語不僅有助於打開分析的思路,還能在後期完成數據分析時,規範地寫作數據分析報告,體現分析者的專業性、嚴謹性,讓業內人士刮目相看。1.平均數平均數表示的是一組數據的集中趨勢量數,其計算方法是這組數據所有之和再除以這組數據的個數。
  • 4種必看的貿易術語詳解,你都了解嗎?
    公眾號:絲路贊外貿營銷,絲路贊外貿營銷,隸屬於絲歌信息技術股份有限公司.基於API和大數據,深耕移動領域,絲路贊以「提高效率、提升效果
  • 體檢報告上的數據指標、專業術語,你真的看懂了嗎?
    原標題:體檢報告上的數據指標,你看得懂嗎?深晚記者調查發現,大多數醫院重視檢後健康管理,設門診提供報告解讀深圳晚報2019年10月27日訊 到了年底,深圳各體檢中心都迎來了體檢高峰期。近年來,大家的體檢意識都增強了,定期體檢已經成為許多人每年的「必修課」,可做完檢查,你看得懂檢驗結果嗎?
  • 小雞寶寶考考你世界上所有國家的國旗都是長方形的嗎?
    小雞寶寶考考你世界上所有國家的國旗都是長方形的嗎?時間:2020-06-03 07:13   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:小雞寶寶考考你世界上所有國家的國旗都是長方形的嗎? 小雞寶寶考考你世界上所有國家的國旗都是長方形的嗎?這是螞蟻莊園小課堂在6月3日發布的問題。
  • 小雞寶寶來考考你 鯊魚和鱷魚誰一生都在換牙?
    :原標題:小雞寶寶來考考你 鯊魚和鱷魚誰一生都在換牙? 鯊魚和鱷魚誰一生都在換牙?今天支付寶小雞答題答案大家都選對了嗎?鯊魚口中有成排的利齒,並且一生都在換牙哦!選對答案的話就可以領取180g小雞飼料了,小夥伴們一起來看看今天的正確答案吧!
  • 讓你秒變「大神」的二十個常用攝影術語,你學會了嗎?
    「光圈 快門 感光度 曝光 曝光補償 色溫 景深······」 面對這些專業術語,有沒有小夥伴和我當初一樣傻傻分不清楚,感覺攝影真的好難學,無從下手。鄙人不才,整理了一些比較常用常見的攝影術語,用我自己的理解跟大家交流一下,希望對大家有所幫助。
  • 你能分清楚嗎?
    很多人認為,平時感冒發燒嗓子疼吃的頭孢XX、XX西林、XX黴素、布洛芬、速效傷風膠囊等等統稱消炎藥,這種說法到底對嗎?下面闢謠君就帶你一次釐清!什麼是消炎藥?首先我們需要了解一下什麼是炎症。總而言之,我們在選擇藥物時,首先應把病因弄清楚,而後再考慮是「對症治療」還是「對因治療」,切不可病急亂投醫!抗生素能隨便吃嗎?既然抗生素是「對因治療」,能從根本上扼殺病原體,而消炎藥則只能「治標」,那是不是意味著對於感染性炎症而言,應該儘可能服用抗生素呢?答案是否定的。
  • 關於汽車上的這些數據,你是不是傻傻分不清楚
    很多車友在看汽車數據的時候經常會被一些單位名稱誤導,比如汽車的功率、車速等等,不要以為只看前面的數字就行了,還要看後面的單位。今天小編就跟大家聊一聊這個問題,這些不同的單位到底存在著怎樣的換算關係。英裡-公裡/小時很多人都愛說這條路限速120邁,我開車開到60邁等等這樣的話,其實大家都知道你想表達的意思,但是嚴格來說這種說法是錯誤的。其實邁並不等於公裡,邁是英制單位英裡mile的音譯,表示車速簡寫的時候為MPH,公裡/每小時簡寫為KPH或KM/H。
  • 絕地求生:如何與國外玩家進行交流,這些常用遊戲術語你知道嗎?
    遊戲世界千姿百態,各種遊戲難分好壞,大家好,我是老狼,喜歡遊戲,喜歡和所有的朋友探討遊戲,也許生活中別人不能理解你,但是在遊戲裡,老狼是最懂你的朋友。文/老狼大家好,我是老狼。《絕地求生》作為一款現象級的遊戲,遊戲本身的大逃殺模式也是十分的新穎,受到了廣大玩家們的一致好評,其內部許許多多的玩法,頗有意思的競爭性,都是其稱為現象級遊戲的優點。
  • 除了dBm,這些常用的絕對dB值你都知道嗎?
    注意要將分貝的比率形式與絕對形式分清楚。例如,你可以問這樣一個問題:當輸入端信號為-20dBm時,增益為12dB的放大器輸出功率是多少?對於這個問題,放大器增益直接與輸入功率相加就可以計算出輸出功率:−20dBm+12dB=−8dBm。有時候工程師會錯誤地認為放大器增益為12dBm,這是不正確的。
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 學數據處理和分析的你,這些概念必須知道
    @Author :Runsen最近考了實驗設計與數據處理,雖說這是一本化學實驗數據處理的書,但我更覺得是一本分析化學的書,還不如說是一本數據相關的書,也有概率論的味道,做數據的應該學習下最基本的數據處理基礎誤差誤差是測量測得的量值減去參考量值。
  • ...考考你安全出口標註上的小綠人其實也是有名字的 你知道叫什麼嗎
    小雞寶寶考考你安全出口標註上的小綠人其實也是有名字的 你知道叫什麼嗎時間:2020-07-11 06:56   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題;小雞寶寶考考你安全出口標註上的小綠人其實也是有名字的 你知道叫什麼嗎 小雞寶寶考考你安全出口標註上的小綠人其實也是有名字的,你知道叫什麼嗎?
  • 發表醫學論文之前這些問題你都想清楚了嗎?
    又是如何分析數據的?研究發現是什麼?結論與數據一致嗎?在試驗階段思考這些問題有助於你「一氣呵成」的完整初稿。如果在實驗開始前,你並沒有一個明確的目的和研究方向,那你就會發現在寫稿子的過程中簡直寸步難行。
  • 這個的行業常用術語解釋,看看你都知道嗎?
    近日,小編發現在有很多人對CRO行業認識還比較模糊,於是整理了30個CRO行業的常用術語解釋,幫助大家get新技能!其監查的目的是為了保證臨床試驗中受試者的權益受到保障,試驗記錄與報告的數據準確、完整無誤,保證試驗遵循已批准的方案和有關法規。病例報告表(CRF)英文全稱CaseReportForm,病例報告表,是在臨床試驗中用以記錄每一名受試者在試驗過程中的症狀、體徵或實驗室檢查數據的文件。
  • 小雞寶寶考考你,在電腦屏幕旁放一顆仙人掌能防電腦輻射嗎
    小雞寶寶考考你,在電腦屏幕旁放一顆仙人掌能防電腦輻射嗎時間:2020-04-20 23:22   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:小雞寶寶考考你,在電腦屏幕旁放一顆仙人掌能防電腦輻射嗎 4月20日螞蟻莊園每日一題的答案是什麼?
  • 小雞寶寶考考你84消毒液中的「84」是「巴氏消毒法」的音譯嗎?
    小雞寶寶考考你84消毒液中的「84」是「巴氏消毒法」的音譯嗎?時間:2020-06-04 00:09   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題:小雞寶寶考考你84消毒液中的84是巴氏消毒法的音譯嗎? 小雞寶寶考考你84消毒液中的84是巴氏消毒法的音譯嗎?
  • 小雞寶寶考考你馬蹄其實是馬的
    小雞寶寶考考你,馬蹄其實是馬的 螞蟻莊園今日答案5月31日小雞走路為什麼腦袋是一突一突的 螞蟻莊園今日答案5月31日小雞寶寶考考你哪一種神奇的魚能在陸地上生活還會爬樹哪一種神奇的魚能在陸地上生活還會爬樹