6種數據分析實用方法,終於有人講明白了

2020-10-06 華章科技

導讀:在《終於有人把AI、BI、大數據、數據科學講明白了》中,我們討論了分析以及相關的一些概念,如大數據和數據科學。現在我們將注意力轉向分析中使用的實用方法,包括各種分析工具。

具體來說,在本文中,我將概述統計、時間序列分析、自然語言處理、機器學習和運籌學中的方法。

作者:格雷戈裡·S. 納爾遜(Gregory S. Nelson)

來源:華章科技

01 應用統計與數學

與前面許多已經討論過的概念一樣,人們如何定義統計以及統計與一般數學(mathematics)有何不同,存在著很大的差異。

有些人認為統計是數學的一個分支(Merriam-Webster,2017b),而另一些人(如John Tukey(Brillinger,2002))則認為統計是一門獨立的科學。大多數人認為,就像物理學也使用數學方法但不是數學一樣,統計學使用數學但它並不是數學(Milley,2012)。

統計涉及數據的收集、組織、分析、解釋和展示。如果使用這個廣義的定義,它聽起來和分析的概念非常像。然而,分析和數據科學都使用統計學的數量分析基礎,但它們的關注範圍比傳統統計更廣泛,而關於統計與其他學科之間的概念關係有幾十個觀點,我列舉了我所看到的這些概念之間的關係,如圖1-3所示。

▲圖1-3 統計與其他定量學科之間的關係

數學具有一定的絕對和可確定的性質,而數學的教學方式(至少在美國學校是如此)灌輸了一種以確定性的方式來看待數量世界的思想。也就是說,我們被教導相信,所有的事實和事件都可以被解釋清楚。

但是,統計則把量化數據看成概率的或隨機的。也就是說,根據事實可能會推導出普遍正確的結論(除了簡單的隨機性),但必須承認,存在一些無法準確預測的隨機概率分布或模式。

  • 拓展學習:想要學習更多的統計學歷史及它如何改變科學,請閱讀David Salsburg的書The Lady Tasting Tea

如圖1-4所示,數學思維是演繹性的(即,它通過應用一般定律或原則來推斷某一特定實例),而統計推理是歸納性的(即,它從具體實例中提煉出一般規律)。

▲圖1-4 歸納推理與演繹推理的比較

這種差異在分析的環境下是很重要的,因為我們將歸納推理和演繹推理應用於分析解決不同的問題。因此,將數學和統計都應用到分析領域是適當的和必要的。如果開展分析是一種全面的策略,那麼統計和數學就是在眾所周知的分析工具箱中幫助我們實現該策略的兩個工具。

線性規劃(linear programming)可用於支持我們分析解決一類特定的優化問題。例如,迪士尼公司在其數據科學類工作中使用線性、非線性、混合整數和動態規劃,來解決諸如優化餐廳座位安排、減少公園之間乘車的等待時間、安排工作人員(如演員)時間表等方面的問題。

請注意,為了討論的方便,我在這裡不嚴格區分運籌學(operation research)、數學最優化(mathematical optimization)、決策科學(decision science)或精算科學(actuarial science)之間的區別,因為在我看來,它們都是我們分析工具箱中眾多分析工具的組成部分而已,可以根據思考和解決問題的需要而靈活使用。

  • 線性規劃:線性規劃是解決問題的一個數學方法,其輸出是一個線性模型函數。例如,我們可能想通過調節幾個關鍵因素,比如外科手術的複雜度、需要醫務人員的數量、可能出現的併發症等,來優化急救部門的效能。

02 預測和時間序列

在討論支持分析的方法時,預測和時間序列往往被一起提及,並不是因為它們是同一種方法,而是因為它們都針對同一類問題,即基於歷史信息對時間序列數據進行特徵提煉和預測。

預測和時間序列分析是指對時間序列數據進行分析、從數據中提煉有意義特徵的方法。很多時候,預測被描述為通過歷史數據對趨勢進行判斷,並通過可視化手段進行直觀展現的方法,有些還提供了關於未來的預測。

而時間序列分析不同於預測,雖然你需要時間序列數據來進行預測,但並非所有的時間序列分析都是用來進行預測的。例如,時間序列分析可用於在多個時間序列中發現模式或相似的特徵,或執行統計過程控制。類似地,季節性的分析也可以用來識別模式。

時間序列分析採用了多種方法,既有定量的,也有定性的。時間序列分析的目的是在歷史數據(或時間序列數據)中找出一種模式,然後推測未來趨勢。通常有四大類時間序列分析方法,如圖1-5所示。

▲圖1-5 預測和時間序列分析的方法

一般而言,定量方法是最常見的預測方法。但是,當無法獲得定量的歷史數據時,或者廣泛存在不確定性時,使用定性分析和決策分析方法也很普遍。

03 自然語言處理

自然語言處理(Natural Language Process,NLP)是指通過計算機來理解和生成「自然語言」的方法。

當前,NLP是一個專注於人類語言和計算機之間相互交互的研究領域,處於計算機科學、人工智慧和計算語言學的交叉領域。文本挖掘和文本分析技術通常可以互換使用,既是NLP的前置活動也可以是NLP本身的應用。

NLP的目標是理解計算機文本中的自然語言,NLP用於文本的分類、提取和總結,我們在理解和技術方面的進步正迅速將NLP推向分析和其他許多領域應用的前沿。例如,在分析過程中,我們獲取過去的描述信息(如文本、文檔、推文、演講),並對它們進行語義分類情緒理解

情緒分析對於理解人們如何看待產品或服務特別有用。在醫療保健領域,情緒分析被用來衡量患者的情緒,以及識別那些有心力衰竭風險的患者。然後,這些文本摘要將作為分析過程的輸入,用於預測建模、決策分析、搜索或回答問題的機器人。

圖1-6概述了這樣一個自然語言處理的普遍過程。

▲圖1-6 自然語言處理過程示意圖

NLP的一個非常實際的應用是在市場營銷領域,文本用於理解客戶對某商品(通常指品牌或產品)的整體「情感」。這裡的情感指的是如何理解客戶的情緒並對情緒進行提煉與歸類。除了情感分析,NLP還可以有多種應用,比如:

  • 語法檢查
  • 實體提取
  • 翻譯
  • 搜索
  • 標準化
  • 回答問題
  • 拓展學習:欲了解更多自然語言處理中使用的技術,請閱讀Matthew Mayo的文章:https://www.kdnuggets.com/2017/02/natural-language-processing-key-terms-explained.html

自然語言生成(Natural Language Generation,NLG)是人工智慧和NLP研究的一個子集,它指自動從結構化數據中生成有意義的、可閱讀的文本。與NLP不同,NLG走的是另一條研究道路。

也就是說,NLG以數據或其他形式的信息作為輸入,以文本作為輸出。

NLG已經被廣泛應用於各種聊天機器人,從客戶服務(見Pathania和Guzma,Chatbots in Customer Service)到疾病症狀診斷。聊天機器人只是NLG的一種應用,其他應用還包括自動化完成下列事項:

  • 把商業智能報表歸納成完整的分析報告(Qlik、Tableau、TIBCO、Microstrategy、Sisense、Information Builders都提供這類方法)
  • 自動創建財務報表並完成分析(Nanalyze軟體提供此類功能)
  • 製作每日體育資訊簡報(StatsMonkey提供此類功能)
  • 自動編制客戶服務代表的績效評估(Narrative Science公司的Quill軟體提供此類功能)
  • 在客戶關係管理系統中自動創建CRM話術腳本,建議銷售機會(Yseop的Savvy提供此類功能)
  • 為小企業提供智能的「財務分析師」整體解決方案(Arria公司的Recount軟體提供此類功能)

歷史上,自然語言處理領域涉及規則的直接編碼,以便處理語言本體,定義單詞的結構,理解內容和上下文,以及它們在日常語言中的使用方式。統計計算、計算語言學和機器學習的現代進步正以前所未有的速度改變著NLP的世界。

04 文本挖掘與文本分析

一般來說,文本分析中最令人困惑的一個方面可能是NLP和文本挖掘之間的區別。就像在數據挖掘中所做的一樣,我們試圖從數據中提取有用的信息。在文本分析情況下,數據恰好是文本,從中提取的信息包括在文本數據中發現的模式和趨勢。

文本挖掘處理文本數據本身,我們試圖回答諸如詞彙的頻率、句子長度、某些文本字符串的存在或不存在等問題。我們可以解決概述的問題(例如,使用NLP中的技術進行分類)。本質上,文本挖掘通常是NLP的前奏。

文本分析涵蓋的範圍廣泛,通常包括應用統計分析、機器學習和其他一些高級分析技術,但通常被認為等同於文本挖掘。我覺得這是個灰色地帶。

注意,在商業智能領域人們經常使用文本分析這一術語,以表示更多的簡單行動可以通過典型的報表方式(例如詞雲、詞頻分析等),以一種自動和可視化的方式完成。

文本挖掘一般是數據科學家喜歡使用的提法,他們雖然擁有很多更先進的方法,但那些在文本挖掘中需要做的計數、統計之類的基礎事務也是他們複雜工作的一部分。我認為這符合我的觀點,即分析是商業智能(BI)的一種自然進化。

需要特別注意的是,不同的社區、不同的場景,會使用不同的術語,這在實際工作中可能會引起一些理解的混淆。例如,參見:

www.linguamatics.com/blog/are-terms-text-mining-and-text-analytics-largely-inter changeable

05 機器學習

美國最大的私營軟體公司和分析巨頭SAS公司將機器學習定義為:

……一種自動建立分析模型的數據分析方法。機器學習使用數據迭代學習的算法,使計算機能夠在無須顯式編程的情況下具有找到隱藏見解的洞察力。

機器學習的核心是使用算法來建立量化分析模型,幫助計算機模型從數據中「學習」。它同以人為中心的處理過程不同,它是由計算機學習和發現隱藏在數據中的模式,而不是由人去直接建立模型。

一般而言,機器學習中模型建立和模型管理的概念是指能夠持續並且重複開展後續的決策流程,而不是高度人工參與的常常基於統計手段的分析。

隨著近年來計算能力的進步,機器學習可以用來自動地實現針對大數據的複雜數學計算,而這在以前是不可能實現的。

人類通常每周可以建立一到兩個好的模型,而機器學習每周可以創建數千個模型。


——Thomas H.Davenpot,分析思想領袖(Davenport,2013年)

圖1-7概述了機器學習中的常見方法。

▲圖1-7 機器學習常用技術歸納

  • 拓展學習:要學習更多相關知識及機器學習中的其他術語,請訪問谷歌開發者機器學習詞彙表,網址為:developers.google.com/machine-learning/glossary/

人們通常根據計算機的「學習模式」對機器學習算法進行分類(記住,機器學習就是讓計算機通過分析數據中的模式來提煉規律),也就是說,針對同樣的數據,可以有不同的機器學習算法來對真實世界(問題)建模。

一般而言,有四種機器學習模式或者學習模型算法,它們的區別在於輸入變量扮演的角色不同,以及如何為訓練模型準備數據。

表1-1概述了不同機器學習算法的差異。

表1-1 機器學習模式

06 數據挖掘

  • 數據挖掘:數據挖掘是在(通常是大型)數據集中發現和解釋規律模式,以解決業務問題的過程。

在20世紀90年代末和21世紀初,數據挖掘作為一種分析大型資料庫以生成新的或與眾不同的信息的方法而被廣泛應用。數據挖掘界的夢想是「找到乾草堆中的一根針」。數據挖掘與統計學不同的是,在數據探索之前,不一定有一個先驗的理論驅動假說。

  • 先驗:「先驗」被定義為「從早期開始」,或者簡單地解釋為「事先」。先驗假設是在進行實驗或收集數據之前陳述的假設。

數據挖掘採用傳統的統計方法以及人工智慧和機器學習技術,目的是在我們擁有的數據中識別出以前未知的模式並進行預測。

就像分析中採用的其他技術一樣,數據挖掘遵循這樣一個生命周期:通常從問題描述開始,然後對數據進行理解,再進行模型構建,並根據結果採取相應行動。

一般情況下,數據挖掘人員識別出感興趣的輸出變量,然後使用各種技術對數據進行預處理(如聚類、主成分分析和關聯規則學習),然後將這些輸出變量作為輸入應用到數據挖掘算法中,如回歸算法、神經網絡、決策樹或支持向量機。

數據挖掘過程中的一個關鍵部分是模型評估和確保我們不會過度擬合模型。

關於作者:格雷戈裡·S. 納爾遜(Gregory S. Nelson),ThotWave的創始人和CEO,是國際分析研究所(International Institute for Analytics)的專家,也是杜克大學福卡商學院(Fuqua School of Business)的特約教授。

本文摘編自《數據分析即未來:企業全生命周期數據分析應用之道》,經出版方授權發布。

延伸閱讀《數據分析即未來》

推薦語:融合了數據科學、設計思維和組織理論,全方位闡釋如何高效達成高水平企業級數據分析能力。

相關焦點

  • 6種數據分析實用方法,終於有人講明白了
    大多數人認為,就像物理學也使用數學方法但不是數學一樣,統計學使用數學但它並不是數學(Milley,2012)。統計涉及數據的收集、組織、分析、解釋和展示。如果使用這個廣義的定義,它聽起來和分析的概念非常像。
  • 終於有人把數據中臺講明白了
    通過數據中臺提供的方法和運行機制,形成匯聚整合、提純加工、建模處理、算法學習,並以共享服務的方式將數據提供給業務使用,從而與業務聯動。 再者,結合業務中臺的數據生產能力,最終構建數據生產—消費—再生的閉環。為了更好地理解數據中臺,我們將其與數據倉庫、數據湖、BI、大數據等相關概念進行對比。
  • 數據分析必讀乾貨:簡單而實用的3大分析方法
    如果有人建議你去學習R語言、tableau、PowerBI,那麼我建議你不如先從最基礎也是最核心的數據分析方法學起。 在一家年銷售不到10億的電商公司(行業中大部分電商企業年銷售可能都不到1個億),你只要掌握一些基礎的數據分析方法,再配合Excel表格,就足夠你完成各種數據化運營工作了。
  • 數據分析最常用的18個概念,終於有人講明白了
    導讀:大多數情況下,數據分析的過程必須包括數據探索的過程。數據探索可以有兩個層面的理解:一是僅利用一些工具,對數據的特徵進行查看;二是根據數據特徵,感知數據價值,以決定是否需要對別的欄位進行探索,或者決定如何加工這些欄位以發揮數據分析的價值。
  • 數據分析最常用的18個概念,終於有人講明白了
    大多數情況下,數據分析的過程必須包括數據探索的過程。數據探索可以有兩個層面的理解:一是僅利用一些工具,對數據的特徵進行查看;二是根據數據特徵,感知數據價值,以決定是否需要對別的欄位進行探索,或者決定如何加工這些欄位以發揮數據分析的價值。欄位的選取既需要技術手段的支撐,也需要數據分析者的經驗和對解決問題的深入理解。
  • 終於有人把雲計算、大數據和人工智慧講明白了!
    數據十分雜亂,經過梳理和清洗,才能夠稱為信息。信息會包含很多規律,我們需要從信息中將規律總結出來,稱為知識(Knowledge),而知識改變命運。  信息是很多的,但有人看到了信息相當於白看,但有人就從信息中看到了電商的未來,有人看到了直播的未來,所以人家就牛了。  如果你沒有從信息中提取出知識,天天看朋友圈也只能在網際網路滾滾大潮中做個看客。
  • 6種常見的數據分析方法論及應用
    對於數據分析來說,數據分析方法論是非常重要的,對於想入行數據分析的小白來說,有一些常見的數據分析方法論(模型)可以直接套用,本文將為大家講解6個常見的數據分析方法論及相關案例,幫助大家快速入門數據分析!1、PEST分析法PEST分別是四個單詞的首字母,其中:P:Political,政治環境。
  • 這6種實驗數據分析方法,了解一下
    一般來說,在收集完實驗數據後,作者接下來要做的重要一步,就是進行數據分析。而進行數據分析,就有這6種常見方法。
  • 人工智慧7大關鍵技術,終於有人講明白了
    有監督學習與在評分模型中部署的傳統分析方法(如回歸分析)非常相似。在回歸分析中,目標是創建一個模型,使用一組與輸出有關而且其值已知的輸入變量來預測一個已知結果。一旦模型開發完成,就可以用它通過相同輸入變量的已知值來預測一個未知的結果。
  • 9種常用數據分析方法
    數據分析是從數據中提取有價值信息的過程,過程中需要對數據進行各種處理和歸類,只有掌握了正確的數據分類方法和數據處理模式,才能起到事半功倍的效果,以下是數據分析員必備的9種數據分析思維模式:數據聚類是對於靜態數據分析的一門技術,在許多領域受到廣泛應用,包括機器學習,數據挖掘,模式識別,圖像分析以及生物信息。4. 相似匹配相似匹配是通過一定的方法,來計算兩個數據的相似程度,相似程度通常會用一個是百分比來衡量。
  • Pandas 數據分析: 3 種方法實現一個實用小功能
    Pandas 的強大體現在其簡潔,解決一些數據分析問題非常方便。
  • Python3智能數據分析,超實用的數據預處理方法你需要知道
    連續特徵離散化是在數據的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些離散化的區間,最後用不同的符號或整數值代表落在每個子區間中的數據值。因此離散化涉及兩個子任務,即確定分類數以及如何將連續型數據映射到這些類別型數據上。其原理如圖 7-2 所示。常用的離散化方法有 3 種:等寬法、等頻法和通過聚類分析離散化(一維)。
  • 終於有人把智能語音處理講明白了
    同時,語音是一種富含信息的信號載體,它承載了語義、說話人、情緒、語種、方言等諸多信息,分離、感知這些信息需要對語音進行十分精細的分析,對這些信息的判別也不再是簡單的規則描述,單純對發聲機理、信號的簡單特徵採用人工手段去分析並不現實。
  • 深入淺出的數據分析方法
    本文,筆者用簡單易懂的文筆總結出來一套易學易用的數據分析方法論,讓初學者快速掌握數據分析方法中最核心、最常用的要點,至少能滿足90%的日常需求。 學習對大多數人而言是一件痛苦的事情,尤其看著厚厚的專業書籍、各種難以理解又缺乏解釋說明的術語定義,會讓這種痛苦加劇。
  • 五種常用大數據分析方法
    這些關係可能會導致對數據所代表的總體得出某些推論或結論。結論可能會導致數學模型預測當前不在數據集中的數據結果。但是,在導致決策或行動步驟之前,數據分析無效。  在一番掙扎之後,中琛魔方給大家總結了網際網路運營的五大數據分析方法,希望幫助大家在數據分析中越來越遊刃有餘~加油!
  • 7種主流數據分析軟體比較及經典教材推薦
    該書在數學描述方面適當淡化,以講清楚方法、思路為目標,不做大量的推導和證明,重點放在如何運用各種計量經濟方法對實際的經濟問題進行分析、建模、預測、模擬等實際操作上。該書很多內容都講解、總結的透徹明白,例如流量、存量一般是否平穩等問題。
  • 終於有人講明白了
    我們將機器學習描述為實現人工智慧的一種方式方法。機器學習是基於已有數據、知識或經驗自動識別有意義的模式。最基本的機器學習使用算法解析和學習數據,然後在相似的環境裡做出決定或預測。簡言之,即基於數據學習並做決策。這樣的描述將機器學習與傳統軟體或普通程序區分開來。
  • 終於有人把「籌碼分布」講明白了,簡單實用,建議睡前讀十遍
    ● 有沒有更好的止損方法呢?我應該試試不同的方法,並評估各自的優劣勢。● 如果價格總是往不利的方向發展,我是不是應該晚點入場呢?2交易會被操縱嗎?從某種意義上講,節奏存在速率性和方向性,如果投資者的節奏與市場存在速率性差別可以彌補,並且最終不影響獲利效果;如果投資者節奏與市場存在方向性差別,並不能得到及時的糾正,必將被市場所拋棄。趨勢只能跟隨,節奏只能把握,這就是交易制勝的法寶。
  • 數據分析的幾種常用方法概覽
    數據分析常用方法概覽(之一)對數據進行分析的方法很多,常用的有對比分析法、分組分析法、結構分析法、交叉分析法、漏鬥圖分析法、矩陣分析法、綜合評價分析法、5W1H分析法、相關分析法、回歸分析法、 聚類分析法、判別分析法、主成分分析法、因子分析法
  • 11種數據分析方法,別再說你不會了
    這是精讀《數據分析思維:分析方法和業務知識》的第2篇文章哈嘍大家好,我是可樂,上周五的精讀我們總結了常用的指標,以及如何選擇指標,