從概念到應用,這一次終於把數據挖掘給講明白了

2021-01-09 CDA數據分析師

作者 | 陳封能 來源 | 《數據挖掘導論》(原書第2版)

導讀:數據採集和存儲技術的迅速發展,加之數據生成與傳播的便捷性,致使數據爆炸性增長,最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析,對幾乎所有社會領域的決策都變得越來越重要:商業和工業、科學和工程、醫藥和生物技術以及政府和個人。

然而,數據的數量(體積)、複雜性(多樣性)以及收集和處理的速率(速度)對於人類來說都太大了,無法進行獨立分析。因此,儘管大數據的規模性和多樣性給數據分析帶來了挑戰,但仍然需要自動化工具從大數據中提取有用的信息。

數據挖掘將傳統的數據分析方法與用於處理大量數據的複雜算法相結合,本文將介紹數據挖掘的概況。

01 數據挖掘及高級數據分析技術的應用

1. 商業和工業

藉助POS(銷售點)數據收集技術(條碼掃描器、射頻識別(RFID)和智慧卡技術),零售商可以在商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日誌、客服中心的顧客服務記錄等其他的重要商務數據,能夠更好地理解顧客的需求,做出更明智的商業決策。

數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分布、欺詐檢測以及自動化購買和銷售。最近一個應用是快速股票交易,在這個交易中,需要使用相關的金融交易數據在不到一秒的時間內做出買賣決定。

數據挖掘還能幫助零售商回答一些重要的商業問題,如:「誰是最有價值的顧客?」「什麼產品可以交叉銷售或提升銷售?」「公司明年的營收前景如何?」這些問題促使著數據挖掘技術的發展,比如關聯分析。

隨著網際網路不斷改變我們日常生活中互動和做決定的方式,能夠生成大量的在線體驗數據,例如網頁瀏覽、信息傳遞,以及在社交網站上發布信息,這為使用Web數據的商務應用提供了機會。

例如,在電子商務領域,用戶的在線瀏覽或購物偏好數據可以用來推薦個性化的產品。數據挖掘技術也在支持其他基於網際網路的服務方面扮演著重要的角色,如過濾垃圾信息、回答搜索查詢,以及建議社交圈的更新和聯繫。

網際網路上大量的文本、圖像和視頻使得數據挖掘方法有了許多進展,如深度學習。這些進展推動了諸多應用領域的進步,如目標識別、自然語言翻譯與自動駕駛。

另一個經歷大數據快速轉型的應用領域是移動傳感器和行動裝置的使用,如智慧型手機和可穿戴計算設備。藉助更好的傳感器技術,可以利用嵌入在相互連接的日常設備上的低成本傳感器(稱為物聯網(IOT))來收集物理世界的各種信息。

在數字系統中,物理傳感器的深度集成正開始產生大量與環境相關的多樣化和分布式的數據,可用於設計方便、安全、節能的家庭系統,以及規劃智能城市。

2. 醫學、科學與工程

醫學、科學與工程界的研究者正在快速收集大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。

然而,由於這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘所開發的技術可以幫助地球科學家回答如下問題:「乾旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯繫?」「海洋表面溫度對地表降水量和溫度有何影響?」「如何準確地預測一個地區的生長季節的開始和結束?」

再舉一個例子,分子生物學研究者希望利用當前收集的大量基因組數據,更好地理解基因的結構和功能。過去,傳統方法只允許科學家在一個實驗中每次研究少量基因,微陣列技術的最新突破已經能讓科學家在多種情況下比較數以千計的基因特性。

這種比較有助於確定每個基因的作用,或許可以查出導致特定疾病的基因。然而,由於數據的噪聲和高維性,需要新的數據分析方法。除了分析基因序列數據外,數據挖掘還能用來處理生物學的其他難題,如蛋白質結構預測、多序列校準、生物化學路徑建模和系統發育學。

另一個例子是利用數據挖掘技術來分析越來越多的電子健康記錄(EHR)數據。不久之前,對患者的研究需要手動檢查每一個患者的身體記錄,並提取與所研究的特定問題相關的、具體的信息。EHR允許更快和更廣泛地探索這些數據。

然而,只有患者在看醫生或住院期間才能對他們進行觀察,並且在任何特定訪問期間只能測量關於患者健康的少量細節,因此存在重大挑戰。

目前,EHR分析側重於簡單類型的數據,如患者的血壓或某項疾病的診斷代碼。然而,很多類型更複雜的醫學數據也被收集起來,例如心電圖(ECG)和磁共振成像(MRI)或功能性磁共振成像(fMRI)的神經元圖像。

儘管分析這些數據十分具有挑戰性,但其中包含了患者的重要信息。將這些數據與傳統的EHR和基因組數據集成分析是實現精準醫學所需的功能之一,旨在提供更加個性化的患者護理。

02 什麼是數據挖掘

數據挖掘是在大型資料庫中自動地發現有用信息的過程。數據挖掘技術用來探查大型資料庫,發現先前未知的有用模式。數據挖掘還可以預測未來的觀測結果,比如顧客在網上或實體店的消費金額。

並非所有的信息發現任務都被視為數據挖掘。例如查詢任務:在資料庫中查找個別記錄,或查找含特定關鍵字的網頁。這是因為這些任務可以通過與資料庫管理系統或信息檢索系統的簡單交互來完成。而這些系統主要依賴傳統的計算機科學技術,包括先進高效的索引結構和查詢處理算法,有效地組織和檢索大型數據存儲庫的信息。

儘管如此,數據挖掘技術可以基於搜索結果與輸入查詢的相關性來提高搜索結果的質量,因此被用於提高這些系統的性能。

資料庫中的數據挖掘與知識發現數據挖掘是資料庫中知識發現(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程,如圖1所示。該過程包括一系列轉換步驟,從數據預處理到數據挖掘結果的後處理。

▲圖1 資料庫中知識發現(KDD)過程

輸入數據可以以各種形式存儲(平面文件、電子表格或關係表),並且可以存儲在集中式資料庫中,或分布在多個數據站點上。預處理(preprocessing)的目的是將原始輸入數據轉換為適當的格式,以便進行後續分析。

數據預處理涉及的步驟包括融合來自多個數據源的數據,清洗數據以消除噪聲和重複的觀測值,選擇與當前數據挖掘任務相關的記錄和特徵。由於收集和存儲數據的方式多種多樣,數據預處理可能是整個知識發現過程中最費力、最耗時的步驟。

「結束循環」(closing the loop)通常指將數據挖掘結果集成到決策支持系統的過程。例如,在商業應用中,數據挖掘的結果所揭示的規律可以與商業活動管理工具結合,從而開展或測試有效的商品促銷活動。

這樣的結合需要後處理(postprocessing)步驟,確保只將那些有效的和有用的結果集成到決策支持系統中。後處理的一個例子是可視化,它使得數據分析者可以從各種不同的視角探査數據和數據挖掘結果。在後處理階段,還能使用統計度量或假設檢驗,刪除虛假的數據挖掘結果。

03 數據挖掘要解決的問題

前面提到,面臨大數據應用帶來的挑戰時,傳統的數據分析技術經常遇到實際困難。下面是一些具體的問題,它們引發了人們對數據挖掘的研究。

1. 可伸縮

由於數據產生和採集技術的進步,數太字節(TB)、數拍字節(PB)甚至數艾字節(EB)的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。許多數據挖掘算法採用特殊的搜索策略來處理指數級的搜索問題。為實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。

例如,當要處理的數據不能放進內存時,可能需要核外算法。使用抽樣技術或開發並行和分布式算法也可以提高可伸縮程度。

2. 高維性

現在,常常會遇到具有成百上千屬性的數據集,而不是幾十年前常見的只具有少量屬性的數據集。在生物信息學領域,微陣列技術的進步已經產生了涉及數千特徵的基因表達數據。具有時間分量或空間分量的數據集也通常具有很高的維度。

例如,考慮包含不同地區的溫度測量結果的數據集,如果在一個相當長的時間周期內反覆地測量,則維數(特徵數)的增長正比於測量的次數。為低維數據開發的傳統數據分析技術通常不能很好地處理這類高維數據,如維災難問題。此外,對於某些數據分析算法,隨著維數(特徵數)的增加,計算複雜度會迅速增加。

3. 異構數據和複雜數據

通常,傳統的數據分析方法只處理包含相同類型屬性的數據集,或者是連續的,或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大,越來越需要能夠處理異構屬性的技術。

近年來,出現了更複雜的數據對象。這種非傳統類型的數據如:含有文本、超連結、圖像、音頻和視頻的Web和社交媒體數據,具有序列和三維結構的DNA數據,由地球表面不同位置、不同時間的測量值(溫度、壓力等)構成的氣候數據。

為挖掘這種複雜對象而開發的技術應當考慮數據中的聯繫,如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子關係。

4. 數據的所有權與分布

有時,需要分析的數據不會只存儲在一個站點,或歸屬於一個機構,而是地理上分布在屬於多個機構的數據源中。這就需要開發分布式數據挖掘技術。分布式數據挖掘算法面臨的主要挑戰包括:

如何降低執行分布式計算所需的通信量?如何有效地統一從多個數據源獲得的數據挖掘結果?如何解決數據安全和隱私問題?5. 非傳統分析

傳統的統計方法基於一種假設檢驗模式,即提出一種假設,設計實驗來收集數據,然後針對假設分析數據。但是,這一過程勞力費神。當前的數據分析任務常常需要產生和評估數千種假設,因此需要自動地產生和評估假設,這促使人們開發了一些數據挖掘技術。

此外,數據挖掘所分析的數據集通常不是精心設計的實驗的結果,並且它們通常代表數據的時機性樣本(opportunistic sample),而不是隨機樣本(random sample)。

04 數據挖掘與其他領域的關聯

一些其他領域也起到重要的支撐作用。特別是,需要資料庫系統提供高效的存儲、索引和查詢處理。源於高性能(並行)計算的技術在處理海量數據集方面常常是非常重要的。分布式技術還可以幫助處理海量數據,並且當數據不能集中到一起處理時顯得尤為重要。圖2顯示了數據挖掘與其他領域之間的聯繫。

相關焦點

  • 終於有人把大數據講明白了
    01 大數據概念數據發展推動科技進步,海量數據給數據分析帶來了新的機遇和挑戰。大數據是一種強大到在獲取、存儲、管理、分析方面遠遠超出傳統資料庫軟體工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和較低的價值密度四大特徵。於是,我們需要新的處理模式來實現更強的數據處理能力以應對多樣化的信息資產。
  • #數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念)
    原標題:#數據挖掘##高階統計#「距離計算」(基因晶片數據挖掘基本概念) 餘弦相似度 這裡我將奉上最後一個公式:餘弦相似度。它在文本挖掘中應用得較多,在協同過濾中也會使用到。為了演示如何使用該公式,我們換一個示例。
  • 終於有人把數據中臺講明白了
    與數據湖的對比 與數據中臺相關的概念還有數據湖(Data Lake)。相比數據倉庫,BI還包含數據挖掘、數據可視化等工具,並可支持用戶在一定範圍內任意組合維度與指標,從而上升到支持決策的層面,而不只是作為數據倉儲。 4. 與大數據的對比 數據中臺也不等於大數據。
  • 大數據_數據挖掘技術分類及應用
    具體如下:   電子政務的數據挖掘   建立電子化政府,推動電子政務的發展,是電子信息技術應用到政府管理的必然趨勢。實踐經驗表明,政府部門的決策越來越依賴於對數據的科學分析。通過數據挖掘技術,可以讓企業的決策回歸到自己的業務中,得出更實際的判斷。   增值更容易,數據挖掘在呼叫中心中會有很多種應用,而且有些應用可以幫助簡化管理運營,有的則可以提供一些業務關聯性的數據,幫助企業呼叫中心更好地開展業務,實現增值。具體說來,增值應用表現在以下方面。分析客戶行為,進行交叉銷售。
  • 數據產品經理之數據分析與挖掘
    前面兩篇文章介紹了數據產品經理日常工作中必備的知識之常用的圖表設計(數據產品經理之圖表設計)和SQL語言(數據產品經理必備之SQL基礎 ),本篇文章講一講怎麼樣通過數據分析與挖掘從數據中獲取信息和發掘價值。
  • 什麼叫數據挖掘_數據挖掘技術解析
    下面著重討論一下數據挖掘中常用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳算法,聚集檢測,連接分析,決策樹,神經網絡,粗糙集,模糊集,回歸分析,差別分析,概念描述等十三種常用的數據挖掘的技術。   1、統計技術   數據挖掘涉及的科學領域和技術很多,如統計技術。
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》介紹了通過分析高維數據空間中的海量原始數據來提取用於決策的新信息的尖端技術和方法。《數據挖掘:概念、模型、方法和算法(第2版)/國外計算機科學經典教材》開篇闡述數據挖掘原理,此後在示例的引導下詳細講解起源於統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、前沿的挖掘方法和算法。書中還著重描述如何恰當地選擇方法和數據分析軟體併合理地調整參數。每章末尾附有複習題。
  • 數據挖掘技術在中醫證候學中的應用
    數據挖掘作為一種通用技術,可以應用於任何類型的數據,包括資料庫、數據倉庫、web信息以及其他信息存儲資料庫和動態的流入系統的數據等。1.2 常用的數據挖掘算法1.2.1 關聯規則  關聯分析用於發現隱藏在數據集中的有意義的聯繫,所發現的特徵變量之間的聯繫可以用關聯規則或頻繁項集的形式表示。
  • 數據挖掘的知識類型
    一、概念/類 描述概念/類描述就是通過對某類對象關聯數據的匯總,分析和比較,用匯總的簡潔的精確的方式對此類對象的內涵進行描述,並概括這類對象的有關特徵。概念描述分為:特徵性描述和區別性描述。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    大數據時代、人工智慧時代,機器學習、人工智慧、深度學習、集成學習……概念漫天飛,數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下「數據挖掘」,讓您能夠拋開概念了解本質!
  • 韓家煒Jiawei Han訪談錄(數據挖掘)
    他在研討班的講桌上放了一把日本軍刀,並說這是日本人的挑戰。他說日本人已經打算開發出一臺能夠支持高並行資料庫搜索和推理的機器(Prolog machine)。他還說我們必須應對這樣的技術挑戰。我對當時的情景印象非常深刻。從那時起,我確定了自己的研究方向。 問:對於數據挖掘來說,圍繞它的應用領域是什麼?
  • 深度解析數據挖掘在推薦系統中的應用
    在移動網際網路時代, 我們會接收到很多由推薦系統推薦過來的信息。比如在逛淘寶、京東時,你會看到「猜你喜歡」這樣的推薦商品; 刷今日頭條、抖音時會首選看推薦的新聞、短視頻,接收來自推薦系統的信息似乎已經成了一種習慣。實際上,在構建推薦系統的過程中會用到大量的數據挖掘算法。
  • XBRL層次結構與財務信息數據挖掘
    XML文檔描述的是信息內容,NS定義了信息內容的訪問地址標識,XML Schema則規定了文檔的語法格式;RDF提供了標準的元數據語義描述規範;而本體論(ontology)在RDFs基礎上定義了領域共享概念的形式化顯式說明,Ontology一般分為頂層本體、領域本體、任務本體、應用本體;邏輯層則(Logic)提供了基於本體進行邏輯推理的規則,它目前有SWRL(Semantic Web Rule Language
  • 數據分析最常用的18個概念,終於有人講明白了
    導讀:大多數情況下,數據分析的過程必須包括數據探索的過程。數據探索可以有兩個層面的理解:一是僅利用一些工具,對數據的特徵進行查看;二是根據數據特徵,感知數據價值,以決定是否需要對別的欄位進行探索,或者決定如何加工這些欄位以發揮數據分析的價值。欄位的選取既需要技術手段的支撐,也需要數據分析者的經驗和對解決問題的深入理解。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    [3] 這次講習班還邀請到了數據挖掘領域中的另一位巨擘:Philip S Yu。Philip 教授在報告中詳細講解了他多年來所倡導的「廣度學習」(Broad Learning)的概念和方法,並用三個相關的研究案例來說明如何將深度學習和廣度學習結合起來使用。(詳細內容可參考我們之前的報導內容《Philip S.
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • 文本挖掘從小白到精通(一):語料、向量空間和模型的概念
    本文給大家介紹幾個在使用gensim進行文本挖掘所需了解的基本概念和術語,並提供一些簡單的用法示例。enjoy~筆者最近在梳理自己的文本挖掘知識結構,藉助gensim、sklearn、keras等庫的文檔做了些擴充,希望在梳理自身知識體系的同時也能對想學習文本挖掘的朋友有一點幫助,這是筆者寫該系列的初衷。
  • 從公安大數據業務切入,挖掘更多數據價值:明略數據完成 2 億元 B...
    大數據概念在國內炒的過熱,落地大數據應用的產品並不多。原因一方面在於底層數據的非結構化存儲,數據挖掘技術難度大;另一方面在於數據挖掘多樣化模型建立的技術難度。從it時代到DT時代,大家都在談大數據概念而無法落地,而一旦系統應用到具體場景,完成大量非結構化的數據存儲和挖掘的工作,大數據領域可能是座金礦。
  • 數據挖掘與統計分析的區別
    既然象上面的一些從數據獲取知識的課題和統計學的關係如此冷淡,我們不禁要問:`什麼不是統計學`。如果和數據聯繫並不是一個課題成為統計學一部分的充分理由,那麼什麼才是充分的呢?到目前為止,統計學的定義好象依賴於一些工具,也就是我們在當前的研究生課程中講授的那些東西。