清華178頁深度報告:一文看懂AI數據挖掘

2020-12-05 手機鳳凰網

數據挖掘(Data Mining)是一門跨學科的計算機科學分支,它用人工智慧、機器學習、統計學和資料庫的交叉方法,在大規模數據中發現隱含模式,在零售、物流、旅遊等行業有著廣泛應用場景。

在數據爆炸的時代裡,如何利用手中數據資源提高行業效率、提高行業質量,成為了眾多企業決策者所關注的問題,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、阿里、百度等科技巨頭的追捧。

本期的智能內參,我們推薦來自清華大學人工智慧研究院、北京智源人工智慧研究院、清華-工程院知識智能聯合研究中心聯合推出的人工智慧數據挖掘報告,詳細解讀了數據挖掘技術應用領域、研究概念、算法實現、與發展趨勢。如果想收藏本文的報告(清華AMiner-人工智慧之知識圖譜),可以前往AMiner官網(https://www.aminer.cn/research_report/5c3d5a5cecb160952fa10b76?download=true)獲取下載。

以下為智能內參整理呈現的乾貨:

數據挖掘與KDD

數據挖掘(Data Mining),是指從大量的數據中自動搜索隱藏於其中的有著特殊關係性的數據和信息,並將其轉化為計算機可處理的結構化表示。

目前數據挖掘的主要功能包括概念描述、關聯分析、分類、聚類和偏差檢測等,用於描述對象內涵、概括對象特徵、發現數據規律、檢測異常數據等。

一般來說,數據挖掘過程有五個步驟:確定挖掘目的、數據準備、進行數據挖掘、結果分析、知識的同化

▲數據挖掘過程基本步驟

1、確定挖掘目的

認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最後結果是不可預測的,但要探索的問題應是有預見的。

2、數據準備

數據準備又分為三個階段:

1)數據的選擇:搜索所有與目標對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據;

2)數據的預處理:研究數據的質量,為進一步的分析做準備,並確定將要進行的挖掘操作的類型;

3)數據的轉換:將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。

3、進行數據挖掘

對得到的經過轉換的數據進行挖掘。

4、結果分析

解釋並評估結果,其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。

5、知識的同化

將分析所得到的知識集成到所要應用的地方去。

▲數據挖掘的分類表

如上圖所示,數據挖掘有多種分類方式,可以按照挖掘的資料庫類型、挖掘的知識類型、挖掘所用的技術類型進行分類。

同時,數據挖掘也可以按照行業應用來進行分類,比如生物醫學、交通、金融等行業都有其獨特的數據挖掘方法,不能做到用同一個數據挖掘技術應用到各個行業領域

數據挖掘是知識發現(KDD)的一個關鍵步驟。1989年8月,Gregory I. Piatetsky- Shapiro等人在美國底特律的國際人工智慧聯合會議(IJCAI)上召開了一個專題討論會(workshop),首次提出了知識發現(Knowledge Discovery in Database,KDD)這一概念。

▲數據挖掘是知識發現的過程之一

KDD涉及資料庫、機器學習、統計學、模式識別、數據可視化、高性能計算、知識獲取、神經網絡、信息檢索等眾多學科和技術的集成,再後來的30年間KDD逐漸形成了一個獨立、蓬勃發展的交叉研究領域。

早期比較有影響力的發現算法有:IBM的Rakesh Agrawal的關聯算法、UIUC大學韓家煒(Jiawei Han)教授等人的FP Tree算法、澳大利亞的John Ross Quinlan教授的分類算法、密西根州立大學Erick Goodman的遺傳算法等等。

目前,數據挖掘已經引起國際、國內工業界的廣泛關注,IBM、谷歌、亞馬遜、微軟、Facebook、阿里巴巴、騰訊、百度等都在數據挖掘研究方面進行了應用與理論研究。

國際知識發現與數據挖掘大會(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,簡稱SIGKDD)是數據挖掘領域的頂級國際會議,由ACM的數據挖掘及知識發現專委會負責協調籌辦,會議內容涵蓋數據挖掘的基礎理論、算法和實際應用。

數據挖掘源於商業的直接需求

數據挖掘技術從一開始就是面向應用的,源於商業的直接需求。目前數據挖掘在零售、旅遊、物流、醫學等領域都有所應用,可以大大提高行業效率和行業質量。

舉個例子,零售是數據挖掘的主要應用領域之一。這是因為由於條形碼技術的發展使得前端收款機系統可以收集大量售貨、顧客購買歷史記錄、貨物進出狀況、消費與服務記錄等數據。

數據挖掘技術有助於識別顧客購買行為,發現顧客購買模式和趨勢,改進服務質量,取得更高的顧客保持力和滿意程度,減少零售業成本。

同時,同一顧客在不同時期購買的商品數據可以分組為序列,序列模式挖掘可用於分析顧客的消費或忠誠度的變化,據此對價格和商品的花樣加以調整和更新,以便留住老客戶,吸引新客戶。

與此同時,社交網絡也是數據挖掘研究中的熱門領域,比如新浪微博就是擁有海量數據的資訊平臺。

截止到2017年12月,新郎微博已擁有接近4億活躍用戶,內容存量超千億,「大V」的一舉一動和社會熱點話題都會引起大量的評論與轉發,掀起一股「數據風暴」。

▲柯潔烏鎮大戰AlphaGo撼負後的微博熱議

微博上每個用戶的言論、轉發內容等都蘊藏著用戶個人的興趣、話題等信息,文字內容本身的智能分析理解也是數據分析領域長久以來孜孜不倦追求的目標。

社會網絡中的聚類被稱為社區發現,許多精心設計的高效算法可以很好地處理上億用戶的大規模網絡。

針對微博用戶的海量數據,對其進行數據描述性可以分析群體的年齡、性別比例、職業等;對於平均數、中位數、分位數、方差等統計指標可以幫助我們粗略了解數據分布;回歸分析、方差分析等方法則可以解釋年齡、職業等因素是否會影響用戶對某熱門話題的關注程度。

此外,數據挖掘在旅遊、物流、醫學等領域都有著廣泛的應用場景。比如數據挖掘可以對旅遊客流的趨向有著準確的預知性,同時對於遊客的喜好也有著直接性的掌握;從醫學數據中尋找潛在的關係或規律,可以獲得對病人進行診斷、治療的有效知識,增加對疾病預測的準確性等。

人工智慧與數據挖掘

數據挖掘從一個新的視角將資料庫技術、統計學、機器學習、信息檢索技術、數據可視化和模式識別與人工智慧等領域有機結合起來,它組合了各個領域的優點,因而能從數據中挖掘到運用其他傳統方法不能發現的有用知識。

一般來說,統計特徵只能反映數據的極少量信息。簡單的統計分析可以幫助我們了解數據,如果希望對大數據進行逐個地、更深層次地探索,總結出規律和模型,則需要更加智能的基於機器學習的數據分析方法。

所謂「機器學習」,是基於數據本身的,自動構建解決問題的規則與方法。數據挖掘中既可以用到非監督學習方法,也可以用到監督學習方法。

1、非監督學習

非監督學習是建立在所有數據的標籤,即所屬的類別都是未知的情況下使用的分類方法。對於特定的一組數據,不知道這些數據應該分為哪幾類,也不知道這些類別本來應該有怎樣的特徵,只知道每個數據的特徵向量。若按它們的相關程度分成很多類,最先想到的想法就是認為特徵空間中距離較近的向量之間也較為相關,倘若一個元素只和其中某些元素比較接近,和另一些元素則相距較遠。

這時候,我們就希望每一個類有一個「中心」,「中心」也是特徵向量空間中的向量,是所有那一類的元素在向量空間上的重心,即他的每一維為所有包含在這一類中的元素的那一維的平均值。如果每一類都有這麼一個「中心」,那麼我們在分類數據時,只需要看他離哪個「中心」的距離最近,就將他分到該類即可,這也就是K-means算法的思路。

K-means算法,在1957年由Stuart Lloyd在貝爾實驗室提出,最初用於解決連續的圖區域劃分問題,1982年正式發表。1965年,E.W.Forgy發明了Lloyd-Forgy or。James MacQueen在1967年將其命名為K-means算法。

上圖是以隨機生成的數據點為例,k=3的K-means算法的迭代過程,其中五角星為聚類中心,點的顏色是其類別。在實際應用中,為了獲得一個比較好的特徵空間,使得「數據之間的相似性與他們在特徵空間上的距離有關,距離越近越相似」這句話儘可能成立,我們往往會構建模型來把原數據變換到這麼一個特徵空間,然後使用K-means算法來進行分類。

2、監督學習

不同於非監督學習,若已知一些數據上的真實分類情況,現在要對新的未知的數據進行分類。這時候利用已知的分類信息,可以得到一些更精確的分類方法,這些就是監督學習方法。

1)決策樹模型

所謂決策樹,即是一種根據條件來進行判斷的邏輯框架。其中,判斷的條件,即提出有區分性的問題,以及對於不同的回答下一步的反映,以及最終的決策給出標籤。

決策樹算法:

1.選取包含所有數據的全集為算法的初始集合A0:

2.對於當前的集合A,計算所有可能的「問題」在訓練集上的F(A,D):

3.選擇F(A,D)最大的「問題」,對數據進行提問,將當前的集合由「問題」的不同回答,劃分為數個子集;

4.對每個子集,重複b、c,直到所有子集內所有元素的類別相同;

5.在實際應用中,數據往往有很多特徵,因此,「問題」往往是選取數據的某一特徵,而「回答」則是此特徵對應的值。

在決策樹中,效度函數F(A,D)的選擇非常重要。決策樹的發展歷史,也基本是圍繞著F(A,D)的優化而展開。

2)kNN算法

只知道每個數據在特徵空間下的特徵向量情況下,可以對數據採用無監督分類方法K-means。如果我們擁有了其中一部分數據的標籤,我們就可以利用這些標籤進行kNN分類。

數據之間的相似性與他們在特徵空間上的距離有關。距離越近越相似,越可能擁有相同的標籤。

假設我們已經有了很多既知道特徵向量也知道具體標籤的數據對於新的只知道特徵向量卻不知道具體標籤的數據,我們可以選取離這個特徵向量最近的k個已經知道標籤的數據,然後選取他們中間最多的元素所屬於的那個標籤,作為新數據的預測標籤。也可以根據他們與新數據的特徵向量之間的距離加權(如最近得5分,第二近得4分等),取權重總和最大的標籤作為預測標籤。

kNN算法不需要構建模型或者訓練,和K-means算法一樣,往往是和某個構建特徵空間的模型一起使用。

此外,還有回歸分類、神經網絡、樸素貝葉斯分類等等。

巨頭們的數據挖掘之路

在當下,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、微軟、百度、阿里、騰訊等科技巨頭的追捧。

1、谷歌

谷歌幾乎每年都會發表一些讓人驚豔的研究工作,包括之前的MapReduce、Word2Vec、BigTable,近期的BERT。數據挖掘是谷歌研究的一個重點領域。

2018年穀歌全球不同研究中心在數據挖掘頂級國際會議KDD上一共發表了7篇文章。

2、亞馬遜

亞馬遜公司近幾年發展勢頭超級猛,前幾年華麗的轉身:從一個網上商店公司變為雲平臺公司再轉變到目前的人工智慧公司,亞馬遜也在數據挖掘領域開始佔有一席,尤其是在人才網羅、開源、核心技術研發。

2018年亞馬遜在數據挖掘頂級國際會議KDD的Applied Data Science Track(應用數據科學Track)上一共發表了2篇文章,另外還有兩個應用科學的邀請報告。

3、微軟

微軟是老牌論文王國,一直以來都在學術界特別活躍,因此在KDD上每年和微軟有關的論文非常多,因此這裡只統計了微軟作為第一作者的文章。

2018年在數據挖掘頂級國際會議KDD上一共發表了6篇文章,另外還有一個應用科學的邀請報告,這些文章和報告都更多的從大數據的角度在思考如何更有效,更快速的分析。

4、阿里巴巴

阿里巴巴在電子商務方面做了大量的數據挖掘研究。尤其是在表示學習和增強學習做了幾個很有意思的工作。

2018年阿里巴巴在數據挖掘頂級國際會議KDD上作為第一作者單位一共發表了8篇文章。

5、騰訊

2018年騰訊在數據挖掘頂級國際會議KDD上作為第一作者單位一共發表了2篇文章。

6、百度

2018年百度在數據挖掘頂級國際會議KDD上作為第一作者單位一共發表了2篇文章。

大數據與數據挖掘

大數據是近年隨著網際網路、物聯網、通信網絡以及人類社交網絡快速發展的結果,成為一個交叉研究學科,和數據挖掘緊密相連。

大數據的迅速發展也使得數據挖掘對象變得更為複雜,不僅包括人類社會與物理世界的複雜聯繫,還包括呈現出的高度動態化。這使得很多傳統數據挖掘算法不再適用,傳統數據挖掘算法必須滿足對真實數據和實時數據的處理能力,才能從大量無序數據中獲取真正價值。

一方面大數據包含數據挖掘的各個階段,即數據收集、預處理、特徵選擇、模式挖掘、表示等;另一方面大數據的基礎架構又為數據挖掘提供上層數據處理的硬體設施。

▲大數據處理平臺技術架構圖

從技術架構角度,大數據處理平臺可劃分為4個層次:數據採集層、數據存儲層、數據處理層和服務封裝層。

除此之外,大數據處理平臺一般還包括數據安全和隱式保護模塊,這一模塊貫穿大數據處理平臺的各個層次。

智東西認為,隨著大數據時代的來臨,各行各業所積累的數據呈爆炸式增長,數據挖掘在各個領域的需求將會越來越強烈,與各個專業領域的結合也將會越來越廣泛。無論是在科學領域還是工程領域、理論研究還是現實生活中,數據挖掘都將有著極為廣闊的發展前景。

相關焦點

  • 深度報告:一文看懂生物晶片產業【附下載】
    深度報告:一文看懂生物晶片產業【附下載】 2020-06-30 14:26 來源:澎湃新聞·澎湃號·湃客
  • 一文讀懂深度學習中的矩陣微積分,fast.ai創始人&ANTLR之父出品
    這位ANTLR之父和fast.ai創始人Jeremy Howard一起推出了一篇免費教程,旨在幫你快速入門深度學習中的矩陣微積分。簡明,易懂。DeepMind研究科學家Andrew Trask評價說:如果你想跳過不相干的內容,一文看盡深度學習中所需的數學知識,那麼就是這份資源沒錯了。只需一點關於微積分和神經網絡的基礎知識,就能單刀直入,開始以下的學習啦。
  • 【深度好文】一文看懂中國霧霾的成因、危害和解決方案
    【深度好文】一文看懂中國霧霾的成因、危害和解決方案北極星大氣網訊:今天是帝都發布空氣重汙染紅色預警的第二天。其實,通過提前預測預警來加強局地汙染控制,是可以在一定程度上減輕北京等地區的大氣汙染。例如,北京奧運會時段採取了單雙號黃標車限行等措施,該時段的大氣汙染物粒子就非常少,本文有更詳細的論述。
  • 微信、微博數據這麼多,如何從中挖掘潛在信息? | CCF-ADL 87期
    12月22日-24日,由中國計算機學會(CCF)主辦的第87期CCF學科前沿講習班(CCF-ADL)將以《社交網絡和數據挖掘》為主題,邀請數位來自國內外該領域重量級的專家學者對這些問題做一系列主題報告。雷鋒網作為獨家合作媒體,也將到場聆聽大牛分享,並對講習班內容進行全程報導。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    大數據時代、人工智慧時代,機器學習、人工智慧、深度學習、集成學習……概念漫天飛,數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下「數據挖掘」,讓您能夠拋開概念了解本質!
  • 華為雲獲DigSci科學數據挖掘大賽冠軍
    近日,華為雲在論文匹配檢索領域取得進展,基於自然語言處理領域的領先技術積累,華為雲語音語義創新Lab在DigSci科學數據挖掘大賽上奪冠,精準率超過第二名5個百分點。DigSci科學數據挖掘大賽比賽是清華AMiner、智源實驗室、微軟聯合舉辦的學術論文搜索匹配大賽,屬於語義匹配檢索領域,旨在從學術材料中挖掘知識。
  • 產業報告 一文看懂中國光伏組件技術發展(雙面/MBB/半片/疊瓦/背板...
    產業報告 一文看懂中國光伏組件技術發展(雙面/MBB/半片/疊瓦/背板等)北極星太陽能光伏網訊:(來源:公眾號摩爾光伏)原標題:一文看懂中國光伏組件技術發展
  • 燈光設計之讓小白也能看懂DIALUX照度計算報告
    燈光設計之讓小白也能看懂DIALUX照度計算報告不管是設計師還是業主,基本會收到一份DIALUX的照度計算報告,但很多人基本看不懂是什麼,只覺得是一堆數據,今天讓小編給你們答疑。空間摘要這是報告的第二頁,空間一哪裡是燈具定位圖,上面還有數字,從上往下依次是1-28,總共有28個燈具,下面的表格是橫坐標是編號,X,Y軸,這些數值表示是坐標軸上離原點的位置,安裝高度是2.8m,維護係數0.8。
  • CB Insights:2017全球AI企業100強(附下載) | 網際網路數據資訊網...
    Deep InstinctDeep Instinct 是第一家將深度學習應用於網絡安全的公司,旨在利用深度學習為任何設備、任何平臺和作業系統提供全面的保護。33. Deepgram利用深度學習挖掘並分析語音數據的初創公司。34.
  • 清華超級學霸每周讀3000頁英文文獻?知乎網友集體質疑
    除了集體膜拜學習學霸之外,也有人開始質疑答辯會裡的一個小細節:現場有一位清華大學人文學院主修歷史的候選人,宣稱自己每周英文文獻閱讀量超過3000頁。清華大學官方微信推送一開始是微博上有人質疑,這有點誇張。之後關於每周讀3000頁英文文獻是否可能的討論,登上了知乎熱榜前三。這個話題為什麼會引起爭議?讓我們從頭來捋一捋。
  • 智譜AI首席科學家唐傑團隊獲數據挖掘頂會時間檢驗應用科學獎
    ArnetMiner(以下簡稱AMiner)指的是一個通過挖掘學術社交網絡來索引結果的平臺類學術搜索工具,該工具可以提取網絡中研究者資料,再通過集成數字圖書館,並對整個學術網絡進行建模,最終構建出了完整的學術搜索工具。根據論文的介紹,AMiner在10年前就已經標記了448470個研究者檔案以供搜索。
  • Tableau 157億收購背後,50頁深度報告看清BI的未來
    這個BI平臺既能在功能上滿足業務需要,同時業務人員又方便操作,才能實現工具與業務的深度融合。傳統數據分析過程與業務需求的割裂造成了數據驅動的第一障礙。以傳統數據分析工具SPSS為例,其提供了豐富統計分析模型和統計分析報告,但報告的分析結果僅僅是對統計模型的解釋而不是對業務的解釋。
  • 吳信東:數據挖掘算法的經典與現代
    其中,明略科技首席科學家、明略科學院院長吳信東做了題為《數據挖掘算法回顧:經典與現代》報告,總時長為1個小時左右,內容主要分為三個部分:數據挖掘中代表性的領域、數據挖掘的經典算法、2006年之後的現代數據挖掘技術。下文是本場報告的文字版,由 AI 科技評論編輯。
  • 【報告】華為的通信技術殺手鐧之一:一文看懂光通信
    通信行業5G之光通信篇:通信,信息傳輸的終極方案》 (完整版.pdf ) 以下僅展示部分內容 全球數據量以指數級快速增長,光通信技術成為解決數據爆發式增長的終極方案
  • 一文看懂MSDS
    MSDS是Material Safety Data Sheet的簡稱,國際上稱作化學品安全說明書(也稱為:物質安全數據表、化學品安全信息卡
  • 晶圓製造又一投資窗口:一文看懂國產拋光液/墊機遇【22頁】
    中信建投發布的《拋光液墊,CMP工藝關鍵耗材》介紹了CMP工藝的市場現狀和龍頭企業,具體如下:一、拋光液、拋光墊——CMP 主要耗材,半導體製造的剛性需求 四、Cabot Microelectronics:全球拋光液龍頭 六、安集微電子:步步為營,逐步成長為國內拋光液龍頭 七、鼎龍股份:技術實力紮實,打造國內拋光墊第一廠商 九、風險提示 以下是本報告部分內容,本報告共22頁,完整報告可在公眾號回復
  • 《人工智慧之表示學習》報告重磅發布:AI未來發展方向與前景
    導讀:近日,由清華大學人工智慧研究院、北京智源人工智慧研究院和清華-中國工程知識智能聯合研究中心編寫的《人工智慧之表示學習》報告正式發布。該報告主要從概念、理論模型、領域人才、技術趨勢等4個部分,介紹知識表示學習的技術發展和研究最新進展,並展望該技術的未來發展方向與前景。
  • 清華機器學習科學家李建:如何用深度學習來解析時空大數據?
    如果大家對深度學習有一點了解,做圖像識別是需要用CNN(卷積神經網絡)的,主要挖掘的就是空間的多變性,所以時空大數據是跟圖像識別有共通的。還有一個時間的屬性,RNN,也就是遞推神經網絡處理序列的數據。同時包含時間和空間的這兩個屬性,就對時空大數據提出很多新的挑戰。同時,另一個時空大數據的特點是有很多類型的數據。
  • 機器之心Pro上線:盯動態、找標的、做調研,AI 信息數據一站全
    但由於龐雜的信息源和信息質量的層次不齊,你經常會遇到以下問題:跟蹤技術突破和行業動態時,置頂了 N 個公眾號,收藏了 N 家媒體網站,瀏覽了 N 頁 arXiv,在大量頁面的跳轉中尋找自己所需信息——結果是大量查找一上午,有效閱讀 一刻鐘。
  • 清華奪CSR高校AI綜合排行亞軍,北大單項力壓CMU
    全球院校計算機科學領域實力排名開源項目CSRankings,更新了2018年的最新數據。根據該項目的最新排名: 計算機科學整體排名前十,幾乎被美國老牌高校霸榜,中國僅清華排到第十位。