「死磕」底層數據技術|明略科技的數據縱橫

2020-12-04 雷鋒網

什麼是大數據?《大數據時代》的作者舍恩伯格認為,大數據並不能定義—個確切的概念。大數據是人們獲得新的認知,創造新的價值的源泉,大數據是改變市場、組織機構,以及政府和公民關係的方法。

這是更具有人文色彩和社會意義的詮釋。顯然,也更加清楚地指明了大數據帶來的思維變革、商業變革和管理變革。

換句話說,數據給我們帶來了兩個重要的改變:更多信息、更少成本。

大數據帶來變革的同時,也對數據處理的底層技術有著更高的要求。只有找到如何管控越來越多數據的方法,才能實現數據價值最大化。

雖然,目前各行各業對大數據的研究比較火熱,但對於大數據治理的研究還處於起步階段。這尤其體現在對於數據治理沒有統一的定義。

例如,IBM對於數據治理的定義是:「數據治理是一種質量控制規程,用於在管理、使用、改進和保護組織信息的過程中添加新的嚴謹性和紀律性。」DGI 則認為數據治理是指在企業數據管理中分配決策權和相關職責。

拋開宏觀定義不談,如果大數據技術能夠探索清楚,那麼從微觀反推宏觀,顯然也使定義更加清晰。

數據處理技術:微觀的定義,宏觀的把握

在大數據時代,一切數據都是有意義的。因為通過數據採集、數據存儲、數據管理、數據分析與挖掘、數據展現等,我們可以發現很多有用的或有意思的規律和結論。

比如,上海交通刷卡信息,分析這些刷卡記錄,可以清晰了解上海市民的出行規律,來有效改善城市交通。

但這些出行數據,不是想用就能用的,需要通過「存儲」「計算」「智能」來對數據進行加工和支撐,從而實現數據的增值。

而在這其中,最關鍵的問題不僅在數據技術本身,也在於是否實現兩個標準:第一,數據記錄,是否足夠多,足夠有價值;第二,是否找到適合的數據技術的業務應用。

大數據處理技術大致可以分為五個部分:大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

以上五個部分的概念,在學術界和工業界有不同的理解。2014 年,數據挖掘大牛吳信東等人從另一個角度探索了大數據處理技術的框架——基於大數據具有異構、自治的數據源以及複雜和演變的數據關聯等本質特徵提出了 HACE 原理,該原理從大數據的數據處理、領域應用以及數據挖掘三個層次來刻畫大數據處理框架。

吳信東現任明略科技集團首席科學家和明略科學院院長,對數據挖掘(Data Mining)、大數據知識工程(BigKE)等領域有很深的認識。

吳信東聯合董丙冰,堵新政,楊威等人在軟體學報上發表了《數據治理》一文,介紹數據治理和大數據治理的概念、發展以及應用的必要性,其次對已有的數據治理技術——數據規範、數據清洗、數據交換和數據集成進行具體的分析,並介紹了數據治理成熟度和數據治理框架設計。

「HAO 治理」模型架構圖

此外,在這個基礎上明略提出了大數據「HAO 治理」模型,該模型以支持人類智能(HI)、人工智慧(AI)和組織智能(OI)三者協同為目標。

總體來說,HAO能實現四個需求:

1.建立全面、動態、可配置的數據接入機制,滿足數據採集、數據匯聚、任務配置、任務調度、數據加密、斷點續傳等需求。

2. 建立標準化的數據處理流程,形成面向數據內容的數據規範、清洗、關聯、比對、標識等轉換處理規範模式,為一個組織的數據融合建庫提供支撐。

3. 統籌建設多元集成、融合建庫的數據組織模式,按照業務類型、敏感程度、隱私內容等關鍵要素分級分類推進雲建庫和存儲管理,採用特徵標籤、歸一集成等多種手段實現不同來源數據資源關聯融合。

4. 構建知識圖譜分類,建設多渠道、多維度的數據服務模式,面向使用者提供查詢檢索、比對排序等基礎數據服務,面向專業人員提供挖掘分析、專家建模等智能數據服務。

此文是大數據領域的集大成之作。從另一個層面講,明略科技用從實踐和理論證明了構建大數據處理技術的實力。

數據中臺:數據處理技術的衡量指標

隨著數據處理技術越來越成熟,當前業界和學界也提出了可以衡量企業底層數據處理技術的"指標":數據中臺。

關於數據中臺尚沒有統一且規範的定義,近日,吳信東在《自動化學報》的最新一篇文章中,基於數據共享和數據價值最大化的原則,將數據中臺定義為:將一個機構 (企業、事業、或政府部門) 的數據作為戰略資產進行管理,是從數據收集到處理應用的一套管理機制,以期提高數據質量,實現廣泛的數據共享,最終實現數據價值最大化。數據中臺建設覆蓋數據的邏輯管理和物理管理,邏輯管理包括數據結構的設計和數據之間相關性的分析,如數據倉庫;物理管理包括數據的存儲和檢索。

基於以上定義,明略科技將數據中臺的核心可以歸納為「數據資產管理」。其核心功能大概可以歸納為7個部分:

1. 數據的物理管理: 包括多源數據的採集、匯聚、存儲、索引和檢索。

2. 數據的邏輯管理: 包括: a)數據治理;b)數據之間的層次建模和相關性分析;

3.數據服務: 用數據實現多樣化的用戶服務。

4.知識圖譜建設: 融入機構的知識體系和組織智能, 用以界定數據的來源和數據的服務範圍.

5. 數據資產管理: 對數據對象和數據服務進行價值定義、保護、組織和管理, 實現數據價值的最大化。

6.客戶關係管理: 採集和分析用戶對數據和數據服務的使用行為, 理解和進一步服務用戶的需求。

7.信息安全: 保證中臺上的數據和服務在物理層和邏輯層都是安全的。

顯然,明略科技的數據中臺,在融合數據的基礎上,更要關注是否能夠積累和沉澱行業知識,將數據智能和組織智能融合,形成行業智能,更敏捷更快速的響應前端業務的變化,更好的協作創新。

當前關於數據中臺建設尚處於起步階段, 面臨著技術不成熟、框架驗證標準不一、技術人員缺乏等困難和挑戰。

這向企業發出了數據中臺的「破局」之問:「怎樣建設數據中臺才能滿足現實需求」。吳信東在《自動化學報》中提到,必須根據數據特點和應用需求調整各個模塊的具體實現。

例如, 在物流領域的數據中臺建設中, 面對數據維度高、數據類型複雜、數據量大、實時數據採集困難等問題, 需要有高性能的數據分析和計算平臺, 會給現有數據中臺建設的技術帶來很大的挑戰。

根據吳信東提到的原則,回過頭來看明略科技歸納的數據中臺7大核心功能,能夠回答數據中臺的「破局」之問。這7個核心功能能夠讓「從業者」看到三個前景:

1、實現機構數據資產的高效管理和數據價值最大化: 在爆炸式數據增長的時代, 海量數據的存儲、管理和價值的實現是企業面對的一個主要問題, 數據中臺可望能夠有效地盤活機構數據資源, 將其轉化為數據資產, 通過更貼近業務數據服務 API 實現數據價值的最大化。

2. 能夠迅速根據時代變化調整機構的發展方向和快速創新相應用戶需求: 數據中臺是一個完整的數據服務體系, 為機構帶來了數據平臺化的運營機制, 可望解決應用開發與數據開發速度不匹 配的問題, 因而, 數據中臺為一個機構根據時代發展要求調整機構的戰略提供了契機。

3. 提升機構內團隊協作能力: 原始機構的業務各自發展, 可能導致出現煙囪式應用開發和數據孤島等問題, 數據中臺的出現, 可以將機構的核心技術或團隊凝聚在一起, 建設機構內強大的數據開發、運營等團隊, 提升機構的團隊的硬實力和軟實力。

行業應用:數據中臺的「鍊金石」

產業應用的背後,都是底層技術的支撐。底層技術越雄厚,行業應用越「熟練」。

而數據中臺,這一需要理論技術和實踐相結合的領域更是如此。例如:

在電力行業,明略科技幫助某省國網建設自己的數據中臺。打通了136個業務系統,接入了6300多張報表,2800多億條數據。將各個業務系統實現數據打通、數據共享,構建了具有貼源層、明細層、匯總層、集市層四層架構的數據倉庫,支撐起全省數據服務。設計了15類實體、16種關係、68個屬性,通過從不同來源不同的結構數據中進行知識抽取,形成知識存入到知識圖譜,並服務於諸如停電範圍自動計算等電力行業實際工作。工作人員只需要輸入需要計劃性維護、排故的臺區,根據設備依賴關係精確計算出停電範圍。此外,明略科技還在業務側研發了智能問答助手,巡視人員通過智能問答助手就可以了解輸電線路故障解決方案。

圖註:智慧零售中臺解決方案

在零售行業,明略科技的智慧零售中臺,能緊緊把握住數據特點和應用需求,打造柔性供應鏈,實現拉動式生產;打通信息壁壘,協同企業各部門高效運轉;以顧客為中心,個性化精準營銷;以數據為依託,輔助企業智能決策;協助企業快速響應並融入創新市場。

營銷領域,明略科技的營銷數據中臺,能夠全方位的幫助企業實現數據整合、數據治理、數據建模和數據服務化,涵蓋 DMP 和 CDP 所有功能,並能基於企業對於數據的管理需求和商業化應用方向給予定製化支持。助力企業實現基於智能營銷和消費者智能運營及管理的數據管理、洞察分析和決策支持、數據激活、數據沉澱及數據閉環管理和應用等全方位營銷數位化體系。

明略的數據野望:縱橫兼顧

判斷一個企業的數據治理技術的底蘊,關鍵要看這個企業的對數據中臺這一新興概念的理解。

明略科技在中臺上的優勢,恰恰在於,其本身就是大數據的軟體產品、平臺和智能服務商。基於自身定位,恰好能實現上下銜接,將業務著眼於數據價值的挖掘和應用。

在更多行業領域,通用能力需要橫向遷移,而新領域的行業知識和專家經驗,需要用做數據治理的經驗,再去逐漸匹配行業。

顯然,在這一點上,明略科技也很明確自己的方向。雷鋒網雷鋒網雷鋒網

相關焦點

  • 「死磕」底層數據技術 | 明略科技的數據縱橫
    2014 年,數據挖掘大牛吳信東等人從另一個角度探索了大數據處理技術的框架——基於大數據具有異構、自治的數據源以及複雜和演變的數據關聯等本質特徵提出了 HACE 原理,該原理從大數據的數據處理、領域應用以及數據挖掘三個層次來刻畫大數據處理框架。吳信東現任明略科技集團首席科學家和明略科學院院長,對數據挖掘(Data Mining)、大數據知識工程(BigKE)等領域有很深的認識。
  • 從公安大數據業務切入,挖掘更多數據價值:明略數據完成 2 億元 B...
    大數據概念在國內炒的過熱,落地大數據應用的產品並不多。原因一方面在於底層數據的非結構化存儲,數據挖掘技術難度大;另一方面在於數據挖掘多樣化模型建立的技術難度。從it時代到DT時代,大家都在談大數據概念而無法落地,而一旦系統應用到具體場景,完成大量非結構化的數據存儲和挖掘的工作,大數據領域可能是座金礦。
  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    7 月 11 日,在 2020 WAIC 世界人工智慧大會上,明略科技 HAO 圖譜,作為目前世界上第一個語音實時生成圖譜的企業級知識圖譜開發工具包,首次公開亮相,成功入圍了大會最高獎項 SAIL 獎(Super AI Leader)TOP30 的項目及 2020 年度 SAIL 榜單。
  • 明略科技榮獲第十屆吳文俊人工智慧科學技術發明一等獎
    近日,2020年度第十屆吳文俊人工智慧科學技術獎獲獎名單公示,明略科技憑藉知識圖譜自動構建及行業應用的成果獲人工智慧技術發明一等獎。此前,明略科技在2018年被授予第八屆吳文俊人工智慧科技進步獎。時隔2年再獲殊榮,與明略科技在大數據和人工智慧技術領域沉澱的研發實力和產業洞察息息相關。
  • 明略科技榮獲第十屆吳文俊人工智慧科學技術發明一等獎_發現頻道...
    近日,2020年度第十屆吳文俊人工智慧科學技術獎獲獎名單公示,明略科技憑藉知識圖譜自動構建及行業應用的成果獲人工智慧技術發明一等獎。此前,明略科技在2018年被授予第八屆吳文俊人工智慧科技進步獎。時隔2年再獲殊榮,與明略科技在大數據和人工智慧技術領域沉澱的研發實力和產業洞察息息相關。
  • 明略科技入選愛分析中國知識圖譜廠商全景報告
    近日,中國領先的產業數位化研究與諮詢機構愛分析發布《中國知識圖譜廠商全景報告》,在金融、政府與公共服務、能源與工業、零售4大行業的13個應用場景中,明略科技均被評為具備成熟解決方案和落地能力的知識圖譜廠商。  在數字經濟時代,數據是重要的生產要素。數據挖掘能力是企業數位化轉型成功的基石。
  • 引領數據創新,星環科技分布式資料庫KunDB亮相數據技術嘉年華
    星環科技受邀亮相此次嘉年華,與行業內的專家和業界人士一同探討總結數據技術過往十年的歷程與成績,共同展望未來十年的趨勢與目標!星環科技產品研發部趙志強結合當前分布式資料庫的技術需求背景,分享《國產分布式資料庫KunDB開發實踐》主題演講。
  • 吳信東:數據挖掘算法的經典與現代
    作者 | 蔣寶尚編輯 | 叢 末6月6日,中國計算機學會(CCF)主辦的中國計算機學會青年精英大會(CCF YEF)在線上舉行,在「經典流傳的機器學習與數據挖掘算法」技術論壇上,明略科技首席科學家、明略科學院院長吳信東;UCLA 副教授孫怡舟;微軟雷蒙德研究院高級研究科學家東昱曉;CCF高級會員、清華大學計算機系長聘副教授朱軍;CCF高級會員、
  • 數據分析的三大框架:底層技術、分析建模、工具選擇
    數據分析的三大框架數據科學的框架分為三部分:底層技術框架/數據分析框架/工具選擇框架,接下來依次給大家介紹:1.底層技術框架底層技術框是數據科學的基礎設施,我們有所了解就好,處理框架和處理引擎負責對數據系統中的數據進行計算。流處理系統:流處理系統會對隨時進入系統的數據進行計算。相比批處理模式,這是一種截然不同的處理方式。
  • 2019「神氣」大數據算法與應用大賽成功舉辦
    王建民中國氣象局國家氣象信息中心副主任,羅兵華風集團副總經理陳鑽與專家評委評審前交流比賽現場分為算法賽賽題組和應用賽題組兩部分進行評審答辯,算法賽題組的入圍團隊分別是來自北京大學的大氣科學小分隊團隊、來自中國氣象局氣象幹部培訓學院的helloworld團隊、來自大連船舶重工集團和北京明略軟體系統有限公司組成的機器不思議團隊
  • 基於財務管理中臺及數據分析雲平臺,元年科技推出企業數據智能應用...
    36氪獲悉,近日,元年科技近日推出新產品企業數據智能應用產品「元年智答」,目前已經進入商業化落地階段。「元年智答」基於知識圖譜及NLP技術研發而成,定位為企業智能數據分析助手。前端:以語音輕鬆交互完成數據獲取從具體設計思路來看,智答助手的前端為與NLP及語音交互接口,而後端則通過內置的智能算法和底層數據中臺管理模型,用類似微服務的方式接通企業數據,幫助用戶快速找到需要的數據。
  • 數據科學50人·吳明輝:用數學思維,打破數據悖論
    「我的觀點是:用數據做生意,是一個悖論。」說這句話的人,叫做吳明輝,他是兩家數據公司——明略、秒針的創始人,而且在他的帶領下,兩家都成長為了中國數據界的獨角獸級企業。為什麼一個做數據生意的「成功者」,會說用數據做生意是一個悖論呢?悖論之下,他又是怎麼看待「數據」和「生意」這兩件事兒的呢?
  • 星環科技+鯤鵬:乘風破浪的大數據生態
    時至今日,大數據的應用已經越來越普遍,數據對於企業業務運營的重要性也大大提升,大數據也需要鍛造成熟之美,如同當下正火的《乘風破浪的姐姐》。不過,大數據作為企業級應用的重要組成部分,其作用要想被充分挖掘,僅靠在練功房的磨練還不夠,需要一個強有力的生態系統作為支撐——從底層算力基礎設施,到中間的大數據管理平臺,再到頂層的大數據行業應用。
  • 星環科技帶你看上海展區的大數據&AI黑科技 軟體實力無處不在
    航空領域的大數據應用 帶著星環科技平臺飛上天除港口外,運輸服務領域,星環科技的底層平臺為東方航空、春秋航空等交通領域用戶提供技術支撐。春秋航空用星環科技大數據平臺TDH實現成本指數監控,上線 4個月時,成本指數執行率從58%上升到69%。
  • 為加強自主可控底層技術 恆華科技欲分拆BIM軟體子公司上市
    財聯社(北京,記者 柳川)訊,2020年11月2日晚間,恆華科技(300365.SZ)公告稱,啟動分拆北京道亨時代科技有限公司(以下簡稱「道亨科技」)至境內證券交易所上市的前期籌備工作。
  • 從0到1建立數據分析指標體系的底層邏輯
    編輯導讀:隨著公司業務規模擴大,各類相關的數據量增加,數據指標也越來越多。如果缺乏數據指標體系和分析方案,就會難以判斷整體業務發展狀況、難以衡量產品/活動效果等等。本文作者就如何從0到1建立數據分析指標體系的底層邏輯展開分析,希望對你有幫助。
  • 康曉宇:數據基礎設施支撐金融科技創新
    雖然突如其來的新冠肺炎疫情擾亂了經濟發展節奏,但我國數字經濟也獲得了加速發展機遇,各家金融機構也加快了科技研發的節奏,拓展了金融場景化應用的廣度與深度,金融科技對銀行業生態的塑造正發揮著前所未有的作用。而金融科技創新離不開數據基礎設施的底層支撐。數據基礎設施是傳統IT基礎設施的延伸,它以數據為中心,讓數據存得下、流得動、用得好,使數據要素價值實現最大化。
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    明略科技首席科學家、明略科學院院長吳信東受邀發表主題演講,分享知識圖譜自動構建的方法論和實踐,並宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發者和企業級用戶。HAO圖譜的核心技術和應用場景明略科技的HAO圖譜,基於HAO智能框架。其中「HAO」,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。
  • 《中國金融》|數據基礎設施支撐金融科技創新
    雖然突如其來的新冠肺炎疫情擾亂了經濟發展節奏,但我國數字經濟也獲得了加速發展機遇,各家金融機構也加快了科技研發的節奏,拓展了金融場景化應用的廣度與深度,金融科技對銀行業生態的塑造正發揮著前所未有的作用。而金融科技創新離不開數據基礎設施的底層支撐。數據基礎設施是傳統IT基礎設施的延伸,它以數據為中心,讓數據存得下、流得動、用得好,使數據要素價值實現最大化。
  • 「大數據」行業風口來臨,源於數據分析,終於產業效能提升
    其中最重要的手段就是大數據分析,在諸如行跡調查方面可以較為準確地鎖定到個人,極大提高流調的及時性。大數據服務是大數據產業的細分市場,大數據服務依託大數據及人工智慧技術對數據資源進行分析和管理的服務,其服務類型包括大數據採集服務、大數據交易服務、大數據分析服務、大數據可視化服務、大數據安全服務等。