「熱點新知」鄔賀銓:數據價值挖掘的挑戰

2021-01-09 產業聯盟湖北分聯盟

近日,由中國國際大數據產業博覽會組委會主辦、數據觀(北京)傳媒科技有限公司承辦的「永不落幕的數博會」2020系列活動——「大數據產業生態創新發展高峰會」在北京舉行。

本次大會匯集兩院院士、政府嘉賓以及大數據龍頭企業代表,圍繞加快數字產業化,助推產業數位化,構建大數據新產業新業態新模式,共同探討未來大數據產業生態建設與發展的機遇與挑戰。會上,中國工程院院士、中國網際網路協會諮詢委員會主任鄔賀銓發表了《數據價值挖掘的挑戰》的主題演講。

數據融合利用需要標準規範先行

鄔賀銓院士表示,數據融合利用需要標準規範先行,實現數據可見性、數據易理解性、數據可連結性、數據可信性、數據互操作性和數據安全性。

鄔賀銓院士通過舉例具體介紹,以色列首都特拉維夫把所有交通攝像頭的視頻合成一個完整的視頻,就像城市的領導坐著直升飛機俯視這個城市一樣,可以看到不同的時間用不同顏色標註交通管制、交通事故,並且實時通過5G、4G發送給行人、駕駛員,供大家選擇自己的出行路線,這是數據可見性;新冠肺炎確診除了做核酸檢測,可能還要做CT,一個肺可以做出300張CT,把300張CT照片還原為一個肺,再看看肺有沒有纖維化,肺周邊怎麼樣,可以讓數據變成可理解;要展示去年和今年的歐洲航空情況,把所有飛機上的數據連接起來,形成一個航空的數字孿生的交通鏡像,就有了全局性;有很多古羅馬的遺址散落在現代建築之中,如果想看古代羅馬怎麼樣,現在可以把這些遺址照片合成一個視頻,把時空分散的照片組合起來,生成一個反映古羅馬街景的視頻,這是數據的互操作性。

關於數據的可信性和安全性,鄔賀銓院士特別提到,如果數據本身是不全面的,或者說是有很多差錯的,那這個數據挖掘是沒有用的,需要有數據質量管理技術,按照規定程序適當標記、保存和記錄數據,在壽命周期內都能夠保護和血緣元數據的約束。數據安全性方面,需要實現精細化權限管理和審計,定期評估分類標準並測試合規性。

數據挖掘面臨算力算法的挑戰

鄔賀銓院士表示,數據挖掘首先要建數據模型。建數據模型的前提需要了解模型開發背景和用途,以及誰來訓練模型,這些數據從哪來,模型運用的效果如何,需要關注算法的完整性、可解釋性、公平性和適應能力。同時,模型開發完還需要不斷地檢驗、迭代和完善。

算法現在主要還是用深度神經網絡,深度神經網絡經歷了兩代,第一代主要是知識驅動,就是專家系統,把專家經驗找出來,然後邏輯推理。現在是第二代人工智慧,大數據來了,是數據驅動。鄔賀銓院士認為,這兩個都不夠完整,「目前大數據很多應用,我把它叫做大數據、大算力、小任務,非常多的數據,能力非常強的計算能力,實際上只做了一件很小的事情,而且穩定性不夠,知其然不知其所以然,可解釋性差,應用場景窄,怎麼解決這個問題呢?最好是小數據、小算力、大任務。」鄔賀銓院士表示,現在需要發展到第三代,需要知識與數據雙驅動,而且很多人說需要內腦,把人的認知機理用上去,雖然比較困難,但是這個方向還是需要的。

鄔賀銓院士談到,往往大數據分析不能只靠中心雲,很多時候要使用邊緣雲,因為邊緣雲可以就近處理,適用於那些對數據試驗敏感的一些業務,包括生產線上,一些數據不能送到遠遠的地方去處理,這樣就不能起到實時的作用,只能得到經驗的總結,有時候需要實時,就要把中心雲的能力一部分下沉變成邊緣雲。如果所有東西都希望雲邊端協同,但這是這是有挑戰的,怎麼協同,怎麼分配這種計算能力,這是大數據挖掘需要解決的問題。

現在是大數據、大算力、小任務,大數據也不見得那麼全面,人工智慧會誤判,而且模型準確性也不是想像中那麼好,人工智慧需要大量標註或清洗的數據,但很多時候只有小數據,怎麼在小數據、小算力的情況下邊提高人工智慧的分析能力,這是大數據分析面臨的挑戰。

大數據融合需要人與數據融合

鄔賀銓院士認為,很多大數據融合需要人與數據融合。把人的數據跟客觀的東西融合在一起,把人的經驗介入到大數據分析過程,但是人不能永遠介入,什麼時候什麼場景下能介入,這是需要經驗的。大數據分析不是不需要人,也不是大數據、工業網際網路時代的工人、工程師沒用了,裡面還需要用到工程師和工匠的精神。

數據只有融合才有價值,但融合就涉及到隱私和商密保護問題。鄔賀銓院士談到,每個企業都希望用別人的企業的數據,不願意把自己的數據拿出去,總覺得這是商業秘密,那怎麼做融合?怎麼做到既融合又不會洩露每個企業的商業秘密,這是可以做到的,也有很多很多方案,比如採用多方計算的方式。

此外,大數據分析本身會用很多軟體,包括很多開源軟體,可以網上宕下來,但是開源軟體漏洞很多,而且版本升級太頻繁,需要檢查它的安全性,採用也可能會出問題。如果用自然語言直接生成代碼,當然反過來就能從代碼判決出原來這個軟體的意圖,如果能知道這個軟體意圖,那就能知道有沒有加入其它不該加入的東西,就能確保代碼是可信的。另外一種,大家往往為了怕數據洩露和篡改,採用加密手段,加了密的數據是比較難進行安全掃描的,不過加密也不是萬能的,還得從開始作為內生的設計上讓它更安全。

演講的最後,鄔賀銓院士總結談到,智慧城市的管理和工業網際網路裡有很多需要數據融合應用的場景,多元異構的數據融合能夠盤活數據,通過數據挖掘開發數據的價值,發揮數據作為生產要素的作用。但是數據挖掘和人工智慧的分析要面對海量的處理能力、雲邊端的協同、建模、小數據、人與數據的融合、數據自身安全、隱私和商密保護等挑戰,我們需要從基礎理論跟工程實踐多方面來研究數據價值挖掘的問題,要開發出更高效的大數據和人工智慧分析技術,整個大數據的創新還是任重道遠。

來源:數據觀、數博會

相關焦點

  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    >文章中還會多次遇到,這是這次演講內容的一張「地圖」,也是數據挖掘領域的一張「地圖」韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。1.3 數據挖掘三部曲韓家煒認為他們做數據挖掘的研究工作可以總結為三部曲:(1)從文本數據中挖掘隱藏的結構。
  • R 語言之數據分析「Resampling」
    在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。
  • 在「古板遲緩」的晶片產業,一群「寒武紀」們誕生的意義與挑戰
    撰文 | 宇多田在過去的幾年裡,一個名為「深度學習」的人工智慧技術家族在科技行業掀起了一場風暴。從幫你對手機相冊裡的自拍與萌寵進行識別分類,再到大幅度提高 Alexa 們(智能助手)與無人駕駛汽車的「平均智商」,「深度學習」這個人工智慧裡的門類,具備了更高級的對「複雜結構」進行自動挖掘的能力。
  • 專訪數據挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個...
    但是我後來發現,由於 rule 都是專家來定義或制定的,實際上存在它的局限性,無法真正從數據中挖掘相應的信息,因此產生了「從數據中尋找 rule」的研究方向轉變的想法,並在畢業後任教期間考慮從數據挖掘的角度來尋找相應的知識和 pattern。當時剛開始意識到數據挖掘重要性的時候,關注的人不是特別多。原來做資料庫的人,還有原來做機器學習的人,都還在自己原來的領域裡做研究。
  • 中國工程院院士鄔賀銓:
    在日前舉辦的2020年中國網絡安全產業高峰論壇上,中國工程院院士鄔賀銓以《5G系統新技術與網絡安全新態勢》為題,闡釋了5G時代的到來給網絡安全提出的新問題和帶來的新挑戰。
  • 36氪首發|「羅賽塔科技」獲數百萬元天使輪融資,推出「易得數據...
    36氪獲悉,大數據技術及應用提供商「羅賽塔科技」近期宣布獲得數百萬元人民幣的天使輪融資,投資方為個人投資人,此輪資金將主要用於新產品「易得數據」的產品完善和市場推廣。此前,36氪曾介紹了羅賽塔科技在另類數據服務方向的技術和業務。
  • 專注圖關係數據挖掘,「極驗」發布圖數據建模平臺「疊圖」
    36氪獲悉,7月11日,「極驗」舉行Graph Learning 創新大會暨極驗 2019 圖數據建模平臺發布會,並發布新產品——圖數據建模平臺。36氪曾多次報導極驗。極驗成立於 2012 年,是一家驗證安全技術服務提供商。
  • Data Science in China論壇:產學十位華人大牛分享數據挖掘研究...
    雷鋒網(公眾號:雷鋒網)在現場做獨家報導。「Data Science in China at KDD 2018」論壇由 China Chapter of ACM SIGKDD(KDD China)承辦,這也是繼 KDD 2017 哈利法克斯之後,KDD China 第二次舉辦相應的主題活動。
  • 知乎2019新知青年大會:用問題改變世界的方向
    該產品旨在激勵創作者去創造更加專業、優質的內容,提供更多維度的信息對內容的可參考性進行判斷,讓有價值的專業內容被更多人發現、認同。目前「專業徽章」還處在試用階段,後續將逐步開放給更多用戶。「不管是社區、用戶還是機構、品牌,大家是基於社區連接在一起的長期利益共同體,大家各盡其力,共同為社區作出貢獻,也理所當然應該按照合理的機制和形式分享收益。」世界源於問題,新知創造價值過去五年,新知青年大會以知識分享為陣地,吸引了各個領域的知識大咖前來論道。本屆大會將目標指向知識的源頭——「問題」上。
  • 數據挖掘領頭人韓家煒教授:如何從無結構文本到有用的知識?
    雷鋒網 AI 科技評論按:這幾日,對於許多數據挖掘領域的研究者來說,北京是一個關注的焦點,原因無他,作為數據挖掘領域的兩大頂會CIKM 2019和ICDM 2019相繼在北京召開,甚至連開會地點(國家會議中心)都沒有變化。
  • 「金猿產品展」Stratifyd——AI驅動的增強智能數據分析平臺
    2020年服務客戶過程中,Stratifyd展現了卓越的競爭優勢:●和傳統 BI 工具相比競爭優勢Stratifyd 擁有頂級 BI 工具所具備的「數據可視化」報表界面,方便分析人員實現控制項間聯動,進行多維度數據的層層深鑽。
  • 什麼才是打開「數據分析」的正確姿勢?
    選數據:從已明確對象身上去挖掘相關聯的數據選數據這件事兒,其實後半段不難,但前半段不太容易做。「因為負責渠道的同事提出了需求,希望了解渠道這半年來的相關數據。」「是要數據,還是要分析?」「要數據,但是要協助分析。」「如果要數據,你提供一張Excel表格就可以了,但如果要分析,這個PPT是不合格的。」
  • 以太坊黑暗森林加速蔓延,Flashbots 如何緩解「礦工可提取價值...
    MEV 包括交易費和區塊獎勵這類「常規」獲利方式,也包括礦工對所生成區塊內交易重新排序、插隊、審查從中獲利這種「非常規」盈利方式。MEV 這個詞會讓人誤以為提取價值的是礦工。實際上,如今以太坊生態上的 MEV 主要由 DeFi 交易員通過結構化套利策略所獲的;而礦工則是通過獲得這些交易員付出的交易費間接獲利。
  • 數說雷達:數據驅動品牌轉化,市場人的防禿利器
    01 市場研究讓品牌跟上瞬息萬變的市場風向,「數說雷達」全新設定「即刻探索」功能模塊,基於海量行業數據即時探索熱點內容,迅速挖掘行業新概念或是熱點內容。「即刻探索」模塊支持品牌自由選擇探索目標,以圖表呈現新概念或熱點內容的變化趨勢,從情感、內容詞雲等基礎維度瞬時響應品牌需求,在掌握市場動態後深度挖掘消費者興趣點,為營銷決策提供有效支持。
  • 清華大學與MIT合作推出數據科學與信息技術「微碩士」學位
    根據合作框架約定,MIT 與清華合作的首個學院為全球創新學院(GIX),將提供 MIT 的「數據科學與信息技術」(DSIT)的工程碩士學位(MSE)。合作協議是在北京舉行的 MIT 中國峰會中簽署的,雙方代表是清華大學副校長、教務長楊斌教授與 MIT 開放學習(Open Learning)副總裁 Sanjay Sarma。
  • ​【高分短語】「未知的領域」英文怎麼說?
    面對沒被開發過的知識,面對沒被探索過的領域,我們不能畏懼;對新事物的好奇就是探求新知的動力。我們不知道前方的路會帶來什麼挑戰,可是我們必須勇往直前,為自己,也為我們的孩子爭取更美好的未來。(請點擊藍色字體收聽)「打錯字」原來這樣說最地道!?(地道又實用)「呵呵」英文怎麼說?
  • Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...
    大量數據和由雲實現的日益強大的處理能力意味著現在可以大規模地訓練和執行必要的算法,以最終兌現出 AI 的全部潛力。 Donald 表示,「任何企業的持續生存都將取決於靈活的,以數據為中心的架構,以響應不斷變化的速度。」 他還談道,「數位化業務需要大量複雜且分布式的數據、迅速行動以及持續型智能,這意味著僵化且集中式的架構和工具分崩離析。」
  • 從公安大數據業務切入,挖掘更多數據價值:明略數據完成 2 億元 B...
    大數據概念在國內炒的過熱,落地大數據應用的產品並不多。原因一方面在於底層數據的非結構化存儲,數據挖掘技術難度大;另一方面在於數據挖掘多樣化模型建立的技術難度。從it時代到DT時代,大家都在談大數據概念而無法落地,而一旦系統應用到具體場景,完成大量非結構化的數據存儲和挖掘的工作,大數據領域可能是座金礦。
  • 將單細胞大數據用於藥物研發,「百奧智匯」完成A+輪融資
    所募集資金將用於「百奧智匯」進一步擴大和加速單細胞大數據及單細胞數據分析平臺在創新藥物研發領域的轉化應用,推進其單細胞大數據和分析系統在藥物新靶標挖掘、生物免疫學驗證、抗體開發、生物標誌物發現、基礎科研及臨床研究等方面建立起市場優勢;同時進一步擴大國內外商業化布局。
  • 「螞蟻特工」與「K米」達成合作,讓 AR 技術進入 KTV 場景「帶貨」
    行業分析認為:內容產業發展之下,多個場景下的AR、VR將快速發展,落地;運營商節點價值開始凸顯,打破現有泛娛樂內容和渠道以網際網路為主的局面,未來內容分發和觸達方式也都隨之變化;大數據和AI的使用也使得內容產業更智能化發展。