近日,由中國國際大數據產業博覽會組委會主辦、數據觀(北京)傳媒科技有限公司承辦的「永不落幕的數博會」2020系列活動——「大數據產業生態創新發展高峰會」在北京舉行。
本次大會匯集兩院院士、政府嘉賓以及大數據龍頭企業代表,圍繞加快數字產業化,助推產業數位化,構建大數據新產業新業態新模式,共同探討未來大數據產業生態建設與發展的機遇與挑戰。會上,中國工程院院士、中國網際網路協會諮詢委員會主任鄔賀銓發表了《數據價值挖掘的挑戰》的主題演講。
數據融合利用需要標準規範先行
鄔賀銓院士表示,數據融合利用需要標準規範先行,實現數據可見性、數據易理解性、數據可連結性、數據可信性、數據互操作性和數據安全性。
鄔賀銓院士通過舉例具體介紹,以色列首都特拉維夫把所有交通攝像頭的視頻合成一個完整的視頻,就像城市的領導坐著直升飛機俯視這個城市一樣,可以看到不同的時間用不同顏色標註交通管制、交通事故,並且實時通過5G、4G發送給行人、駕駛員,供大家選擇自己的出行路線,這是數據可見性;新冠肺炎確診除了做核酸檢測,可能還要做CT,一個肺可以做出300張CT,把300張CT照片還原為一個肺,再看看肺有沒有纖維化,肺周邊怎麼樣,可以讓數據變成可理解;要展示去年和今年的歐洲航空情況,把所有飛機上的數據連接起來,形成一個航空的數字孿生的交通鏡像,就有了全局性;有很多古羅馬的遺址散落在現代建築之中,如果想看古代羅馬怎麼樣,現在可以把這些遺址照片合成一個視頻,把時空分散的照片組合起來,生成一個反映古羅馬街景的視頻,這是數據的互操作性。
關於數據的可信性和安全性,鄔賀銓院士特別提到,如果數據本身是不全面的,或者說是有很多差錯的,那這個數據挖掘是沒有用的,需要有數據質量管理技術,按照規定程序適當標記、保存和記錄數據,在壽命周期內都能夠保護和血緣元數據的約束。數據安全性方面,需要實現精細化權限管理和審計,定期評估分類標準並測試合規性。
數據挖掘面臨算力算法的挑戰
鄔賀銓院士表示,數據挖掘首先要建數據模型。建數據模型的前提需要了解模型開發背景和用途,以及誰來訓練模型,這些數據從哪來,模型運用的效果如何,需要關注算法的完整性、可解釋性、公平性和適應能力。同時,模型開發完還需要不斷地檢驗、迭代和完善。
算法現在主要還是用深度神經網絡,深度神經網絡經歷了兩代,第一代主要是知識驅動,就是專家系統,把專家經驗找出來,然後邏輯推理。現在是第二代人工智慧,大數據來了,是數據驅動。鄔賀銓院士認為,這兩個都不夠完整,「目前大數據很多應用,我把它叫做大數據、大算力、小任務,非常多的數據,能力非常強的計算能力,實際上只做了一件很小的事情,而且穩定性不夠,知其然不知其所以然,可解釋性差,應用場景窄,怎麼解決這個問題呢?最好是小數據、小算力、大任務。」鄔賀銓院士表示,現在需要發展到第三代,需要知識與數據雙驅動,而且很多人說需要內腦,把人的認知機理用上去,雖然比較困難,但是這個方向還是需要的。
鄔賀銓院士談到,往往大數據分析不能只靠中心雲,很多時候要使用邊緣雲,因為邊緣雲可以就近處理,適用於那些對數據試驗敏感的一些業務,包括生產線上,一些數據不能送到遠遠的地方去處理,這樣就不能起到實時的作用,只能得到經驗的總結,有時候需要實時,就要把中心雲的能力一部分下沉變成邊緣雲。如果所有東西都希望雲邊端協同,但這是這是有挑戰的,怎麼協同,怎麼分配這種計算能力,這是大數據挖掘需要解決的問題。
現在是大數據、大算力、小任務,大數據也不見得那麼全面,人工智慧會誤判,而且模型準確性也不是想像中那麼好,人工智慧需要大量標註或清洗的數據,但很多時候只有小數據,怎麼在小數據、小算力的情況下邊提高人工智慧的分析能力,這是大數據分析面臨的挑戰。
大數據融合需要人與數據融合
鄔賀銓院士認為,很多大數據融合需要人與數據融合。把人的數據跟客觀的東西融合在一起,把人的經驗介入到大數據分析過程,但是人不能永遠介入,什麼時候什麼場景下能介入,這是需要經驗的。大數據分析不是不需要人,也不是大數據、工業網際網路時代的工人、工程師沒用了,裡面還需要用到工程師和工匠的精神。
數據只有融合才有價值,但融合就涉及到隱私和商密保護問題。鄔賀銓院士談到,每個企業都希望用別人的企業的數據,不願意把自己的數據拿出去,總覺得這是商業秘密,那怎麼做融合?怎麼做到既融合又不會洩露每個企業的商業秘密,這是可以做到的,也有很多很多方案,比如採用多方計算的方式。
此外,大數據分析本身會用很多軟體,包括很多開源軟體,可以網上宕下來,但是開源軟體漏洞很多,而且版本升級太頻繁,需要檢查它的安全性,採用也可能會出問題。如果用自然語言直接生成代碼,當然反過來就能從代碼判決出原來這個軟體的意圖,如果能知道這個軟體意圖,那就能知道有沒有加入其它不該加入的東西,就能確保代碼是可信的。另外一種,大家往往為了怕數據洩露和篡改,採用加密手段,加了密的數據是比較難進行安全掃描的,不過加密也不是萬能的,還得從開始作為內生的設計上讓它更安全。
演講的最後,鄔賀銓院士總結談到,智慧城市的管理和工業網際網路裡有很多需要數據融合應用的場景,多元異構的數據融合能夠盤活數據,通過數據挖掘開發數據的價值,發揮數據作為生產要素的作用。但是數據挖掘和人工智慧的分析要面對海量的處理能力、雲邊端的協同、建模、小數據、人與數據的融合、數據自身安全、隱私和商密保護等挑戰,我們需要從基礎理論跟工程實踐多方面來研究數據價值挖掘的問題,要開發出更高效的大數據和人工智慧分析技術,整個大數據的創新還是任重道遠。
來源:數據觀、數博會