大數據分析專題
特約編輯:
近年來, 隨著信息化技術與網際網路的飛速發展, 各行各業積累的數據資源急劇增長, 大數據已成為國家層面的基礎性戰略資源, 引起各國政府高度重視. 例如, 國務院於2015年8月印發了《促進大數據發展行動綱要》, 美國政府於2016年5月發布了《聯邦大數據研究與開發戰略計劃》, 歐盟Horizon 2020計劃把大數據提高到國家安全戰略層面. 發展大數據分析理論與技術方法, 是實現我國從數據大國向數據強國轉變的重要基礎, 將對國計民生的諸多方面產生深遠影響.
大數據分析旨在從海量數據中提煉知識價值, 涉及機器學習、可視分析、數據挖掘、知識處理等多個研究領域, 而大數據的高維、多源、不確定、領域化等特性給現有分析體系帶來嚴峻挑戰. 為及時反映國內大數據分析方面的最新發展,《中國科學: 信息科學》特組織本期「大數據分析專題」, 邀請國家重點研發計劃項目「大數據分析的基礎理論和技術方法」團隊成員介紹相關研究進展, 並邀請國內同行專家評審, 最終有7篇論文入選本期專題.【點擊論文題目可閱讀全文】
在大數據分析方面,機器學習與可視分析是實現原始數據至知識信息有效提煉的基礎支撐, 本期專題中有3篇文章是關於這方面的內容:
「元自步學習」(束俊, 孟德宇*, 徐宗本)針對現有自步學習算法存在的超參數選擇問題, 提出了一種基於元學習機理的自步學習算法. 該算法基於元數據的指導, 在同一優化框架中基於數據實現參數動態調節, 並將所提元學習策略嵌入三種典型的自步學習實現.
「基於眾包學習的交互式特徵選擇方法」(陳長建, 姜流, 雷娜, 劉世霞*)針對現有集成特徵選擇算法未考慮不同特徵選擇方法性能差異性的問題, 提出了一種基於可視分析的交互式特徵選擇方法, 通過可視分析系統為基於眾包學習的集成特徵選擇算法提供豐富的排序方式, 從而交互迭代地改善現有特徵子集.
系統概覽: 特徵選擇算法模塊和可視化模塊
「一種保持語義關係的詞向量復用方法」(李新春, 詹德川*)針對詞向量復用面臨的新詞出現問題, 提出了一種簡單有效的語義關係保持詞向量復用方法. 該方法利用當前語料庫構建詞語之間的語義關係映射, 並在預訓練詞向量基礎上施加該映射獲得新詞的詞向量.
SrpWer和傳統方法對比示意圖
數據挖掘與知識處理是實現領域知識至大數據核心價值有效轉化的核心途徑, 本期專題中有2篇文章是關於這方面的內容:
「基於鄰域視角的關聯關係挖掘方法」(成紅紅, 錢宇華*, 胡治國, 梁吉業)對大數據背景下海量變量間的關聯關係挖掘進行研究, 嘗試給出了大數據關聯關係度量需滿足的性質. 在剖析兩類傳統的基於鄰域視角的關聯關係度量方法基礎上, 通過引入k-NN粒與多粒度融合提出了基於數據驅動的關聯關係度量方法.
「一種高可讀低冗餘實體摘要的生成方法」(劉慶霞, 程龔*, 瞿裕忠)針對知識圖譜的實體摘要問題進行研究, 提出了一種具備高可讀性和低冗餘性的實體摘要生成方法. 該方法通過綜合考慮實體描述三元組的重要性, 可讀性以及摘要的冗餘性, 將實體摘要問題建模為二次背包問題進行求解.
數據驅動是大數據分析應用的基本特徵, 面向視頻、文本等大數據應用需求的研究具有重要意義, 本期專題中有2篇文章是關於這方面的內容:
「基於視覺–文本關係對齊的跨模態視頻片段檢索」(陳卓, 杜昊, 吳雨菲, 徐童*, 陳恩紅)針對日益增長的視頻片段精細檢索需求, 對視覺-文本跨模態視頻片段檢索問題進行研究. 通過構建文本關係圖與視覺關係圖刻畫查詢文本與視頻片段的語義關係, 並通過跨模態對齊的圖卷積網絡評估文本關係與視覺關係的相似度.
CrossGraphAlign預測的可視化樣例
「基於長短時預測一致性的大規模視頻語義識別算法」(王錚, 翁澤佳, 王銳, 陳靜靜, 姜育剛*)針對大規模視頻語義識別面臨的視頻數量巨大且缺乏網絡標籤的問題, 提出了一種基於長短時預測一致性的視頻語義識別算法. 在片段視頻語義識別任務上, 文中算法性能在第三屆YouTube-8M比賽中排名第二.
視頻語義識別模型