科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

2020-08-07 微軟亞洲研究院

「從用戶單向地讓機器執行查詢指令,到機器可以根據分析場景和上下文推測人類分析的目的,自動理解、智能分析並主動用可視化的方式呈現給用戶,這代表了一種人機互動的範式轉變,也是人機協同的未來。」

「服裝產品的銷售量是多少?」

當你在 Excel 中輸入這個問題,Excel 將立即「意會」,把「服裝」分類下不同產品的銷售量數據以可視化圖表的方式呈現在你眼前。

在 Ignite 2019 大會現場,微軟展示了這項超實用的 Excel 新功能——對話式數據分析,你所關心的表格裡的問題將能夠以問答對話的形式交由 Excel 自動進行數據分析,並返回清晰優美、易於理解的可視化圖表。這一功能由微軟亞洲研究院數據、知識、智能組(Data, Knowledge, and Intelligence Group, 以下簡稱 DKI 組)提供技術支持,現在已經在 Excel 的 Ideas 預覽版中與部分用戶見面了。

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

作為世界上最通用的電子表格系統,Excel 是各行各業都離不開的數據分析利器,無論是財務審計、商業分析,還是市場銷售、人力資源……隨著數位化時代的到來,海量的數據已經在各行各業的業務決策場景中不斷積累。Excel 自誕生以來,其強大、眾多的功能一直在不斷完善和進化,而一些複雜的進階功能對大眾來說學習成本相對較高。

「在微軟亞洲研究院數據、知識、智能組,我們堅持做有遠見、有創新且可以解決實際問題的最好的研究。」秉持著這種理念,微軟亞洲研究院副院長張冬梅帶領 DKI 組一直走在數據智能科研攻關的前沿,「網際網路的到來使得信息的獲取和分享變得極為便捷和容易,移動計算和物聯網的普及進一步增大了數據量,也使得數據種類變得極為豐富。因此,我們的願景是讓數據智能進一步走向大眾化,通過提供簡單易用的智能工具幫助廣大用戶從數據中獲得洞見和價值,學習並分享知識,提高認知能力,從而把數據轉化為生產力。」

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

微軟亞洲研究院數據、知識、智能組合影

微軟亞洲研究院數據、知識、智能組是由軟體分析組發展而來,融合了微軟亞洲研究院在知識計算、大數據挖掘等方面的研究。DKI 組的研究以數據為核心展開,涵蓋數據理解、數據生成和數據交互三大主題。其中,數據理解是各項研究的基礎,根據數據形態的不同,例如結構化、半結構化、無結構化以及混合結構化,數據理解需要進行有針對性的研究來獲得相應的理解方法及工具。此外,語義理解是數據理解的重點和難點,經常要涉及到數據的上下文以及常識知識。

數據生成這一研究主題則來源於信息爆炸時代對內容生產的需求,用戶不僅是數據的消費者,也是數據或者內容的製造者,數據生成研究旨在幫助用戶提高內容生產的效率和質量,激發用戶的想像力。

用戶與數據的交互是 DKI 組的第三大研究方向。在過去的幾十年中,信息可視化作為最重要的交互方式得到了深入的研究。隨著近幾年自然語言處理的長足發展,自然語言開始成為一種主流的交互方式,並且和其它交互方式相結合,形成多模態交互,比如對話式數據分析、對話式繪圖等等。

目前 DKI 組的主要研究項目包括文檔智能、服務智能、對話式數據分析、知識計算等。從 PowerBI、Excel,到 PowerPoint、Forms,再到微軟的雲平臺 Azure 以及 Microsoft 365 的基礎架構,DKI 組已經將多樣的人工智慧技術轉化到了微軟的產品之中,使更多用戶能夠零門檻、更高效、更自然地完成數據理解和內容生成,幫助微軟的產品團隊更高效地運行各種軟體服務平臺。

下面讓我們通過一系列文檔智能的成果,來看看 DKI 組在研究和產品轉化方面的經驗。

智能分析第一步,自動識別表格數據

假設你是一位健身愛好者,除了規律性地到健身房報到,你還會見縫插針地安排戶外跑、遊泳、登山等日常運動。為了了解自己不同健身方式的成效,以及更好的規劃、組合未來的健身計劃,你把最近的運動健身數據都整合到了一張數據表中。接下來,讓我們看看人工智慧是如何將這些數據中的洞察自動且美觀地呈現給你的。

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

健身原始數據

微軟亞洲研究院首席研究員韓石在 DKI 組中帶領團隊主攻數據分析研究(Data Analytics Research),主要研究數據分析任務中對象和過程的建模、學習和推理,來改進數據分析的能力、質量和效率。作為智能數據分析的第一步,Excel 在導入數據表後首先要解決的問題是自動檢測和識別表格結構,對多維的元數據進行識別、處理和轉換。對機器來說,這一步並非輕而易舉,韓石解釋道,「對許多用戶來說,電子表格不僅僅用來存儲數據,還有呈現數據的功能,因此用戶往往會把數據表做的很精美,包括把數據放置在表格中的不同區域,或者加一些空行、空列讓各部分之間的邊界更清晰。因此電子表格數據經常(如下圖所示)不像資料庫那樣規整,而是形式多樣且各不相同,機器很難識別其中的模式。」

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

形式多樣的電子表格

在對話式數據分析中,機器還要識別用戶在自然語言查詢中提到的列名、表格名、單元格值等信息,並將它們與表格中的信息相連接。為此,除了採用傳統的實體連接方法之外,研究員們在 EMNLP 2019 的一篇論文中提出了一種基於多任務的學習框架,同時解決了表格實體識別和語義解析問題。

「讀懂」表格語義,挖掘有價值的數據洞察

在了解了表格結構後,下一步就要自動挖掘表格數據中的語義和聯繫,釐清以下幾個問題:每一欄的數據分別發揮什麼樣的作用,是類別、時間,還是計算指標?如果用作計算指標,對應的可能是什麼樣的計算過程?正是基於精確的語義挖掘,智能數據分析才能夠挖掘和推薦面向用戶需求的富有價值的數據洞見。

為了支持語義計算和更有效的數據分析,Excel 為用戶提供了除傳統的數值、字串、日期、時間以外的數據類別,譬如地理和股票類別。以股票類別為例(如下圖所示),你在 Excel 輸入一系列的股票代碼 msft、amd、t 等等時,由 DKI 組的研究員姚金戈和工程師陳曦開發的 Excel AutoDetect 功能就會主動識別你正在輸入的股票代碼,並提醒你可以把輸入的代碼字串升級為 Excel 的股票數據類別。升級為 Excel 內建的股票類別後,你就可以調用股票類別的相關屬性了(如昨收、最高、漲跌幅等等),這些屬性值會自動反應當前最新數據,讓一個原本靜態的表格,經由簡單的操作轉換成可以自動更新數據的動態表格,大大節省了創建表格的時間、減少了輸入數據的錯誤、提高了數據的可用性。

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

1. 輸入股票代碼,2. Excel AutoDetect 提醒把代碼字串升級成股票數據類別,3. 調用股票數據相關屬性,4. E

那麼,Excel 如何自動判斷不同的數據分析方式對用戶的價值呢?這裡主要的判斷標準有兩類,一類是數據分布是否具有統計顯著性,比如一個時間序列數據是否呈現出明顯的周期性趨勢、轉折點和離群點,這些特點是否與平凡情形很不同;另一類分析是對數據語義的概括性分析,這些分析維度的結果不一定統計顯著,但在給定類型的數據中,分析的語義具有常見的價值。

例如,在你的運動健身數據中,「爬山」的統計指標包括 「海拔升高」和「海拔降低」兩列數據,這兩列數據的相關性非常高,因為爬山通常會回到同一海拔高度,因此這一推斷雖然統計顯著,但其語義價值並不高。而平均心率的區間分布,或是通過「卡路裡」和「距離」的相關性展示目標卡路裡對應的運動量,這些分析無論是否具有統計意義,都是很有價值的洞察。

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

左:卡路裡消耗與運動距離高度相關;右:平均心率的區間分布

你問,Excel答

得益於 Excel 的對話式數據分析新功能,當你在 Excel 中輸入 「Show me average calories of different activities」 和 「Show me calories over time」 等自然語言問題,Excel 就能自動為你推薦基於日期、運動類型等不同分類維度的卡路裡分析結果。(如以下所示)

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

基於日期的卡路裡分析結果

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

基於運動類型的卡路裡分析結果

從技術到產品功能發布,微軟亞洲研究院 DKI 組與微軟 Excel 產品團隊合作完成了從技術到應用落地的「最後一公裡」。作為團隊核心成員,微軟亞洲研究院首席研究員樓建光帶領團隊處理著實際產品中的諸多挑戰,不間斷地從算法研究到系統設計的各個方面進行優化和改進。他坦言,完成產品轉化的過程和做研究有很大的區別,「在打磨技術之外,我們還要站在用戶和產品的角度思考,保證目標用戶最常見的查詢需求都能夠得到滿足。同時,產品對技術的準確率有著極高的要求,當用戶問一個問題,機器自動給出的回答必須有很高的準確率,否則會誤導用戶的決策,帶來極大的損失。」

為了更好地滿足產品需求,研究團隊對算法框架進行了重新設計,將語義規則和深度學習算法結合起來,構建了一個自底向上的解析框架。這個框架可以充分發揮語義邏輯的知識推理能力和深度神經網絡的映射學習能力,既具有良好的語言靈活性和泛化能力,也避免了深度學習的「黑盒」特性,良好的可解釋性讓系統調試和漸進調優都在可控範圍之內,並且能夠高效地利用通用知識和領域知識。同時,因為語義規則是與語言無關的,所以深度神經網絡無需進行複雜的特徵工程,框架良好的多語言擴展能力,還能夠低成本地為 Excel 這樣國際化的產品完成多語言支持。

「從技術到產品功能的另一大難點是定義技術在產品中的邊界,並讓用戶理解它的適用範圍。」樓建光表示,「在這方面,我們在與產品團隊的合作中受益良多,花了很多時間來共同探討技術面向用戶的最終形態。我們也為用戶增加了小提示,引導用戶用Excel 可理解的方式去表述問題,進一步提高效率和可解釋性。」 如此「嵌入式」的研發合作,讓研究團隊開發的精巧算法大大滿足了產品和用戶的需求。

走向大眾的數據分析交互界面和可視化設計

構建操作自然簡單、易學易用、功能強大的數據分析和可視化的交互界面,能夠顯著降低數據分析系統的專業門檻,進一步提高數據分析的效率,對於普及基於數據驅動的決策過程非常重要。DKI 組一直以來致力於數據分析交互界面和可視化方向的研究和探索。研究員張海東、侯智濤、崔為煒等已在這個方向深耕多年。在他們看來,「從用戶單向地讓機器執行查詢指令,到機器可以根據分析場景和上下文推測人類分析的目的,自動理解、智能分析並主動用可視化的方式呈現給用戶,這代表了一種人機互動的範式轉變,也是人機協同的未來。」

研究團隊設計了新型的操作界面用於數據的探查和分析。用戶通過簡單的滑鼠拖拽,即可快速靈活地實現所需的複雜分析。通過和智能分析引擎的緊密集成,在整個分析的交互過程中,可以根據分析場景和上下文的信息,自動給用戶推薦分析的結果,並引導進一步的分析路徑。研究團隊還將 AI 技術應用於可視化圖表的設計中,實現了從文本到信息圖的自動生成。

首先通過自然語言分析從原始文本中提取關鍵信息,諸如文本中的整體、部分和比例關係,然後以大量的設計案例為基礎,總結並設計出一套自動可視化算法,將信息分別轉化成圖形、布局、顏色等等,最終合成多張不同形式的信息圖。之後,算法會對這些信息圖在若干個維度上進行評分,選出其中的最佳結果向用戶推薦

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

基於健身數據的分析結果,自動生成的信息圖:爬山佔了某一時間段健身總時長的76%

「嵌入式」合作創新的秘訣

DKI 組此前與 PowerBI 團隊有著多年的合作經驗,與 Excel 產品團隊的合作更是水到渠成。面對 Excel 產品團隊提出的需求,DKI 組的研究員們在研究過程中總會發現新的問題,產生新的想法,形成一個不斷探索、發現、解決關鍵問題的螺旋式上升的循環。

「這其中給我感觸最深的一點,是建立信任,」樓建光這樣認為。由於跨國團隊的遠程合作,所以微軟亞洲研究院的研究團隊與 Excel 產品團隊不僅面臨語言、文化的差異,晝夜顛倒的時差,團隊成員的技術背景也非常多元,兩個團隊也因此更加積極地進行溝通。在合作的初期,研究團隊快速通過產品 demo 的方式,以切實可見的效果為產品團隊呈現了技術革新帶來的優勢。在合作過程中,產品團隊的「實戰」經驗讓研究員們可以更多地從用戶視角理解、發現問題,而研究團隊也不斷幫助產品團隊加深對算法的了解,共同梳理邏輯、推動進度。

科學匠人丨在數據智能領域,做腳踏實地、仰望星空的研究

DKI 組成員與 Excel 產品團隊合影

不僅僅是產研團隊之間的跨洋協作,DKI 組的內部合作更是像擰成一股繩一樣緊密。樓建光表示,「我們組的團隊成員優勢互補,每個人都有專注的方向,大家日常交流很多,經常互通有無。」當新的想法出現時,DKI 組常常會第一時間共同討論,尋求合作,同時由擁有相應專長的成員率隊科研攻堅,凝聚大家的力量共同完成大型項目。

「我覺得微軟亞洲研究院處在一個特別好的位置,既有很大的自由度進行技術創新和科學研究,又可以和微軟產品緊密合作,這很容易激發新想法的誕生。」 樓建光說,「我在微軟亞洲研究院16年,真的很享受這個環境。」

「腳踏實地,仰望星空」確乎是微軟亞洲研究院 DKI 組的真實寫照。在這裡,研究員們既時時放眼數據智能領域的最前瞻,探求下一個技術突破點,又以用戶需求為壤,以應用研究為養料,讓技術落地生根,為微軟核心產品持續注入著蓬勃的生命力。「相信我們跨領域的交叉研究,結合理論與實踐間的相互作用,在未來的創新探索中可以解決更多的現實問題,並創造更大的社會價值。」張冬梅堅定地說。

相關焦點

  • 局長走進國家級創新團隊,地震研究既要仰望星空也要腳踏實地
    (CESP)中國檢驗中心、國家測震臺網數據備份中心和中國地震科學臺陣數據中心、小孔徑臺陣中心。鄭局長還特別來到國家級重點領域創新團隊「工程抗震減災設計地震動研究」團隊,聽取團隊科研情況匯報,並與科技人員親切交談。
  • 開學第一課丨「仰望星空,北鬥璀璨 腳踏實地,行穩致遠」,「北鬥人」用科學點亮星空
    北鬥系統是我們國家的國之重器,我們目前還是要對深海深空的導航問題進一步的去研究。建立更加廣闊宇宙的太空燈塔,實現了這個技術人類再往月球上走,往火星上走,那個導航問題就將是更加的便利、方便和可靠。仰望星空,北鬥璀璨,腳踏實地,行穩致遠,同學們通過好好地學習,我相信下一代的更加優秀的北鬥系統,未來的宇宙中間的「布星人」就一定會在你們中間誕生,同學們,加油!
  • 仰望星空也要腳踏實地——《深海異獸》
    與《歐羅巴報告》《異星覺醒》等同類型科幻異獸影片視角不同,本片並沒有仰望星空,而是將視角下沉,沉到深深的海底。在地球最深的海溝裡,獻上一場有關異獸的饕餮盛宴。 有點兒觀影量的影迷都知道,深海戲真的是難拍,《深海異獸》為了照顧影片表現形式,刻意將深海裝置視覺化處理,這就會造成和科學設定相矛盾
  • 仰望星空腳踏實地 南仁東先進事跡報告會在滬舉行
    報告團5位成員用情真意切、感人至深的報告,再現了南仁東先生胸懷祖國、服務人民的愛國情懷,敢為人先、堅毅執著的科學精神,淡泊名利、忘我奉獻的高尚情操,真誠質樸、精益求精的傑出品格,社會各界聽眾深受感動和教育。
  • OPPO仰望星空、vivo腳踏實地,走向兩極分化的「藍綠大廠」
    OPPO仰望星空、vivo腳踏實地,走向兩極分化的「藍綠大廠」 「仰望星空」的OPPO:躍遷致善在OPPO未來科技大會,速途網看到了一個在技術投入方面愈發激進的OPPO。在會上推出三大「概念產品」壓陣的OPPO,似乎更加強調長期的技術布局,同時也在力求將科技手段,上升成為一種文化追求。這一點,從「躍遷·致善」的主題中便可略見一斑。在大會上,CEO陳明永給出了OPPO的科技選擇——致善式創新。
  • 周廣勝:仰望星空,腳踏實地
    本科4年學習,不僅讓周廣勝愛上了氣象科學,也逐漸在氣象學科研究中初窺門徑,成長為氣象研究領域的一名「新兵」。 1987年,周廣勝被免試推薦到中國科學院瀋陽應用生態研究所(時稱「中國科學院林業與土壤研究所」)攻讀生態學專業碩士學位,導師是生態氣候室的朱廷曜研究員,主要從事農田防護林氣象研究。
  • 仰望星空 腳踏實地 寶珀經典系列卡羅素月相腕錶品鑑
    正圖與背圖卡羅素——腳踏實地的本性        提及卡羅素,我們不得不從地心引力開始說起。月相 仰望星空的意境       月相顯示功能源遠流長,月相象徵的意境更是意味深長,「露從今夜白,月是故鄉明」、「但願人長久,千裡共嬋娟」、「月有陰晴圓缺,人有悲歡離合",月亮之於人更多的是一種情感的宣洩與映照。上自達官貴人,下至凡夫俗子,人們對月相的偏愛永遠都是相通的。
  • 蝴蝶工匠森林女神 | 腳踏實地,仰望星空
    這個樹妖不媚不妖,優雅從容,有著最樸素的裝扮和最柔軟的心腸,腳踏實地、仰望星空描述的大概就是這樣一種人。
  • 仰望星空頂層設計,腳踏實地推動閱讀
    仰望星空頂層設計,腳踏實地推動閱讀 2015-06-01 來源:教育部   教育的最高境界是讓受教育者獲得自我教育的能力。而自我教育的最佳路徑與方式是學會閱讀和熱愛閱讀。
  • [學習時報]王利明:仰望那遙遠的星空
    哲學家仰望這片星空,探索人類過去和未來的哲理;科學家仰望這片星空,發現宇宙無盡的奧秘;文學家仰望這片星空,書寫來自天外的故事;地理學家仰望星空,從日月星辰的運轉中探索地質變化的真諦;佔卜者也仰望星空,或許是他們試圖從星座中窺探人生的秘密。其實,宇宙遠比我們想像的要神秘複雜得多,許多宇宙現象也許是我們連做夢都無法想像的。
  • 仰望星空的智者在拯救世界,而見識淺陋的「智慧」卻成了「真理」
    文章來源:文教在線原創:子正先生引言: 一個國家如果沒有仰望星空、「無所事事」的閒人去探索宇宙萬物的終極本源和人類的精神世界,而是遍布腳踏實地的成功「智慧」和功利者。這樣的民族註定不會成為未來的引領者。1、信奉「眼見為實」,是動物式的文盲。
  • 國內管理領域首個開展數據科學研究的「學系」,如何立足前沿、服務...
    「頂天立地」、求真務實立足前沿、引領學科與行業發展,作為浙江大學管理學院最「前沿」學系之一,數據科學與管理工程學係為應對商業與社會發展的前沿需求而生,它「新」,因為它是國內管理領域內首個開展數據科學研究的團體;它底子「深」,其依託的管理科學與工程學科伴隨管理學院40年發展歷程,已擁有深厚學科積澱,且為國家「雙一流」重點建設學科。
  • 在火星仰望星空,好奇號拍下一張驚人照片
    有意思的是,好奇號平時腳踏實地做探測,偶爾還會忙裡偷閒仰望星空。比如,2020年6月5日,在日落後大約75分鐘,好奇號抬頭望向天空,拍下一張驚人照片——照片中兩個微弱的小亮點分別是地球和金星。好奇號用火星版暗淡藍點再次告訴我們,即便在太陽系中,我們的地球也不過是一粒不起眼的微塵,更不用說放眼浩瀚無垠的宇宙了。
  • 黃永盛:仰望星空,腳踏實地
    與此同時雷射技術的每一次提高,都極大地拓展了物理學的研究領域。尤其是在20世紀80年代末,啁啾脈衝放大技術(Chriped Pules Amplification,即CPA)的出現,促使雷射光強達到1023W/cm2以上,讓超強超短雷射的研究迎來了飛速發展,也開創了雷射技術發展的新紀元。「強雷射技術與傳統加速器的結合,可以獲得相對論的粒子束團,以及高亮度的準單能X射線或γ射線。
  • 仰望星空,晾衣服!
    最近看了楊振寧先生的一篇演講文字,是關於《易經》對中華文化的影響,其中在談到近代科學沒有在中國萌生的原因時,他提出了一個很嚴重的看法:「中國的傳統是入世的,不是出世的。換句話就是比較注重實際的,不注重抽象的理論架構。」很多人聽到這就不樂意了,咱的道家、佛家不就是出世的麼?!對不起!按人家的看法,你要飛仙、逍遙,你要解脫、離苦,恰恰就是在解決人生中遇到的實際問題。
  • 劉慧根:星空下的仰望者
    多年來,劉慧根一直致力於系外行星領域的研究,探索著璀璨星空的奧妙,樂此不疲。正如哲學家黑格爾所言,一個民族要有一群仰望星空的人,民族才有希望。「80後」劉慧根就是那群仰望星空、不斷探索未知的天文學家之一。投身科研以來,他始終秉持著探索、創新的科研精神,希望可以藉助南大這個優質平臺,通過一次次的天體觀測,逐漸揭開系外行星的神秘面紗,為中國天文學的發展貢獻自己的一分力量。
  • 為何要仰望星空?
    人們記住的第一個仰望星空者恐怕要算泰勒了,他被譽為科學之父。  作為普通人,我們仰望星空有什麼意義呢?科學的範式就是先假設,後求證。古代中國之所以有技術沒科學,就是缺少這種研究範式。因為技術不是這樣的,它正相反,往往是實踐(在先)的總結。要驗證天文學的假說非常難,你去不了太陽,如何能知道它的組成,結構和維持不斷發光的原理呢?
  • 「仰望星空」科學之夜活動即將開啟!
    為滿足公眾多樣化科普需求,在2020年科技活動周期間,中國科學技術交流中心、科學技術部國外人才研究中心和北京市科學技術研究院於8月25日,在北京天文館舉辦「仰望星空」科學之夜活動。當天晚上,特邀的科技工作者、外國專家、科普講解員、醫務工作者、大中小學生、文化教育工作者和媒體代表等將一起奉獻一場別開生面的「仰望星空」科學故事會。科學故事會結束後,參與現場活動的代表一起傾聽天文學家的專題科普報告——館長星夜秀,並在天文科普工作者的指導下觀測「七夕」夜的美麗星空。
  • 「仰望星空」感受創新魅力
    8月25日晚7點還未到,參加在北京天文館舉辦的「仰望星空」科學之夜活動的公眾就早早來到入口等待入場。原來這是在北京天文館舉辦的「仰望星空」科學之夜的科學故事會上,來自英國的北京化工大學戴維教授,給觀眾們演示的「神奇」的化學反應。旁邊4歲的小姑娘婷婷感慨地說,一粒小黑球放進水裡就能產生這麼大的反應,等我長大了也要學化學。
  • 謳歌科技明星 感受創新魅力——「仰望星空」科學之夜活動舉辦
    為滿足公眾多樣化科普需求,2020年科技活動周期間,中國科學技術交流中心、科學技術部國外人才研究中心和北京市科學技術研究院於8月25日在北京天文館舉辦了「仰望星空」科學之夜活動。B館二層活動大廳裡,特邀的科技工作者、外國專家、科普講解員、醫務工作者、大中小學生、文化教育工作者和媒體代表等一起參加了一場別開生面的「仰望星空」科學故事會。