「從用戶單向地讓機器執行查詢指令,到機器可以根據分析場景和上下文推測人類分析的目的,自動理解、智能分析並主動用可視化的方式呈現給用戶,這代表了一種人機互動的範式轉變,也是人機協同的未來。」
「服裝產品的銷售量是多少?」
當你在 Excel 中輸入這個問題,Excel 將立即「意會」,把「服裝」分類下不同產品的銷售量數據以可視化圖表的方式呈現在你眼前。
在 Ignite 2019 大會現場,微軟展示了這項超實用的 Excel 新功能——對話式數據分析,你所關心的表格裡的問題將能夠以問答對話的形式交由 Excel 自動進行數據分析,並返回清晰優美、易於理解的可視化圖表。這一功能由微軟亞洲研究院數據、知識、智能組(Data, Knowledge, and Intelligence Group, 以下簡稱 DKI 組)提供技術支持,現在已經在 Excel 的 Ideas 預覽版中與部分用戶見面了。
作為世界上最通用的電子表格系統,Excel 是各行各業都離不開的數據分析利器,無論是財務審計、商業分析,還是市場銷售、人力資源……隨著數位化時代的到來,海量的數據已經在各行各業的業務決策場景中不斷積累。Excel 自誕生以來,其強大、眾多的功能一直在不斷完善和進化,而一些複雜的進階功能對大眾來說學習成本相對較高。
「在微軟亞洲研究院數據、知識、智能組,我們堅持做有遠見、有創新且可以解決實際問題的最好的研究。」秉持著這種理念,微軟亞洲研究院副院長張冬梅帶領 DKI 組一直走在數據智能科研攻關的前沿,「網際網路的到來使得信息的獲取和分享變得極為便捷和容易,移動計算和物聯網的普及進一步增大了數據量,也使得數據種類變得極為豐富。因此,我們的願景是讓數據智能進一步走向大眾化,通過提供簡單易用的智能工具幫助廣大用戶從數據中獲得洞見和價值,學習並分享知識,提高認知能力,從而把數據轉化為生產力。」
微軟亞洲研究院數據、知識、智能組合影
微軟亞洲研究院數據、知識、智能組是由軟體分析組發展而來,融合了微軟亞洲研究院在知識計算、大數據挖掘等方面的研究。DKI 組的研究以數據為核心展開,涵蓋數據理解、數據生成和數據交互三大主題。其中,數據理解是各項研究的基礎,根據數據形態的不同,例如結構化、半結構化、無結構化以及混合結構化,數據理解需要進行有針對性的研究來獲得相應的理解方法及工具。此外,語義理解是數據理解的重點和難點,經常要涉及到數據的上下文以及常識知識。
數據生成這一研究主題則來源於信息爆炸時代對內容生產的需求,用戶不僅是數據的消費者,也是數據或者內容的製造者,數據生成研究旨在幫助用戶提高內容生產的效率和質量,激發用戶的想像力。
用戶與數據的交互是 DKI 組的第三大研究方向。在過去的幾十年中,信息可視化作為最重要的交互方式得到了深入的研究。隨著近幾年自然語言處理的長足發展,自然語言開始成為一種主流的交互方式,並且和其它交互方式相結合,形成多模態交互,比如對話式數據分析、對話式繪圖等等。
目前 DKI 組的主要研究項目包括文檔智能、服務智能、對話式數據分析、知識計算等。從 PowerBI、Excel,到 PowerPoint、Forms,再到微軟的雲平臺 Azure 以及 Microsoft 365 的基礎架構,DKI 組已經將多樣的人工智慧技術轉化到了微軟的產品之中,使更多用戶能夠零門檻、更高效、更自然地完成數據理解和內容生成,幫助微軟的產品團隊更高效地運行各種軟體服務平臺。
下面讓我們通過一系列文檔智能的成果,來看看 DKI 組在研究和產品轉化方面的經驗。
假設你是一位健身愛好者,除了規律性地到健身房報到,你還會見縫插針地安排戶外跑、遊泳、登山等日常運動。為了了解自己不同健身方式的成效,以及更好的規劃、組合未來的健身計劃,你把最近的運動健身數據都整合到了一張數據表中。接下來,讓我們看看人工智慧是如何將這些數據中的洞察自動且美觀地呈現給你的。
健身原始數據
微軟亞洲研究院首席研究員韓石在 DKI 組中帶領團隊主攻數據分析研究(Data Analytics Research),主要研究數據分析任務中對象和過程的建模、學習和推理,來改進數據分析的能力、質量和效率。作為智能數據分析的第一步,Excel 在導入數據表後首先要解決的問題是自動檢測和識別表格結構,對多維的元數據進行識別、處理和轉換。對機器來說,這一步並非輕而易舉,韓石解釋道,「對許多用戶來說,電子表格不僅僅用來存儲數據,還有呈現數據的功能,因此用戶往往會把數據表做的很精美,包括把數據放置在表格中的不同區域,或者加一些空行、空列讓各部分之間的邊界更清晰。因此電子表格數據經常(如下圖所示)不像資料庫那樣規整,而是形式多樣且各不相同,機器很難識別其中的模式。」
形式多樣的電子表格
在對話式數據分析中,機器還要識別用戶在自然語言查詢中提到的列名、表格名、單元格值等信息,並將它們與表格中的信息相連接。為此,除了採用傳統的實體連接方法之外,研究員們在 EMNLP 2019 的一篇論文中提出了一種基於多任務的學習框架,同時解決了表格實體識別和語義解析問題。
在了解了表格結構後,下一步就要自動挖掘表格數據中的語義和聯繫,釐清以下幾個問題:每一欄的數據分別發揮什麼樣的作用,是類別、時間,還是計算指標?如果用作計算指標,對應的可能是什麼樣的計算過程?正是基於精確的語義挖掘,智能數據分析才能夠挖掘和推薦面向用戶需求的富有價值的數據洞見。
為了支持語義計算和更有效的數據分析,Excel 為用戶提供了除傳統的數值、字串、日期、時間以外的數據類別,譬如地理和股票類別。以股票類別為例(如下圖所示),你在 Excel 輸入一系列的股票代碼 msft、amd、t 等等時,由 DKI 組的研究員姚金戈和工程師陳曦開發的 Excel AutoDetect 功能就會主動識別你正在輸入的股票代碼,並提醒你可以把輸入的代碼字串升級為 Excel 的股票數據類別。升級為 Excel 內建的股票類別後,你就可以調用股票類別的相關屬性了(如昨收、最高、漲跌幅等等),這些屬性值會自動反應當前最新數據,讓一個原本靜態的表格,經由簡單的操作轉換成可以自動更新數據的動態表格,大大節省了創建表格的時間、減少了輸入數據的錯誤、提高了數據的可用性。
1. 輸入股票代碼,2. Excel AutoDetect 提醒把代碼字串升級成股票數據類別,3. 調用股票數據相關屬性,4. E
那麼,Excel 如何自動判斷不同的數據分析方式對用戶的價值呢?這裡主要的判斷標準有兩類,一類是數據分布是否具有統計顯著性,比如一個時間序列數據是否呈現出明顯的周期性趨勢、轉折點和離群點,這些特點是否與平凡情形很不同;另一類分析是對數據語義的概括性分析,這些分析維度的結果不一定統計顯著,但在給定類型的數據中,分析的語義具有常見的價值。
例如,在你的運動健身數據中,「爬山」的統計指標包括 「海拔升高」和「海拔降低」兩列數據,這兩列數據的相關性非常高,因為爬山通常會回到同一海拔高度,因此這一推斷雖然統計顯著,但其語義價值並不高。而平均心率的區間分布,或是通過「卡路裡」和「距離」的相關性展示目標卡路裡對應的運動量,這些分析無論是否具有統計意義,都是很有價值的洞察。
左:卡路裡消耗與運動距離高度相關;右:平均心率的區間分布
得益於 Excel 的對話式數據分析新功能,當你在 Excel 中輸入 「Show me average calories of different activities」 和 「Show me calories over time」 等自然語言問題,Excel 就能自動為你推薦基於日期、運動類型等不同分類維度的卡路裡分析結果。(如以下所示)
基於日期的卡路裡分析結果
基於運動類型的卡路裡分析結果
從技術到產品功能發布,微軟亞洲研究院 DKI 組與微軟 Excel 產品團隊合作完成了從技術到應用落地的「最後一公裡」。作為團隊核心成員,微軟亞洲研究院首席研究員樓建光帶領團隊處理著實際產品中的諸多挑戰,不間斷地從算法研究到系統設計的各個方面進行優化和改進。他坦言,完成產品轉化的過程和做研究有很大的區別,「在打磨技術之外,我們還要站在用戶和產品的角度思考,保證目標用戶最常見的查詢需求都能夠得到滿足。同時,產品對技術的準確率有著極高的要求,當用戶問一個問題,機器自動給出的回答必須有很高的準確率,否則會誤導用戶的決策,帶來極大的損失。」
為了更好地滿足產品需求,研究團隊對算法框架進行了重新設計,將語義規則和深度學習算法結合起來,構建了一個自底向上的解析框架。這個框架可以充分發揮語義邏輯的知識推理能力和深度神經網絡的映射學習能力,既具有良好的語言靈活性和泛化能力,也避免了深度學習的「黑盒」特性,良好的可解釋性讓系統調試和漸進調優都在可控範圍之內,並且能夠高效地利用通用知識和領域知識。同時,因為語義規則是與語言無關的,所以深度神經網絡無需進行複雜的特徵工程,框架良好的多語言擴展能力,還能夠低成本地為 Excel 這樣國際化的產品完成多語言支持。
「從技術到產品功能的另一大難點是定義技術在產品中的邊界,並讓用戶理解它的適用範圍。」樓建光表示,「在這方面,我們在與產品團隊的合作中受益良多,花了很多時間來共同探討技術面向用戶的最終形態。我們也為用戶增加了小提示,引導用戶用Excel 可理解的方式去表述問題,進一步提高效率和可解釋性。」 如此「嵌入式」的研發合作,讓研究團隊開發的精巧算法大大滿足了產品和用戶的需求。
構建操作自然簡單、易學易用、功能強大的數據分析和可視化的交互界面,能夠顯著降低數據分析系統的專業門檻,進一步提高數據分析的效率,對於普及基於數據驅動的決策過程非常重要。DKI 組一直以來致力於數據分析交互界面和可視化方向的研究和探索。研究員張海東、侯智濤、崔為煒等已在這個方向深耕多年。在他們看來,「從用戶單向地讓機器執行查詢指令,到機器可以根據分析場景和上下文推測人類分析的目的,自動理解、智能分析並主動用可視化的方式呈現給用戶,這代表了一種人機互動的範式轉變,也是人機協同的未來。」
研究團隊設計了新型的操作界面用於數據的探查和分析。用戶通過簡單的滑鼠拖拽,即可快速靈活地實現所需的複雜分析。通過和智能分析引擎的緊密集成,在整個分析的交互過程中,可以根據分析場景和上下文的信息,自動給用戶推薦分析的結果,並引導進一步的分析路徑。研究團隊還將 AI 技術應用於可視化圖表的設計中,實現了從文本到信息圖的自動生成。
首先通過自然語言分析從原始文本中提取關鍵信息,諸如文本中的整體、部分和比例關係,然後以大量的設計案例為基礎,總結並設計出一套自動可視化算法,將信息分別轉化成圖形、布局、顏色等等,最終合成多張不同形式的信息圖。之後,算法會對這些信息圖在若干個維度上進行評分,選出其中的最佳結果向用戶推薦
基於健身數據的分析結果,自動生成的信息圖:爬山佔了某一時間段健身總時長的76%
DKI 組此前與 PowerBI 團隊有著多年的合作經驗,與 Excel 產品團隊的合作更是水到渠成。面對 Excel 產品團隊提出的需求,DKI 組的研究員們在研究過程中總會發現新的問題,產生新的想法,形成一個不斷探索、發現、解決關鍵問題的螺旋式上升的循環。
「這其中給我感觸最深的一點,是建立信任,」樓建光這樣認為。由於跨國團隊的遠程合作,所以微軟亞洲研究院的研究團隊與 Excel 產品團隊不僅面臨語言、文化的差異,晝夜顛倒的時差,團隊成員的技術背景也非常多元,兩個團隊也因此更加積極地進行溝通。在合作的初期,研究團隊快速通過產品 demo 的方式,以切實可見的效果為產品團隊呈現了技術革新帶來的優勢。在合作過程中,產品團隊的「實戰」經驗讓研究員們可以更多地從用戶視角理解、發現問題,而研究團隊也不斷幫助產品團隊加深對算法的了解,共同梳理邏輯、推動進度。
DKI 組成員與 Excel 產品團隊合影
不僅僅是產研團隊之間的跨洋協作,DKI 組的內部合作更是像擰成一股繩一樣緊密。樓建光表示,「我們組的團隊成員優勢互補,每個人都有專注的方向,大家日常交流很多,經常互通有無。」當新的想法出現時,DKI 組常常會第一時間共同討論,尋求合作,同時由擁有相應專長的成員率隊科研攻堅,凝聚大家的力量共同完成大型項目。
「我覺得微軟亞洲研究院處在一個特別好的位置,既有很大的自由度進行技術創新和科學研究,又可以和微軟產品緊密合作,這很容易激發新想法的誕生。」 樓建光說,「我在微軟亞洲研究院16年,真的很享受這個環境。」
「腳踏實地,仰望星空」確乎是微軟亞洲研究院 DKI 組的真實寫照。在這裡,研究員們既時時放眼數據智能領域的最前瞻,探求下一個技術突破點,又以用戶需求為壤,以應用研究為養料,讓技術落地生根,為微軟核心產品持續注入著蓬勃的生命力。「相信我們跨領域的交叉研究,結合理論與實踐間的相互作用,在未來的創新探索中可以解決更多的現實問題,並創造更大的社會價值。」張冬梅堅定地說。