讓人工智慧解數學題,可能沒你想像的那麼簡單

2020-12-27 芥末堆

讓人工智慧解數學題,可能沒你想像的那麼簡單

作者:微軟研究院 發布時間:

讓人工智慧解數學題,可能沒你想像的那麼簡單

作者:微軟研究院 發布時間:

導讀:約1500年前的古代數學著作《孫子算經》中記載了一個有趣的問題:「今有雉兔同籠,上有三十五頭,下有九十四足,問雉兔各幾何?」這就是今人所謂的雞兔同籠問題。如今這個問題小學生們解決起來可能都輕而易舉,但對於人工智慧而言可能並非如此。在人工智慧火熱的今天,我們想聊聊如何讓計算機具備解此類問題的能力——即數學解題。

智能答題任務

如果說一套系統就能解決所有問題的「通用人工智慧」離人們的生活還很遙遠,那麼讓人工智慧系統解決具體的某一項、或某一類問題已經是一個切實可行的小目標。近幾年智能解題逐漸成為人工智慧的一大研究熱點。隨著這項研究的日益火熱,人們想通過讓人工智慧參加「考試」,與人類選手進行公平、公開的比試,從而衡量目前人工智慧系統的「智能」水平。

在全世界範圍內,有多家研究機構正在從事這一方面的研究。例如日本國立情報學研究所開發了一個項目Todai Robot,他們讓機器人挑戰大學試題,目標是2021能夠考上東京大學。艾倫人工智慧研究所(Allen Institute for Artificial Intelligence) 也舉辦了一項比賽,來自全世界的幾千個團隊紛紛提交了自己的軟體系統來挑戰8年級的科學題目,最終,該比賽的第一名僅能達到59%的正確率。在中國,國家科技部2015年也開啟了「高考機器人」 項目(863計劃中的類人智能項目),讓人工智慧系統和全國的文科考生一樣,挑戰2017年高考語文、數學、文綜三項科目,研究相關類人答題系統。超過30多家高校和科研機構(清華大學、中科院自動化所等)聯合參與了該項目。

意料之外但又情理之中的是,目前各個人工智慧系統的表現普遍在理科解題上弱於文科解題。究其原因:目前機器學習更多強調的是對記憶、計算等相關內容的儲存和運用,而對於邏輯理解和推理這一模塊還沒有很好的解決。數學解題,作為理科考試的一部分,十分考驗計算機的理解能力和推理能力,針對數學解題之上的研究成果非常有可能定義計算機智能的新層次。有鑑於此,數學解題應該也正在成為人工智慧的一塊重要拼圖。

難點和挑戰

儘管雞兔同籠問題已經成為小學數學中的常見題型,然而該問題對於計算機來說卻是一個極大的挑戰。具體來講,為了得到最終答案計算機需要通過理解題目的文字描述來得到相關數學表達,計算機需要具備邏輯推理能力來對得到的數學表達進行算術演算,計算機還需要具有一定的有關現實世界的常識從而能夠約束和簡化題目。

首先,數學解題需要多種層次的自然語言理解。對於一道題目的文字描述,計算機需要知道並理解其中包含的概念。舉個例子,「一加一等於幾」以及「小明有一個蘋果和一個梨,問小明有幾個水果」,同樣本質是「1+1=?」的兩道題,在題型概念上是一樣的,表達方式卻截然不同。計算機需要知道如何把以上兩道問題都抽象成兩個對象相加,這就涉及到所謂的自然語言理解。

事實上,抽取題目中各個概念變量的關係也十分具有難度。數學題要求的是精確,如果題目變換了一個詞,變量之間的關係可能就會改變,整個解法也會不一樣。比如下面兩道追趕問題:

(1)兩輛車同時往同一方向開,速度分別為28km/h和46km/h,問多少小時後兩車相距63km?

(2)兩輛車同時往相反方向開,速度分別為28km/h和46km/h,問多少小時後兩車相距63km?

兩道題描述很類似,但是車的方向關係導致了兩題的解法大不相同。如何捕抓出這種細微的差別也是一大難點。這也是所謂的自然語言理解的一部分。

其次,在一定程度上理解文字之後,數學解題需要通過邏輯推理生成解題公式。如下圖Hosseni 2014的工作,把數學題通過自然語言處理得到幾個變量狀態之後,需要推理得到各個變量狀態之間的關係得出數學公式。在他給出的例子中,計算機通過學習能得到動詞「give」代表兩個狀態相減。

Hosseni 2014訓練一個分類器判斷一個動詞屬於加/減

最後,計算機需要具有一定有關現實世界的常識去理解自然語言裡面一些隱式的指代。比如圓周率為3.14,速度乘以時間等於路程等等。在雞兔同籠問題中,雞有兩條腿、兔有四條腿是隱式包含的條件,只有知道這些常識才能正確的解答問題。

歷史與現狀

智能答題系統最早可以回溯到20世紀60年代。1964年提出的STUDENT(Bobrow 1964)系統可以視作早期答題人工智慧實現的代表:輸入有規定的描述方式的數學題,人工定義一組關鍵詞和關係(如EQUAL, SUM, PRODUCT),把自然語言(linguistic form)通過模式匹配映射到對應的函數關係表達。例如句子「the number of advertisements is 45」可轉化為函數表達方式(EQUAL (NUMBER OF ADVERTISMENTS)45)。之後的CARPS系統(Charniak 1968)能夠把自然語言表示成為成樹狀結構,再匹配生成公式解答,此外它嵌入了很多數學模型的知識,如面積、體積、維度等等。但CARPS系統僅限於解決比率問題 (ratio problem)。  

2008年之前多數關於智能答題系統的工作都是基於預定義的模式匹配規則,這類工作主有兩個主要的缺點:(1)定義的規則覆蓋率小,能解決的問題十分有限,而在真實場景下數學題目的描述往往是比較自由、不太受限的;(2)評測比較模糊,這些系統很少給出評測結果以驗證其有效性。

在這之後有了很多不同的嘗試。比如SoMaTePs系統(Liguda & Pfeiffer 2012)嘗試用擴張語義網(Augmented Semantic Network)表示數學題,抽取題目的對象(object)作為節點,節點之間的關係包括加減乘除。ARIS 系統(Hosseini 2014)讓機器學習題目中的動詞,並對這些動詞進行加減二分類,把數學題看作以動詞為關係的狀態轉移圖,但這個方法目前只解決一元加減問題,不考慮乘除。

MIT 於2014年在國際計算語言年會(ACL 2014, Kushman 2014) 上提出了一種基於統計學習的方法(命名為KAZB),引入了模板的概念 (比如「1+1」和 「1+2」同屬於一個模板x = a + b) 。根據公式的標註把數學題歸類成不同的題型,抽取題目中不同層次的特徵(如有關詞彙、詞性以及語法等),使用統計學習技術自動判斷題型。但是此類方法的一個缺點為:無法解決訓練集之外的題型。比如訓練集只出現過兩個數相加,機器無法泛化解答三個數相加的問題。之後百度ZDC(Zhou et al. 2015),微軟研究院 (Upadhyay 2016)的研究團隊也在同樣的方法框架下分別做了不同的優化改進。在一個開放的評測數據集上(即ALG514,含有514道題),三個系統準確率在上分別是68.7%,78.7%以及83%。

隨後,華盛頓大學的ALGES系統(Koncel-Kedziorski et al. 2015)定義了Qset的概念(一個Qset包括Quantity,Entity,Adjective等屬性)。首先抽取一道問題的Qset,利用線性整數規劃把Qset和加減乘除生成可能的公式,再選出最有可能的公式解出答案。目前限定於一元一次方程。他們同時構建了一個508道題的數據集,系統獲得的準確率在72%左右。

艾倫人工智慧研究所除了考慮數學文字題之外,還有關於幾何看圖題的研究。GEOS (Seo et al. 2015) 根據幾何數學定義了一組數學概念以及函數,對圖和文字分別構建了不同的分析器(parser)。他們在186道SAT的數學題上獲得的準確率大概是60%左右。

下表對以上一些具有代表性的系統做出了總結。給出一道數學題文字描述,系統需要涵蓋三大部分:自然語言理解,語義表達和映射以及數學推理得出解決公式和答案。

應用場景

作為一種有趣的人工智慧問題,數學解題相關的研究和努力不僅有助於推動機器智能的進步,同時也會在眾多實際應用場景中產生價值。

>>>>線上教育

近幾年興起的中小學生學習平臺,該類應用普遍會支持如下功能——學生可以採取對準題目拍照,或者文字語音方式來輸入數學題,學習平臺識別題目並給出解題思路。由於此類平臺具有龐大的題庫,因此可以通過識別匹配題目來實現上功能。該應用的用戶量已經突破一億,在教育市場份額巨大。但是這些平臺中所有的題目需要人工預設解題思路,受限於此,題庫的擴展存在一定約束。人工智慧數學解題的成功解決將會大大提升此類平臺。

>>>>知識問答系統

作為新一代的知識搜尋引擎的代表,WolframAlpha能理解用戶搜索問題並直接給出答案,而不是返回一堆網頁連結。其中WolframAlpha被搜索過的一類典型的問題就是數學問題。輸入數學題,它能給出數學模型、解題步驟以及答案。數學解題是此類引擎的核心構件之一。

>>>>智能問答

智能對話系統的終極目標是實現人機自由對話,計算機能夠響應來自用戶的各種問題。其中,自然也包括數學解題。微軟小冰實際上已經開始了這方面的嘗試,它目前已可以解決比較簡單的算術題。

SigmaDolphin——微軟亞洲研究院的數學解題

SigmaDolphin是微軟亞洲研究院在2013年初啟動的解題項目。Sigma即西格瑪大廈,是微軟亞洲研究院的誕生地;而Dolphin則是該系統被賦予的期望——像海豚一樣聰明。

目前SigmaDolphin主要有兩個研究成果。

● Dolphin解題

SigmaDolphin定義了一套針對數學解題的抽象表示語言(被命名為Dolphin Language),包含了數學相關的類和函數。該語言人工定義了1000多種數學類型以及7000多種從Freebase和其它網頁自動抽取的概念類型,加上其定義的函數和數據結構,使得該語言十分適合表達數學概念及運算,並能很好地構建出一個精準的數學解題系統。同時Dolphin Language具有大約1萬條語法規則,把自然語言解析成Dolphin Language的表示,繼而進行推理得到數學公式。有關該方法的詳細介紹已經發表在EMNLP 2015, 題為「Automatically Solving Number Word Problems by Semantic Parsing and Reasoning」 。

「what is 1 plus 2」的Dolphin語言表示形式

● Dolphin18K數據集

目前該研究領域正在使用的數據集規模都相對較小,而且題型都比較簡單。眾所周知,機器學習的關鍵是數據,特別關鍵的是數據規模。然而,數學題庫需要提供公式和答案,人工標註十分耗時。微軟亞洲研究院團隊採用半自動地方法從雅虎問答獲取數學題,經過人工篩選題目,並自動抽取公式和答案作為標註,構建一個新的數據集Dolphin18K。該數據集包含了1萬8千多道數學題。有關該數據集的詳細介紹已發表在ACL 2016,題為「How Well Do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation」。過往的系統在各自的數據集上都有高達60%至80%的準確率,但由於評測的數據集都在幾百道題目的規模上,而且都有不同的題型限制,導致其得出的結論可能不夠有代表性。對比之前的數據集,Dolphin18K題目數量增加了10倍以上,涵蓋了不同年級、不同難度的數學題,且題型更加全面豐富,更具有挑戰性。目前,在Dolphin18K的評測上,過往的這些數學解題系統平均只能獲得20%左右的準確率,說明了數學解題並沒有想像中的那麼簡單。

如上所述,目前智能解題任務仍然存在眾多的挑戰。但我們仍可以期冀,通過不斷的數據積累和方法創新,智能解題系統的能力終將逼近甚至超過人類——答題能力能從及格逐漸提升至100分的水平。

(文章轉自公眾號微軟研究院AI頭條)

1、本文是

芥末堆網

轉載文章,原文:

微軟研究院AI頭條;

2、芥末堆不接受通過公關費、車馬費等任何形式發布失實文章,只呈現有價值的內容給讀者;

3、如果你也從事教育,並希望被芥末堆報導,請您

填寫信息

告訴我們。

來源: 微軟研究院AI頭條

推廣: 芥末堆商務合作:010-5726 9867

相關焦點

  • 讓人工智慧解數學題?並沒有想像的那麼簡單
    如今這個問題小學生們解決起來可能都輕而易舉,但對於人工智慧而言可能並非如此。在人工智慧火熱的今天,我們想聊聊如何讓計算機具備解此類問題的能力——即數學解題。智能答題任務如果說一套系統就能解決所有問題的「通用人工智慧」離人們的生活還很遙遠,那麼讓人工智慧系統解決具體的某一項、或某一類問題已經是一個切實可行的小目標。
  • 當有一天你在遊戲中解數學題
    「媽媽你聽我解釋!雖然你看著我在玩遊戲,其實我在做數學題啊!」並不新鮮。即便已經是2020,還是有很多人抱著「遊戲是毒瘤」的態度,認為遊戲是孩子成功路上的「絆腳石」,恨不得下架所有的遊戲產品。那麼當有一天,你開始在遊戲中解數學題,家長看到後,會是一種怎樣的表情?在王者榮耀諸葛亮史詩皮膚中,就出現了一道數學題的彩蛋,這款皮膚已經上線很久了,而也早有玩家在遊戲之餘,花了點時間解答了這道數學題。
  • 手機應用幫你解數學題
    原標題:手機應用幫你解數學題  有款新手機應用問世了,不過最好別告訴數學老師,因為它可以掃描數學題,並且幫你解答。   這款由克羅埃西亞人發明的手機應用名叫「拍數學」,只要用它掃一掃考卷上的代數方程式,答案和解題過程會立馬出現在屏幕上。   有人認為,這款應用會讓孩子們偷懶,甚至作弊。
  • 人工智慧專家:AI並不像你想像的那麼先進
    編者按:近些年,很多人工智慧產品已經投入應用,走進人們的生活。人工智慧迅猛的發展速度很難不引人注意,甚至有人已經在擔心它快速的學習能力會對人類的生存造成威脅。而在本文作者看來,真正的人工智慧還很遙遠。作為領域專家,她深入分析了人工智慧的一些明顯缺陷,並想像了未來的可能。
  • 為什麼人類沒能夠進化出翅膀?答案可能沒有你想像的那麼簡單
    為什麼人類沒能夠進化出翅膀?答案可能沒有你想像的那麼簡單有的時候會很羨慕鳥兒們,可以自由自在的在天空中飛翔,可以俯瞰大地,人類想要飛翔的話就只好藉助某些工具了,有的人就好奇了,為什麼人類沒有進化出翅膀呢?答案可能沒有你想像的那麼簡單。
  • 一道小學六年級數學題,家長群裡多人表示條件不夠,你能解出來嗎
    數學題發出來後,一向「樓高高」的家長群,長達二十多分鐘的時間都沒人吱聲。率先打破群內沉默的是一位提供小升初諮詢的老師:「這道題少了一個條件,無解的。」緊接著,發聲的家長一個接一個:「要是ED與AB垂直就好辦了」「BC與ED是平行嗎」「這題可能出錯了,網上都搜索不出來」「真的少了條件,解不出來」「不對呀,怎麼答案解出來還有小數呢」……大家七嘴八舌地討論著,那個升學指導老師又來了一段:「這道題的已知條件沒有給全,沒有定解,所以我個人覺得沒有必要討論題目本身,沒有唯一答案。」
  • 秋宮主:《社群思維》沒有你想像的那麼簡單,但也沒那麼難
    我想此刻,你可能第一反應就是社群現在想通過社群或者正在通過社群來做生意的人已經越來越多。很多人可能會一頭霧水,既然社群這麼好,我也知道是個趨勢,可是究竟怎麼能通過社群掙錢呢,就是簡單的建個群然後把人拉進來,在群裡面賣貨嗎?
  • 中國網友熱議:5道無人能解的簡單數學題!易懂,卻超級難證明!
    中國網友熱議:5道無人能解的簡單數學題 !易懂,卻超級難證明!正文翻譯:5 Simple MathProblems No One Can Solve!五道無人能解的簡單數學題!易懂,卻超級難證明①考拉茲猜想取任意一個數字,如果是偶數則除以2,如果是奇數就乘以3再加1。對所得到的新數字重複上述過程,最後你會發現,你總能最終得到數字1。每次都是。數學家們嘗試了數以百萬計的數字,最後發現所有的數字重複這個過程,最後都是得到1。
  • 解一道數學題
    我們與數學從小相遇,而從小我們就知道數學是一個不會被輕易戰勝的戰士,這是從我們相遇就被「前輩」們告知的,所以從一開始我們就把他當成一個大敵,我們把自己放在一個低地讓自己在和他的戰爭中處於劣勢,所以每次做數學題之前我們就感覺到壓迫,自己把自己的心理防線打破,心亂了題就錯了。上了大學以後,因為我主修專業學的是化學,所以數學雖然依舊很重要但感覺輕鬆了很多。
  • 「波利亞」式方法解高中數學題
    波利亞告訴你怎樣解高中數學題波利亞出生於133年前的匈牙利布達佩斯,是一個涉獵知識廣泛的數學大師,他著有許多著作,期中有一本書叫《怎樣解題》,對於我們高中生來說,是一本不可多得的秘籍。當然由第一步的熟悉題目,你可能對題目的論述已經很清楚,並在腦海中留下的較為深刻的印象,其判斷標準為即便不看題目也基本能夠複述題目中的大概意思就可。那麼深入理解題目就可以開始了。這裡波大師告訴我們:將題目的主要部分分離出來。前提和結論是一個「證明題」的主要部分;未知量、已知量和條件是一個「求解題」的主要部分。
  • 一年級趣味數學題,看著簡單,全班做對的卻沒幾個,錯在哪兒呢?
    課堂上老師給一年級小學生寫了一道趣味數學題,看著簡單,全班做對的卻沒幾個。來看看這道趣味數學題吧:很多小學生聽老師讀一遍題後,就直接給出了答案:7-4=3(盞)可沒想到老師看到答案後,直接給打了大紅「×」,如圖
  • 小學生燒腦數學題,「博士生」都沒有辦法,你又能做對幾道!
    小學生燒腦數學題,博士生沒有辦法,你又能做對幾道!第一題:這個題說,這個三個人都有可能是老實人或者是騙子,但是甲說:乙是騙子,乙又說:甲和丙是同一種人!問:他們誰在說謊。這個題難不難反正小編不知道從哪個地區方去解這個題,不知道哪些研究生和博士生能有辦法解嗎?第二題:移動一個火柴就讓等式成立,這個問題,想必很多的學生家長都做不出來吧 !
  • 一道超難的三年級數學題,數學專業博士生都解不出來?
    但是,數學永遠充滿魅力,人們總會尋找到一些超難的數學題,來考察學生的數學水平。這不,今天在網上,就看到了一道來自越南的小學三年級數學題,非常有意思,先來看看是道什麼題目吧!初看之下,這道數學題似乎很簡單,只是往表格當中,填入從1到9的數字,最後,使得這一條「龍」的運算結果,等於66就可以了。而圖中類似於冒號的兩個點,意思是用除法來計算。
  • 可以簡單地解小學數學題
    一條小學數學題,把自己搞蒙了。由於成年人思維,我究「先入為主」以為是不規則圖形求解面積,以為題目是逗著玩的。而查看評論區,看到解答時,才發現是求周長。評論的解答很清晰,但是,這種解法也是一種成人思維,對孩子而言,有點複雜。孩子這個階段應該還沒學xyz的方程式求解吧,一下子會難以接受。
  • 解數學題一大關鍵:擦亮你的慧眼,避開那些"陰險"的坑
    解數學題也是一樣,有些時候就是得以速度決成敗,於是有了昨天的例題:https://www.toutiao.com/i6861347987143000584/可是,天下武功光有快也是不行的,突飛冒進,三下五除二寫出答案,很可能就掉進預先設好的坑。做題是要快,但快的同時也必須擦亮慧眼,排除紛擾,方可無敵於天下。
  • 5道十分有趣的小學數學題,本科生做了一夜,你需要多長時間?
    尤其是數學題,感覺好難啊!看似簡簡單單的5道數學題,身為大學本科畢業的我硬是做了一夜。今天就把這5道十分有趣的數學題分享給大家,看看你需要多長時間?1、一天早上,小王隱隱地聽到隔壁的鄰居吵架,丈夫對妻子說:「我想賣掉75隻雞,這樣的話,我們的飼料還能餵20天。」妻子卻說:「我反對,如果我們再買進100隻小雞,這些飼料還能夠餵養它們15天的,這樣比較划算。」
  • 難倒無數大學生的6道小學數學題,答對一半是人才,全對是天才!
    難倒無數大學生的6道小學數學題,答對一半的是人才,全對的是天才第一題第一題是一個典型靠量思維想像以及邏輯能力的簡單小學數學題,要求在只移動一根火柴棍的情況下,使得下列的等式成立。簡單一看感覺還是挺難的,感覺啥都不好移動,但通過仔細觀察後相信還是有跡可循的,不知道大家發現了沒有!
  • 211學霸面試,遇到簡單小學數學題,卻沒想到答案居然是錯的
    前段時間,朋友阿峰去面試時,就遇到了一個簡單的小學數學題,就連跟他一起面試的211學霸都答不上來!阿峰面試的是一個大公司,經過了好幾輪的淘汰,有三個人撐到了最後的面試,除了阿峰之外,還有一個女生,和一個211學霸。
  • 小學數學題就這樣難!讓你懷疑人生!做出一道你肯定是學霸
    不過,數學本身很有趣味性,有一些數學難題,卻讓小學生們抓耳撓腮,百思不得其解,下面就舉幾個例子,朋友,來看看你能解出來嗎?見過難題,沒見過如此難的!這類數學題,讓小學生來解,難度可是相當大的,真心不好做呀!這道數學題,先要觀察一下規律是什麼,規律是:餘數末尾多少除數末尾填多少,除數十位減餘數十位所得數,等於商乘被除數(不用管0)。
  • 難倒無數大學生的6道小學生數學題,據說能答6題的都是天才!
    數學題不僅在平常的生活得到應用,而且根據相關的研究發現,數學題更可以防止老年痴。而有些數學題特別考智商,那就是數學趣味題,這是一項極有意思的智力挑戰項目,而在數學題面前大家都是平等的,無論是大學生還是小學生都有同等的機會解答出來。