你試過建立一個神經網絡模型來解決簡單的數學問題嗎

2020-12-15 讀芯術

全文共1516字,預計學習時長4分鐘

圖源:unsplash

你試過建立一個神經網絡模型來解決簡單的數學問題嗎?比如兩個數的乘法或一個數的平方?

如果有,那麼你可能會意識到神經網絡模型並不是用來解決這些簡單問題的。你通過一個相對複雜的模型得到類似一個數的平方的問題,這也不盡人意。

今天,在任何尖端技術中,數字的精確性非常重要,結果的一個微小變化可能會導致部署人工智慧的系統出現極大的故障。並不是說不能通過建立一個近乎完美的端到端神經網絡模型來直接回答數學問題,而是說,這樣完全沒有必要。

相反,我們可以使用人工智慧來理解數學問題或給定問題的數學部分,然後通過機器的運算單元來解決它。這將是解決數學問題最簡單、最可靠的方法,甚至在神經網絡模型中嵌入一個運算單元也可能有效。雖然目前尚不確定是否存在這樣的模型,但今天將深入研究一個能夠將複雜問題轉化為簡單解決方案的模型。

Facebook人工智慧的序列到序列(seq2seq)轉換模型可以解決上述問題。實際上,這是使用符號推理簡化高級數學方程。他們聲稱該模型是第一個這樣做的模型,在解決積分問題和微分方程方面比傳統計算系統更加有效。

樹形數學

假設一個方程b-4ac=12。

這些變量不能直接加、減或乘。因此,求解此類方程需要處理符號數據的能力。研究人員開發了一種將數學表達式看作語言中句子的方法,這使得他們能夠利用神經機器翻譯(NMT)中的成熟技術來訓練模型,以解出這些複雜的方程。

因此,研究人員開發了一種將現有數學表達式分解為類語言語法的方法,還生成了一個包含超過1億個大規模訓練對方程和解的數據集。

圖源:量子雜誌

首先,他們開發了一種有效將方程組解壓成樹狀結構的方法。現在這個結構可以轉換成序列,與序列到序列(seq2seq)模型一起使用。相較於一種語言的句子,數字和變量類似於名詞,而運算符號和函數類似於動詞。對於方程式4x+sin(3x)-2,順序如下——加,乘,4,冪,x,2,減,正弦,乘,3,x,2。

研究人員隨後生成了一組約1億對方程和解的數據集。這些數據被輸入一個有8個注意頭和6層的序列到序列(seq2seq)變壓器模型。為了測試模型的性能,研究人員為模型提供了5000對不可見的方程組,這些方程組不存在於訓練數據集中。

圖源:Facebook 人工智慧博客

該模型求解積分問題的精準度為99.7%,一階、二階微分方程的精準度分別為94%和81.2%。這些結果是研究人員測試的其他三種傳統方法(Maple、Mathematica和Matlab)中最好的,也是最快的,在不到半秒鐘的時間內返回大多數解,而其他方法則需要幾分鐘時間,甚至更多。

對於給定的輸入,該模型還能夠提供多種簡化解決方案,這與翻譯輸入句在許多方面類似。但是這種模型目前只能解決一個變量的問題,研究人員正計劃開發該模型來求解多變量方程組。同時他們還建議,這種方法可以應用於如物理這樣的數學和邏輯基礎領域。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 【深度】機器學習進化史:從線性模型到神經網絡
    Google實現了分布神經網絡,也得到了更多回報,如今,每個人都希望他們也能像Google一樣獲得成功,但是好事兒不會發生兩次。為什麼一個支持向量機或邏輯回歸比神經網絡更容易實現分布?首先,評估一個支持向量機要簡單得多。當你學習了一個支持向量機模型或邏輯回歸模型(或者任何一個線性模型)之後,實際評估就會非常快。
  • 神經網絡還能求解高級數學方程?
    通過開發一種將複雜數學表達式表示為一種語言的新方法,然後將解決方案視為序列到序列的神經網絡的翻譯問題,我們構建了一個在解決積分問題以及一階和二階微分方程方面都優於傳統計算系統的系統。以前,這類問題被認為是深度學習模型所無法企及的,因為求解複雜方程需要精度而不是近似值。
  • AI數學家:求解高級數學問題的機器學習算法
    圖源:unsplash 你試過建立一個神經網絡模型來解決簡單的數學問題嗎?比如兩個數的乘法或一個數的平方? 如果有,那麼你可能會意識到神經網絡模型並不是用來解決這些簡單問題的。你通過一個相對複雜的模型得到類似一個數的平方的問題,這也不盡人意。 今天,在任何尖端技術中,數字的精確性非常重要。結果的一個微小變化可能會導致部署人工智慧的系統出現極大的故障。
  • 谷歌重磅開源Neural Tangents:5行代碼打造無限寬神經網絡模型
    最近的許多研究結果表明,無限寬度的DNN會收斂成一類更為簡單的模型,稱為高斯過程(Gaussian processes)。於是,複雜的現象可以被歸結為簡單的線性代數方程,以了解AI到底是怎樣工作的。所謂的無限寬度(infinite width),指的是完全連接層中的隱藏單元數,或卷積層中的通道數量有無窮多。
  • 一作解讀 | 一種信息門控的神經網絡模型:王彬旭
    綜上,我們需要建立一個神經網絡模型,使其能調控連續編碼信息傳輸的信息量。那麼要怎樣實現呢?要實現信息傳遞,首先想到的結構就是前饋神經網絡(feed-forward neural network)。這也是陶實驗室分析一系列非常簡單的網絡模型的動機所在~話說回來,單純的興奮性前饋神經網絡(同步放電鏈Synfire Chain)是不足以傳輸編碼在放電率中的連續信息的,這是1999年Diesmann文章中的經典結果。
  • ICLR 2020 | 神經正切,5行代碼打造無限寬的神經網絡模型
    如何從深度學習模型中提取顯著特徵?近年來,該領域取得進展的一個關鍵理論觀點是:增加 DNN 的寬度會帶來更有規律的行為,並使這些行為更易於理解。最近的許多結果表明,能夠變得無限寬的DNN聚合到另一種更簡單的模型類別上的過程,稱為高斯過程。在這一限制下,複雜的現象(如貝葉斯推理或卷積神經網絡的梯度下降動力學)可以歸結為簡單的線性代數方程。
  • 大量示例+簡單圖像!帶你讀懂神經網絡
    邏輯回歸分析解決了預測一個人患有心臟病概率的問題,P(y=1),給定輸入值X。邏輯回歸模型使用一個邏輯來對P(y=1)建模 :因此,該模型將用S形曲線預測 P(y=1) ,S形曲線是邏輯函數的一般形狀。
  • 人工智慧算法問題——正則化解決神經網絡中的過度擬合
    過度擬合是一個很大的問題,尤其是在深度神經網絡中。如果你正在懷疑你的神經網絡過度擬合了。有很多方法可以確定過度擬合了數據,也許有一個高方差問題,或者繪製了一個訓練圖和測試精度圖,然後發現過度擬合了。在這種情況下,我們應該怎麼辦呢?
  • 利用函數模型解決實際問題
    有效滲透數學模型思想,能夠幫助學生積澱從現實問題中抽象出數學本質的過程性經驗,讓學生體驗數學模型的建立過程,重視模型的應用,提高學生解決實際問題的能力和創新能力。本節課為複習課, 學生已經在初二下學期和初三上學期學習了一次函數、二次函數、反比例函數,對於函數的研究具備一定經驗,會應用方程模型、不等式模型解決簡單的實際問題,具有初步的模型意識。
  • BP神經網絡
    BP神經網絡原理 人工神經網絡是一種數學模型,它具有人類神經網絡的一些特質,並且有自學習的能力,一般由MATLAB軟體來實現。與傳統統計方法不同之處是神經網絡是通過訓練實驗來找到解決問題的路徑。
  • 清華大學圖神經網絡綜述:模型與應用
    然而,這些方法在計算上較為複雜並且在大規模上的圖上並不是最優的,GNN 旨在解決這些問題。這篇文章對圖神經網絡進行了廣泛的總結,並做出了以下貢獻:文章詳細介紹了圖神經網絡的經典模型。主要包括其原始模型,不同的變體和幾個通用框架。文章將圖神經網絡的應用系統地歸類為結構化場景、非結構化場景和其他場景中,並介紹了不同場景中的主要應用。
  • 基於深度神經網絡的脫硫系統預測模型及應用
    北極星大氣網訊:摘要本文建立了一個隱含層包含一個長短期記憶層(Long-short Term Memory, LSTM)、兩個線性整流函數層(Rectified Linear Unit, ReLU)、兩個全連接層(Fully Connected Layer)和輸入、輸出層組成的深度神經網絡用於脫硫系統主要指標預測。
  • 從Y = X到構建完整的人工神經網絡
    在本教程中,我們打算回答那些問題,我們從最簡單的人工神經網絡(ANN)做起,一直到複雜得多的模型。讓我們從構建一個沒有參數的機器學習模型開始,即Y=X。然後,我們將逐步增加一些參數到模型中,直到我們建立了一個單個神經元,這個神經元被設計成接收一個或多個輸入。接著,神經元從數學公式映射成圖形形式。
  • 「人工智慧的數理基礎」主題論壇,五位學者從數學角度解決AI問題
    深度神經網絡可被視為一類過參數化模型,與經典統計模型存在很大差別。他認為,可辨識性和維數災難是從統計學角度理解機器學習的關鍵。他從統計模型的可辨識性談起,簡要介紹了高維統計中克服維數災難的主要方法,及其對解釋深度神經網絡泛化能力的有益啟示。他說:「維數不只是詛咒,還應該是祝福。」
  • 神經網絡的性能竟然優於神經符號模型
    而Neural-Symbolic,本質上其實是將現代數學中的分析學和代數學結合的產物。  分析學擅長處理數值、函數、逼近等問題, 代數學擅長處理推演、抽象、結構等問題,如果能適當將兩者結合,會有很可觀的效果。
  • 神經網絡並不是尚方寶劍,我們需要正視深度 NLP 模型的泛化問題
    在機器翻譯中,我們的優化方法存在的一個嚴重的問題是,我們正通過像交叉熵或語句級別 BLEU 的期望這樣的損失函數來訓練機器翻譯模型,這種模型已經被證實是有偏的,並且與人類理解的相關性不足。事實上,只要我們使用如此簡單的指標來訓練我們的模型,它們就可能和人類對於文本的理解不匹配。
  • 基於TensorFlow Eager Execution的簡單神經網絡模型
    然而作為免責聲明,使用Eager Execution需要一些關於深度學習中使用的矩陣代數概念的知識,特別是關於如何在神經網絡中完成前向傳遞的知識。如果正在尋找更高級別且可以使用的東西,建議使用TF或PyTorch中的Keras API。 本文將通過描述構建,訓練和評估簡單多層感知器的過程,提供如何使用Eager Execution的示例。
  • 人工神經網絡簡介
    人工神經網絡則是把對生物神經網絡的認識與數學統計模型相結合,藉助數學統計工具來實現。另一方面在人工智慧學的人工感知領域,我們通過數學統計學的方法,使神經網絡能夠具備類似於人的決定能力和簡單的判斷能力,這種方法是對傳統邏輯學演算的進一步延伸。         人工神經網絡中,神經元處理單元可表示不同的對象,例如特徵、字母、概念,或者一些有意義的抽象模式。
  • 谷歌開源Neural Tangents:簡單快速訓練無限寬度神經網絡
    為了解決這個問題,谷歌開源了一個用 Jax 寫的開源軟體庫 Neural Tangents。谷歌宣稱這個軟體庫可讓無限寬度神經網絡的構建與訓練變得與有限寬度神經網絡一樣簡單。究其核心,Neural Tangents 提供了一個易於使用的神經網絡軟體庫,其可同時為神經網絡構建有限和無限寬度的版本。
  • 神經網絡分析算法
    而神經網絡就是利用其算法特點來模擬人腦思維的第二種方式,它是一個非線性動力學系統,其特點就是信息分布式存儲和並行協同處理,雖然單個神經元的結構及其簡單,功能有限,但是如果大量的神經元構成的網絡系統所能實現的行為確實及其豐富多彩的。其實簡單點講就是利用該算法來模擬人類大腦來進行推理和驗證的。