資訊理論創始人克勞德·艾爾伍德·香農提出,信息是對不確定性的消除。香農開創了用數學描述信息的先河,讓信息變得可測。
香農提出的信息熵成為如今機器學習的一大理論基礎。
超兔CRM一直致力於研究用AI打單,本質上是用機器學習處理信息,通過算法解析數據,最終幫助銷售削弱跟單過程中的不確定性。下面,與您分享一下超兔CRM正在使用的算法。純乾貨!兩大主題:1.LSTM 詳解;2.傳統機器學習與深度學習對比。
LSTM 詳解1.RNN(循環神經網絡):在介紹LSTM之前,先介紹RNN
a) 普通神經網絡:
圖為:神經網絡的結構圖
神經網絡可以當做是能夠擬合任意函數的黑盒子,只要訓練數據足夠,給定特定的x,就能得到希望的y。
舉一個情感分析的例子,輸入一句話,判斷這句話的的情感是正向的還是負向的。
其中x就是輸入層,如上圖有3個輸入,比如為 「我」,」喜歡」,」你」。經過隱藏層的計算,輸出兩個值:正向的概率和負向的概率。(在XTool中的客戶意向,會設置三個輸出)。
那麼既然普通的神經網絡(如上)已經可以完成意向判斷的功能,為什麼還要循環神經網絡呢?
他們都只能單獨的去處理一個個的輸入,前一個輸入和後一個輸入是完全沒有關係的。但是,某些任務需要能夠更好的處理序列的信息,即前面的輸入和後面的輸入是有關係的。
比如,當我們在理解一句話意思時,孤立的理解這句話的每個詞是不夠的,我們需要處理這些詞連接起來的整個序列
所以為了解決一些這樣類似的問題,能夠更好的處理序列的信息,就有了RNN:
b) 循環神經網絡:
圖為:循環神經網絡結構圖
但看上圖左邊部分可能有點暈,右邊為左邊按序列展開的樣式:
還拿上邊情感分析為例:
以此往後推。
這樣當輸入完這句話時,最後的結果會把整個句子的信息都帶上。
但是這樣還不完美,為什麼呢?上邊的舉的例子」我」,」喜歡」,」你」只有三個詞,但在實際運用中一句話可能會很長,幾十個詞。
如果把每個詞的信息都記錄下來,數據會很大,而且最前邊的詞對最後邊的詞的意思可能也沒影響。還有就是從算法上,返向求導時,可能會造成梯度消失或梯度爆炸。
這裡簡單介紹一下梯度問題:機器學習都是靠梯度來找最優模型的,剃度越小,模型越好。
為什麼梯度會消失或爆炸呢,如果一句話很長,係數很小的話(比如0.002),一直相乘,會越來越接近0,最後消失,如果係數很大,一直相乘結果會越來越大,造成梯度爆炸。
2.LSTM:
圖為:長短期記憶網
從上圖和RNN對比發現,每個隱藏層內又做了許多的運算
1)第1個運算為忘記門:
就是決定什麼信息應該被神經元遺忘。它會輸出 「0」或」1″,」1″表示」完全保留這個」,」0″表示」完全遺忘這個」。
2)第2個就是輸入門
就是決定我們要在神經元細胞中保存什麼信息
3)然後就是輸出門
決定哪一部分的神經元狀態需要被輸出
3.LSTM在思想上是與RNN相通的,不同之處都在算法上。
傳統機器學習與深度學習對比一、理論對比:
首先,深度學習是機器學習的一種
1. 數據:
a) 隨著數據的增加,相比機器學習深度學習的性能會越來越好。
b) 深度學習不需要對數據處理,會自動學習提取特徵,而機器學習需要先對數據進行 格式轉化,數據清洗,壓縮緯度等操作。
2. 規則:
a) 具有特定規則的數據,使用機器學習比較好。一些簡單的場景沒必要使用深度學習
3. 硬體
a) 深度學習需要進行大量的矩陣計算,對硬體要求比較高。
4. 執行時間
a) 深度學習訓練模型需要的時間較長。
二、實踐對比:
分別使用貝葉斯算法及深度學習算法進行文本分類預測:
圖為:神經網絡與貝葉斯算法對意向分析對比圖
實例1:
分析:從結果可以看出,不同的數據順序,預測的結果會不同。
實例2:
分析:結果可以看出,神經網絡對消極的判斷的概率更高一些。
實例3:
分析:結果可以看出,神經網絡對積極的判斷的概率更高一些。
如上,」LSTM 詳解」」傳統機器學習與深度學習對比」,非專業人士理解起來或許還有一定難度。不過,各位老闆與管理者不用著急,以上純乾貨理論知識,超兔已經將理論逐步落地實踐,成為超兔CRM系統中的一部分功能,有「AI潛客意向判斷」、「猛獁微助」,更多好功能持續開發中。