ai本質上只是一種工具,從發展的角度來看,目前制約ai的核心問題是計算能力和存儲,這些東西可以通過技術突破來改善,但是制約ai發展的核心問題還是生產力,想要更快更方便更便宜地獲取服務,那麼智能語音是可以幫助人們提高生產力的,這就是為什麼很多很大的網際網路公司都紛紛在研發ai語音系統。
不過阿里的這種技術似乎也只是在一些細分領域有應用,因為這些服務所涉及的很多行業沒有這麼多高要求。我感覺這些問題都是隱性的,技術是根本。像ai方面的實際操作靠技術。有了技術要投錢得要人。ai只是一個工具。解決問題的核心是應用!或者說是實際解決問題的效率。阿里這個阿里ai平臺,一直都做的是幫助每個行業提升每個行業相關人員的效率,提升效率。這個效率本質上就是基於強大的數據處理能力。
這是兩個不同的世界,一個網際網路屬於科幻,一個物聯網屬於現實阿里如果真有200萬現金、10萬股基金、3萬億現金,阿里巴巴如果有10萬個員工,如果有100萬家小店,如果有十萬級客戶,有100萬個小客戶,那誰做這個項目?還是得看看環境,人的適應性。環境什麼樣它們什麼樣。正如某些公司的盈利模式是租房子賺房租,但它們經常能在供不應求的情況下做出租房。技術上不是問題,問題在於,給小孩子上個電腦課,他們可能就會離開了。請參照微軟xbox。用於人工智慧的語音交互專用晶片和算法人腦的這個溝通交流機制並不是什麼重大技術問題是有一定難度的。
目前的能力是作為輔助工具,真正的核心技術還在於現有的機器視覺和機器語音技術上。目前制約ai發展的,主要是數據的精確度和能夠檢索的數據數量。這還遠遠沒有到技術解決問題的本質方面。語音識別是因為通過聲波的不同形態(電流形態,頻率形態,震動形態)來表達邏輯關係,有邏輯順序,有特殊聲音等特徵,以及對於語境的特殊表達方式。視覺識別是利用畫面不同成熟的幾何元素和場景中自身情緒等共性,識別關鍵點,識別物體類別,識別顏色等。目前主要有三個特點,一個是描述問題,一個是識別場景,一個是視場(3d)。邏輯的精確度,與參數的數量及用量成正比。時間用量基本可以忽略。一個詞定向解決一個問題,一個詞關聯幾個其他問題,一段話作為一個全周期的大問題。
深度學習這塊,如果能發展到至少達到其他任何一種程式語言可以效仿,那才能算是比較精確的解決了問題。三種方式中,一個基本是內部採用的語言,比如opengl或者three.js,一個提供標準的對內部的類庫,一個用來平行接口形式實現。