每周三期,詳解人工智慧產業解決方案,讓AI離你更近一步。解決方案均選自機器之心Pro行業資料庫。
方案1:雲服務平臺
解決方案簡介:
利用諸如微軟 AirSim 的人工智慧技術與混合現實技術,豐田可以訓練載貨機器人識別圖形、自動處理並學習在工廠車間中與人類安全協同工作的正確流程。豐田歐洲公司還在與微軟合作開發 T-Stream 全站解決方案,以微軟 Azure 雲服務為基礎,這套系統運行 Windows 系統並能利用 Bing 地圖和 GPS 系統為技術人員提供更精準的服務,促使其在故障發生之前,為客戶提供保養服務。利用微軟的技術,能夠有效減少對現有倉儲流程的影響,而眾所周知,這是大部分工廠在部署自動化系統時都會遇到的最大障礙。
解決方案詳解:
微軟的 Azure IoT 雲服務包括: 1. 面向物聯網工廠的自動恢復服務,可以簡化製造企業新增工業設施和部署安全性的操作,顯著降低了管理成本。這項服務提供 OPC UA 全球恢復伺服器(GDS)界面,可確保與現有客戶端和伺服器端的兼容性; 2. Azure IoT Hub 能運行在 Azure Stack 混合雲上,讓客戶和合作夥伴得以構建出既可完全在本地運行,也可上雲的工業物聯網解決方案,並在企業內部對數據進行接近實時的採集與分析; 3. 為了給邊緣設備提供更加周全的安全保護,微軟發布 Azure Sphere 預覽,這是首個面向聯網微控制器(MCU)提供工業級安全保障的完整平臺。預計今年全球將有 90 億片微控制器被部署到從家用電器到工廠設備的各種機器中; 4. 響應製造企業的需求,微軟正在計劃對 Time Series Insight(TSI)進行升級,這項服務將帶來大規模可伸縮存儲和數據存檔能力,並有助於降低存儲成本。
方案2:骨齡診斷技術
解決方案簡介:
臨床上通過骨齡檢測來判讀兒童的生物學年齡,通過生物年齡與日曆年齡的差異評估兒童發育狀況,了解兒童性成熟的趨勢,預測兒童的成年身高等,並廣泛用於影響兒童生長發育疾病的治療監測,對一些兒科內分泌疾病的診斷有很大幫助。國際上已經形成套相對標準的產品骨齡圖譜法,能夠完成對骨頭各個細節的研判,經過精密的計算達到一定的準確度。但是解讀圖譜的過程繁瑣耗時,而全國約存在 20 萬的兒科醫生缺口,而無法正確地判斷骨齡會耽誤治療。長期以來,我國缺乏大樣本的骨齡和身高長期追蹤觀察數據,中國健康兒童的骨齡資料庫並未建立起來,臨床應用的骨齡檢測方法也各有弊端,沒有辦法滿足臨床要求。醫院和企業共同開發了兒童骨齡智能輔助診斷系統。系統能通過智能閱片自動計算兒童骨齡,大幅減少醫生工作量;按照算法模型集成 GP/TW3 等主流骨齡標準可以判讀每塊手骨特徵避免骨齡診斷的誤差,產品的精確度可以達到 0.1 歲,與醫生計算的骨齡值相比,誤差小於半年的佔 98%。
解決方案詳解:
雖然現在骨齡系統已經可以鑑別異常,但是建立標準一定要採用相對正常的數據。醫院裡的樣本雖然是相對正常的,但基於醫院的數據只能搜集到看病兒童的數據。
為了提高樣本的代表性,學校、兒童幼兒班的數據不可或缺,系統需要從 0-18 歲不同年齡段男女的正常的骨齡片中學習。依圖將該系統作為科研項目遞交醫院商討合作,經過醫院倫理委員會、科研處批准,企業才可以進入醫院信息系統拿到一定量的數據。另外,軟體成熟後,還需要在院內進行推廣試用,這需要看科室對該系統的接受程度,接受之後才能夠打通,否則機器也無法進入臨床。
標註數據的專業性強,剛開始標註數據時,放射科投入了 40 多個醫生,後來研究骨齡片的醫生也提供幫助。醫生排除各種可能會影響骨齡因素的骨齡片,訓練機器判讀。機器學習的時候,就按照 TW3 計分法,取 20 塊骨頭,每一塊骨頭按 8 個等級去打分,就像量體裁衣一樣。排除特別矮小、早熟、肥胖的樣本,截至 2017 年 10 月,醫院和企業擁有的健康人群樣本量是 1.4 萬。 但是後期僅需幾千張骨齡片左右就足夠訓練機器了,醫生僅需再稍微校正即可,同一張骨齡片在不同時間段的評判也會有 3 個月的差距,系統的誤差在半年以內即達到專家級水準了。
「骨齡」是骨骼年齡的簡稱,是青少年兒童骨骼發育水平同骨發育標準比較而得出的發育年齡,它比年齡、身高、體重更能精確的反映出身體的成熟程度,更加準確地反映個體的生長發育水平和成熟程度。人的骨骼生長發育受到遺傳因素、營養水平、飲食習慣、地理環境、人文環境等多重因素的影響,不同年代、不同種族和區域的兒童青少年的發育會有所不同。
所以,針對不同民族和區域,也應當制定相應的骨發育評價標準,並隨社會發展因素的變化及時修訂。
以往,傳統的骨齡片研判有兩種方法:G-P 圖譜法和 TW3 計分法,分別依據美國 20 世紀 30-40 年代和歐洲 20 世紀 70-90 年代的白人兒童,由於種族差異和社會經濟發展的變化,該標準不完全適用於東亞兒童。為此自 20 世紀 60 年代以來我國學者張果珍、顧光寧、張紹巖、葉義言等曾提出中國人骨齡百分計數法標準、手腕骨發育圖譜,CHN 法,TW3-C,RUS-CHN 及葉氏骨齡法等,為我國兒童青少年的骨齡評定做出了巨大貢獻。
然而不管經典的 GP 圖譜法,TW 計分法以及在 TW2 或 TW3 基礎上改良的我國 CHN 法, TW3-C 法和葉氏法均存不足。G-P 圖譜法簡單但主觀性強不夠精確; TW3 法精確但較為繁瑣,耗時長,需要對橈-尺-掌指骨 13 塊骨(RUS(R)系列),以及腕部 7 塊骨(Carpal(C)系列)共 20 塊骨做 8 個等級的評分和計算,即便使用計算機軟體也需耗時 15-30 分鐘,臨床實際工作中難以推行。
G-P 圖譜法由於使用簡便、直觀、耗時短,在國際上有較高的權威性,因此國內外臨床實踐中仍廣泛使用該方法。然而由於許多兒童手腕骨的發育不一定像標準片那樣均衡,G-P 法在使用過程中最大的困難的仍然是整片比較的主觀性及不精確性問題。
方案3:基於 LSTM 和 CTC 的上下文無關音素組合建模
解決方案簡介:
在 2012 年,公司上線了基於 DNN 的語音識別模型並不斷迭代。在 2018 年,提出百度尖峰技術 Deep Peak 2 模型。模型全稱為「基於 LSTM 和 CTC 的上下文無關音素組合建模」。它能把高頻出現的音素聯合在一起,形成一個音素組合體,然後將該音素組合體作為一個基本建模單元。 此前,國際上的研究者但卻無法避免建模時出現的「過擬合問題」(意思是神經網絡模型對訓練數據擬合程度過當,反而導致在測試集上的效果較差),公司通過聲學模型學習和語言信息學習相分離的特殊訓練方法,使用音素組合來保留最重要的音素連接特性,最終解決了過擬合問題。 利用這種最新的上下文無關建模方式,建模單元從原先的上萬量級降到了一千以內,大幅提升了語音解碼速度,成為百度輸入法語音輸入能做到實時同步。 能夠充分發揮神經網絡模型的參數優勢,語音識別過程穩定性更強,準確度更高,解碼速度更快。
解決方案詳解:
百度輸入法現具備語音修改、語音翻譯、語音輕聲識別、語音聯想表情等 AI 功能。
1. 在提升語音識別整體效率的同時,對中文與英文語料同時適用,具備強大的中英文混合識別能力。 2. 「語音速記」這功能在輸入法領域,採用了「聲紋識別」技術。該技術主要針對 2-3 人小型會議場景,可根據聲紋自動區別發言人,實現智能化的語音識別,能幫助記者免去整理採訪錄音這一耗時較長的重複性工作。
3.「AR 表情」功能則是基於百度的人臉識別技術和 AR 技術。用戶不僅可根據相機或相冊進行人臉識別、製作表情包,還能夠通過自己的表情控制虛擬人物形象。而製作出來的 AR 表情,可以直接通過輸入法搜索、語音輸入和鍵盤輸入時展示出來。該功能希望產品擁抱年輕文化。因為根據公司統計,根據年齡劃分的百度輸入法用戶比例中,90 後佔 70%,表情輸入使用率高達 60%。
方案4:自主導航的人工智慧程序
解決方案簡介:
人類在自然空間中遊刃有餘,可以輕鬆繞過障礙,找到自己與目的地間的捷徑,但其背後的機理卻不甚明了。
May-Britt Moser 和 Edvard Moser 夫婦發現了大腦內嗅皮層更為神奇的網格細胞。他們記錄大鼠運動時特定神經細胞被相應激活的規律,發現網格細胞能將整個空間環境劃分成蜂窩狀的六邊形網格,就像地圖上的坐標系一 Moser 夫婦也因此分享了諾貝爾生理學獎。
人們猜測網格細胞支撐著生物的矢量巡航,即計算通向目標的距離和方向,但人們在發現網格細胞十餘年後,對其計算功能以及和矢量巡航的關係,仍然未知。
DeepMind 團隊稱,其最新研發出的一個人工智慧程序具有類似哺乳動物一樣的尋路能力,非常類似大腦中網格細胞的工作原理,證明網格模式對矢量巡航的重要性。
解決方案詳解:
研究人員首先訓練循環神經網絡基於運動速度信息在虛擬環境中定位。這與哺乳動物在不熟悉環境中運動定位所用到的信息非常類似。類似網格細胞的模式,研究人員稱之為網格單元,在神經網絡中自然出現。
DeepMind 團隊隨後利用強化學習檢驗這種網格結構是否能夠進行矢量導航。研究人員將之前自動出現的網格結構與一個更大型的神經網絡架構結合成了人工智慧體,置於虛擬實境的遊戲環境中。
經歷強化學習後,該人工智慧在遊戲迷宮中向目的地前進的導航能力超越了一般人,達到了職業遊戲玩家水平。它能像哺乳動物一樣尋找新路線和抄近路。而如果將網格單元靜音後,其巡航能力則大打折扣,距離和方向的計算誤差都增大,證明網格模式對矢量巡航的重要性。
方案5:情感計算框架
解決方案簡介:
微軟將小冰智能聊天機器人作為用於對話型人工智慧解決情感交流問題的一種方式,希望通過小冰的情感計算去探索更多的未知領域和需求,讓整個人工智慧產業擁有更大的想像空間。 現在小冰可以作詩、寫文章、使用「全雙工語音」打電話,以及提供智能客服、接入物聯網、智媒體商業平臺解決方案等商用服務。
2016 年 7 月,小冰和日本第二大超市集團 LAWSON 合作,進行了第一次商業化試水。小冰在和兩千萬 LAWSON 用戶進行對話交流的過程中,找到合適的機會給用戶提供打折券,在傳統營銷模式轉化率不足 10% 的情況下,小冰派送的打折券在 4 日內平均到店消費完成的比率高達 57%。
解決方案詳解:
小冰的技術核心是「情感計算框架」,不同於普通聊天機器人使用 Rule Base 的方法來處理對話情景和上下文關係,小冰的情感計算框架中的上下文是覆蓋了Long-tail(長尾)的。其「情感計算框架」從大量數據中還原「人際間的情感反應」,再通過一套專門的排序方法,去擬合近似於人的對話,讓機器人在某種程度上擁有對話過程中的主動權。
從必應(Bing)中國內部孵化後推向全球的創新項目。 面世 3 年與人類共產生了超過三百億輪次的對話,CPS 對話處理輪次達到了23,而行業的平均水平只是1.5-2.5。
小冰和小娜擁有共同的基礎層——微軟在機器學習、大數據、深度學習的技術積累以及整個Bing搜索提供的能力和數據,但小娜小冰在微軟內部是保持相對獨立的兩條業務線發展的。