作者:聯想香港讀數據團隊
機器學習小姬
本文僅代表作者個人觀點
還記得當年向我人生中第一位也是最重要的一位人工智慧導師討教學問,問其人工智慧到底有什麼價值?她回答說,只希望人工智慧能夠讓我們的生活變得更加便捷。自此便把這一目標作為我從事人工智慧事業的方向。
——筆者題記
當時萬萬沒有想到,人工智慧竟然演變到如此熱炒的詞彙。不管是資本市場驅動也好,還是實體行業病急亂投醫也罷,為人工智慧買單的人來說對於其抱有無限期望,希望這一技術能夠解決一切商業上最棘手的問題。
所謂,期望越大失望也就越大,失望後對這個技術嗤之以鼻的話那就又走向了另外一個極端。
相信很多人都是從AlphaGo,無人駕駛才開始關注這個行業的,然而借用一個前輩所說的話,大家都覺得AlphaGo和無人駕駛是人工智慧,然而大家從來都沒有想過自己天天用的百度,逛的淘寶,背後支持他們的便是人工智慧技術,而這些已經落地了的,沒有那麼炫酷的應用場景才是人工智慧為我們帶來的價值,才是真正為我們生活帶來的改變。
相信不久的將來,當市場回歸理性,其中一些應用場景也落地並且能夠為我們的生活提供些許的便捷,這個技術也有它的價值了。
從網際網路公司看監督式機器學習
不少讀者發現,最先成功的應用場景便是網際網路公司了,這是什麼原因呢?因為他們擁有幾個先天條件的優勢:
1. 用戶產生的數以億記的搜索數據,購買數據和分享數據等,這些數據滿足了一個最重要的條件,就是數據量大且種類多;
2. 這些公司的商業目標明確,用戶喜歡點擊他們就賺廣告費,用戶喜歡購買他們就有直接收益;
3. 他們能夠迅速獲得並積累大量有關用戶是否喜歡的反饋,且這些反饋和他們的商業目標直接掛鈎。
這些問題都屬於同一類人工智慧問題,我們稱之為監督式機器學習問題。監督式機器學習直觀上理解就是學習出輸入數據(我們稱之為特徵)與目標之間的關係從而做出預測。而監督式機器學習問題是我認為目前較為成熟,落地可能性最大,擴展性最強的一個方向。嗯,有點類似經濟適用男的感覺,不夠酷但是靠譜!
從監督式學習的引用場景看AI如何落地
而一個商業問題是否成功適用監督式機器學習技術要看三個方面:1. 數據多:不僅數量級大,且要種類多;雖然數據量和特徵的數量因問題不同要求不一樣,但通常來講,數據量一般要從幾萬到幾十萬,特徵一般從幾十個到上百個;2. 一個明確的預測目標,最好這個預測目標能和商業價值直接掛鈎;3. 對於這個預測目標,需要歷史的真實答案的積累,也就是監督的意思。
接下來,筆者分別從三個行業,來依次介紹現在已經成功應用監督式機器學習的場景,這些商業案例均摘自KAGGLE。對於每個案例,筆者都會從a. 特徵,b. 問題目標,c. 真實答案,d. 價值這四個維度進行簡要說明。
主要技術為監督學習技術,必要條件一定需要需評估物品的風險估值,且有一定的歷史數據積累。商業價值在於,採用傳統方法評估耗時耗力,而此預判可以幫助他們減輕一些風險較低的物品評估,而將評估重心放在風險較高的物品上,確定其是否被保。
案例介紹:利寶互助保險公司(Liberty Mutual)
對於擁有百年歷史的利寶互助保險公司來說,他們有個業務就是很多客戶想給他們的房屋投保,而他們需要根據他們的房屋情況來判斷其風險狀況來確定是否投保。他們需要實地考察房屋狀況,如地基,屋簷,窗戶等。現在他們想通過已知的一些其他特徵變量,在房屋實地考察前,預先判斷這個房屋的風險,從而對於高風險房屋進行額外的考察。那這個問題的價值就是當一個新的房屋且擁有之前的那些特徵變量時,系統則可以給出這個房屋的風險分數。
a. 特徵:關於房屋狀況的一些變量,約30幾個
b. 問題目標:預測一個房屋的風險程度。
c. 真實答案:歷史上積累了很多房屋的風險分數(分數越大則代表風險越大),大約10萬條
d. 價值:當一個新的房屋且擁有之前的那些特徵變量時,系統則可以給出這個房屋的風險分數。
醫生們通常通過圖像和專家規則去進行一些疾病的診斷。但由於資源的缺乏或者人工判斷的耗時性,導致很多病情不能及時的跟進或者拖延治療。近期由於深度學習在於圖像識別上面的卓越表現,為醫療行業的診斷打開了一扇全新的大門。機器可以通過在大量真實的案例中學習,從而對一些疾病能夠得到與醫生同樣優越的準確性,且不失其穩定性。這樣能夠解放醫生,從而讓醫療資源集中在那些需要面對面治療的病例上。
案例介紹:糖尿病性視網膜病變
通過患者的視網膜圖片來進行診斷,將診斷結果分為沒有,輕微,中度,嚴重,和增殖性糖尿病性視網膜病變(DR)。
a. 特徵:視網膜圖片
b. 問題目標:跟據圖片進行診斷,分為沒有,輕微,中度,嚴重,和增殖性DR
c. 真實答案:他們累積了很多歷史上有記錄的視網膜病例判定結果
d. 價值:能夠系統判斷症狀,對於不確定的再進行醫術判斷
由於製造業的複雜性和生產過程中的千差萬別,給我們帶來了豐富的機會去參與其中,不管從原料需求還是生產錯誤檢測。製造業不同於其他行業,其數據具有量級較少但種類多且複雜的特點,同時業務邏輯複雜,對於監督式機器學習的落地提出了挑戰。
案例介紹:卡特皮勒公司(Caterpiller)
卡特皮勒公司為全球各地銷售各種各樣的大型建築和採礦設備,而每臺機器依賴於一套複雜的管道系統來維持正常的裝載等功能。卡特皮勒公司依賴於一系列的供應商去生產這些管道配件。現在他們希望能夠預測這些供應商針對每一個管道配件的報價,希望能夠找到影響管道報價的
a. 特徵:擁有管道數據,規格參數等
b. 目標:預測供應商針對管道配件的報價
c. 真實答案:約有6w多條真實報價記錄
d. 價值:掌握上遊的報價情況,可以進行庫存合理分配和優化
以上的案例描述只是對人工智慧可以做的事情的一個初探,對於其邊界條件的定義也不是一蹴而就的。路漫漫其修遠兮,吾將上下而求索。只要從業者抱著務實謹慎的態度,我相信人工智慧這項技術確實能夠為我們的生活帶來便捷!
本文授權轉載自【一個比特】,並會精選優秀文章做持續報導,【一個比特】由聯想香港大數據香港團隊成立,是聯想加速器重要的智庫及支持團隊之一,致力於以專業的態度解析大數據,以開放的視角做大數據商業化.目前,聯想加速器第二期已經開始招募,
方向為AR,VR,大數據,人工智慧,機器人,
技術驅動型的早期創業團隊。
聯想加速器將提供:種子+天使投資、
三個月免費辦公場地、
聯想資源和業務協同、
全生命周期服務 +定期公開課、
下一輪優質投資對接等服務。
關注官網 http://accelerator.lenovo.com
點擊閱讀原文開始報名!