新年伊始,著名AI科學家吳恩達曾回顧2020年AI領域的一些重大事件,不少與生物醫學有關,包括AI應對新冠疫情、AlphaFold預測蛋白質三維結構。他預測,2021年 AI 藥物公司將被大型製藥公司以超高價收購。因為大型製藥公司已經意識到這樣一個事實,即機器學習提供了革新藥物發現和開發的潛力。一家主要的製藥公司將出資收購一家 AI 藥物初創公司,將其技術和人才引入到公司內部。
生物醫藥價值鏈上每個環節——從藥物發現、診斷開發到醫療保健提供技術,人工智慧都具有巨大潛力。人工智慧在生物領域的新應用如此之多——似乎每天都有更多的應用出現——以致於人們越來越難以從噪音中分辨出信號。
比如,無論是生物醫藥的領導者還是投資者和運營商,他們經常面臨的一個問題(也是一個重要問題),「如何評估一項AI新技術,值得(我們)花費大量的時間/精力/金錢?」在這篇文章中,a16z的投資人分享了他們評估一項AI生物技術的方法論、需要遵循的原則以及常見陷阱。
作者 | Andy Tran 、 Vijay Pande
編譯 | 機器之能
人工智慧在生物領域的應用突飛猛進,從藥物發現、診斷開發到醫療保健,每一環都能找到AI的身影。鑑於AI擁有巨大的應用潛力,幾乎每天都有AI與生物領域的新應用出現,以至于越來越難以從噪音中分辨出信號。無論是生物醫藥領域從業者、領導者,還是相關投資人與運營商,大家都面臨一個共同問題——如何評估一項AI新技術,是否值得大家投入時間、精力與金錢?
這是一個非常重要的問題。這篇文章中,我們會分享自己如何評估一項AI生物技術、需要遵循的原則以及常見陷阱。
一
你真的需要AI來解決問題嗎?
第一個問題不是關於產品,而是關於你想要解決的問題。人工智慧不是萬靈藥,所以首先要考慮這個問題是否需要或將從基於人工智慧的方法中受益。
人工智慧在處理複雜任務或進行分析時非常獨特,因為這些任務或分析需要處理大量的非結構化數據,而這些關鍵特徵並沒有很好地定義或對人類來說並不直觀。
如果你想要僅能預測受某些已知變量影響趨勢的軟體,則AI可能會過大(甚至有害)。相反,AI可以幫助你篩選複雜的醫學圖像或非結構化的健康記錄之類的數據,以幫助診斷由廣泛的相互作用或不清楚的因素引起的疾病。
您還必須考慮數據本身。是否有足夠高質量用於訓練和測試的無噪聲數據,以便使AI能夠有效發揮作用?是否需要首先單獨進行數據生成和管理?當你已經一絲不苟地對你的問題和數據進行了壓力測試,並確信對於AI來說生物問題已經成熟,那麼就可以評估平臺或產品本身了。
二
是真的AI還是營銷炒作?
人們經常混淆或故意誤用「AI」這個詞,但實際上,它的意思是使用預先編程的軟體進行自動數據分析。當我們談論AI時,通常指的是自動發現獨特見解的算法或平臺,這些見解對於人類而言至少在合理的時間範圍內很難推論甚至無法推論。隨著數據隨著時間的推移而擴展,這些見解將繼續得到改進和優化。真正的AI系統是迭代的,並且變得越來越自治。
另一方面,自動化使用基於規則的系統來「預測」結果,但是這些預測無法適應。自動化可能允許重複性任務的完成,但是它無法從這些任務中學習以完成新任務。
例如,不由AI提供支持的醫學轉錄軟體可以很好地理解經典的心血管術語,但是,如果遇到較新的腫瘤學研究概念或以前尚未探索的本體論,它將無法適應和學習。
當心那些聲稱使用AI但實際上只是基於人類選擇的統計分析進行基本數據分析的公司。這看起來像一個模型,該模型基於利用醫生選擇的特徵(疾病嚴重程度,年齡等)的回歸分析來估計住院時間。這不是AI。
為了識別真正的AI,重要的是要深入研究如何訓練平臺。功能是自主學習的,還是全部預先預期或預先選擇的?它是否可以根據反覆試驗實際進行調整,還是受某些參數約束?準確性和預測能力會隨著時間的推移自動提高嗎?還是趨於平穩?它會創建自己的大量數據嗎?
數據消耗是AI的顯著方面,它可用於迭代地改進模型。總而言之,假冒的AI系統嚴重依賴費力的輸入和人工監督,因此無法適應。真正的AI系統具有學習能力,獨立的特徵識別能力,並且隨著時間的推移而不斷改進。一旦確定要使用真正的AI,就可以更深入地探究AI的工作原理,以及它如何與競爭對手競爭。
三
該模式能否真正實現差異化?
評估任何一項AI驅動的新技術,下一步就是要確定它與競爭對手有哪些差異化之處。要了解一個產品的創新本質,自然要對其應用領域(醫學轉錄、藥物設計、生物標記物發現、臨床試驗預測等)有更深入的了解。
核心問題在於,判斷AI是否真的實現了該領域中前所未有的東西,是作為一個全新的用例出現,還是在速度、效率、成本等方面有了數量級的改進。這裡的邏輯對於所有新產品都是一樣的,不管是不是AI。
當我們考慮差異化時,一切都歸結為第三方要複製該技術或提高它的難度(有沒有護城河?)。了解數據集甚至AI算法本身的來源非常重要。關於高質量開源AI軟體包和數據集民主化的驚人事情之一是,它們易於現成。現在,即使是入門計算機科學的學生也可以將一個簡單的機器學習分類器組合在一起。
儘管這對於更廣泛的領域而言是不可思議的進步,但還必須辨別給定的平臺是否可以使用現成的工具進行複製,或者是否存在一些根本的進步。
四
有效嗎?你怎麼知道的?
一旦你確定所討論的產品是真正的人工智慧,並且與競爭對手有所區別,現在是時候深入了解它的量化表現了。此時,了解給定應用程式的指標,至關重要。
例如,如果你正在處理一個分類問題(例如,分類一個組織樣本是否屬於癌症),你的目標應該是最大化準確性。了解AUC值、靈敏度、特異性等非常重要;如果正在處理一個複雜的回歸問題,如預測藥物的分子屬性值或患者治療的理想劑量,你應該努力減少誤差,度量標準如R⊃2;或RMSE是關鍵。
然而,在現實世界中,最大化準確性或最小化誤差並不足以保證成功。你必須知道效用的臨界值。由於預測建模是相對於手頭的應用程式而言的並且是特定的,因此最大精度通常是不可行的(也不要求)。這一切都基於上下文,以及適用於該問題的AI驅動算法的當前基準。從表面上看,0.71 R⊃2;可能並不令人印象深刻,但如果沒有特定應用程式的優先級,則可能令人震驚。例如,如果您要預測臨床試驗結果,那麼,即使是一個不完善的系統也只能提供適度的預測性能提升(也許允許您每年取消一個額外程序的優先級),也可以為組織節省數十億美元。
了解性能後,將其與更簡單的方法執行效果進行比較也很重要。如果用更簡單的隨機森林或邏輯回歸替換你的複雜深度學習算法,了解性能如何變化,你就有機會發現模型技能的局限性。
隨著人工智慧在生物技術領域的發展,可能會出現一些甚至還沒有建立基準的新應用。在這些情況下,最重要的是理解與標準方法相比,人工智慧如何提高特定任務的準確性、速度或精度。(儘管這些未知的情況可能看起來很棘手,但這些新領域的機會往往是最令人興奮的!)
五
是不是……太好了?
在這一點上,也許你擁有數據,知道你的參數和基準,已經訓練了你的AI,並且它的AUC是0.99 !看起來你已經破解了代碼,你的平臺已經準備好了! 不過,先別喝香檳。作為該領域的投資者和從業者,我們已經多次目睹了這場電影的結局。劇透警告:這個超高精度的人工智慧算法一旦被暴露在真實世界的數據中,很快就會失敗,給你的預測就像拋硬幣一樣。
「這怎麼可能呢?」人們可能會問,尤其是在經過幾個月的訓練和驗證之後,而且利用了最先進的人工智慧工具。一個可能的解釋是,答案可能已經隱藏在訓練數據集中,所以,本質上這個過程從一開始就被破壞了。簡單地說,答案測試集被意外洩露到訓練數據集。從技術上講,數據準備和交叉驗證過程會導致數據洩漏。
一個經典例證就是,從組織圖像中開發出一種看似精確的AI驅動的腫瘤檢測器,但當該系統用於另一家醫院的腫瘤圖像時,它會完全失敗。回顧這些數據,科學家們意識到,所有帶有腫瘤的圖像中都有一個白色的標尺來測量腫瘤的大小!標尺是隱藏在訓練集中的欺騙項,為了使模型成為一個訓練良好的標尺檢測器。這裡的關鍵信息是要注意從它的「白色標尺」中清理數據,僅僅掌握統計數據是不夠的。
有時,AI模型的陷阱更隱蔽,以致於無法準確定位某個特定功能。這些比較難發現,因為它們可能不那麼明顯或不像二進位,可能是R2之間的差異,比如 0.6和0.78之間。一個經常困擾AI算法的例子是時間序列數據問題。
以人工智慧驅動平臺為例,該平臺致力於預測一種藥物在臨床試驗中的成功概率(PoS)。乍一看,使用所有可用的臨床試驗信息似乎很自然。測試時,當你的模型自信地預測2007年一些關鍵試驗的結果時,你也會被(錯誤地)打動。
這裡的錯誤是,人工智慧模型已經包含了來自未來的線索,這使得問題更容易預測。儘管數據已被清理,重複數據已被刪除並且沒有任何隱藏的線索,但是,截至2020年的臨床試驗數據集已經藉由新的生物學和臨床知識(例如,新的劑量方案,與新方式的相互作用,較細化的患者亞組等進行的臨床試驗等)吸收了「作弊因子」,而這樣的模型在2007年是不存在的,也因此無法推廣到以後的試驗中。在按時間序列引入數據洩漏的情況下,我們必須注意不要讓我們模型窺視未來。
最終,一個好的模型(從而是一個好的產品)可以確保訓練數據真正代表並推廣到將要分析的真實世界的預期數據。
六
是否進行了前瞻性試驗,
作為驗證的黃金標準?
最後,即使認真地執行了上述所有步驟(並且選擇了明確的控制項來建立基線,確保沒有偏見或數據洩露的暗示,檢查了訓練數據是否可以推廣),你仍然只測試了AI平臺使用歷史數據與預先確定的答案。簡單地說,一切都是回顧性的。而對於現實世界的應用程式,你只能控制這麼多,未知可能會讓你摔倒——即使你並沒有打算作弊!
在對給定技術做出最終決定時,沒有什麼比精心設計的隨機臨床試驗(如前瞻性測試)更能真正驗證AI平臺的了。這是測試的聖杯——真實生活中的預演。不過有時在時間,資源和新技術的成本方面可能不切實際,因此,下一個測試最好是某種形式的回顧性盲法測試。一個經典的基準數據集可以讓你有機會在一對一的研究中,比較不同競爭技術的性能。
總之,隨著人工智慧繼續滲透到生物技術的每一個角落,我們相信這些指導原則對於從業者和商業夥伴都是至關重要的。但這些複雜的模型——以及它們在複雜生物學上的應用——需要一套獨特的技能才能真正理解。我們認為,企業必須將他們的人工智慧專家與其他領域專家結合起來。只有這種協同的結合才能充分發揮人工智慧在生物領域的巨大潛力。但對於那些曾經懷著好奇或懷疑態度「袖手旁觀」的人來說,這個框架可以成為一個切入點,讓他們開始評估一個特定AI產品是否值得他們投入時間和資本。
說明:
1、曲線下面積(Area under the curve, AUC)是分類問題的一種性能度量,表示可分性的程度或度量。它告訴我們一個模型能在多大程度上區分不同的類。AUC越高,模型的預測能力越強。理論最大值為1。當AUC為0.5時,說明模型根本沒有分類能力。
2、R⊃2;或r⊃2;是對數據點與模型匹配程度的一種衡量。R⊃2;的理想值是1。R⊃2;的值越接近1,說明模型對數據的擬合越好。
3、RSME:均方根誤差(RMSE)是預測定量數據時模型誤差的度量。RMSE越小越好。
4、交叉驗證主要是人工智慧應用於對看不見的數據估計模型的技巧。首先,將可用的數據集分割為訓練數據、驗證數據和測試數據的三個子集。使用訓練集對模型進行訓練,該過程的目標是在某些指標(如準確性)上獲得最高分數的模型。最後通過測試數據集判斷模型的性能來衡量模型的成功與否。
參考連結:
https://a16z.com/2021/01/08/evaluating-ai-bio/
機器之能面向正在進行數位化轉型及智能化升級的各領域產業方,為他們提供高質量信息、研究洞見、資料庫、技術供應商調研及對接等服務,幫助他們更好的理解並應用技術。產業方對以上服務有任何需求,都可聯繫我們。
zhaoyunfeng@jiqizhixin.com
原標題:《這個生物醫藥AI應用靠譜嗎?先回答矽谷頂尖風投六個問題》
閱讀原文