對話平安集團首席醫療科學家謝國彤:AI在「知識」與「數據」兩側搖擺

2020-12-04 騰訊網

擔任平安集團首席科學家之前,謝國彤已在IBM與認知醫學深交了15年,算得上國內認知醫學從「0」到「1」的見證者。

認知醫學,是以認知計算為核心技術,以醫療大數據為底層數據支撐,藉助AI對患者數據進行深度挖掘和分析利用,探索醫學問題新解法。描述之中有個兩個關鍵,一是AI,二是數據。

理論上,AI人人可有,數據卻不一定可有。訓練圍棋AI時,DeepLearning團隊可以輕鬆調用豐富的棋局數據,通過不斷模擬演練,對AI的決策方式、決策能力進行調整完善。相比之下,打造醫學AI則困難得多,這一難度的提升很大程度上歸結於「醫療數據」本身的特徵。

醫學數據存在非標準化與倫理限制兩個特點。一方面,由於學習、習慣的不一致,不同醫生的病歷錄入往往不盡相同;另一方面,數據的歸屬權雖然沒有定論,但肯定不屬於想要創造AI的企業。

這便是謝國彤來到平安的原因之一。坐擁完整醫療生態的平安擁有充分的動力去生產並標準化醫療數據,這意味著它擁有成熟的AI造血能力。在這裡,謝國彤可以解決「知識」與「數據」的問題。

在平安集團,謝國彤看到了什麼?AI的未來將要發生什麼?近日,動脈網和謝國彤一起,展開了一場深刻的對話。

平安科技首席醫療科學家 謝國彤

「AI的發展就像一個鐘擺,它在兩級之間搖擺,一級是知識,一級是數據。」

Q:算法、算力、數據三要素外,現在尤其強調知識這一新要素。新階段下,如何同時做好知識與數據?

A:人工智慧概念剛興起時,走的便是「知識」這一重推理的方向。具體而言,研究人員嘗試將人積累的知識轉寫為機器可以理解的邏輯算法,又名專家系統。

專家系統的嘗試以失敗告終。要想把專家的知識變成規則,就需要一個非常強的規則表示語言,還需要擁有非常強領域知識的工程師對知識進行編碼。實際操作下來,就算能把專家的經驗轉化為知識,但實際上也就只有五、六成的水平,醫院是跑不下來的。

知識方向的失敗推著大家走向另外一個極端,許多研究人員開始沉迷於數據,將海量的數據堆至算法之中。這種重學習的方式在別的領域或許可以,但醫院領域不行。醫療太大,你永遠不可能說你的大數據是大而全。

GPT-3便是一次關於數據量的嘗試,它聚焦於通用的NLP模型,使用了45TB的數據進行訓練,但在關於醫療相關任務的測試之中,「人工智慧暴力美學」的表現仍然不盡人意。

因此,無論是「重推理」,還是「重學習」,偏重任何一側都不能充分發揮AI的力量。但要找到其中的平衡點也並不容易。許多學者都在其中進行了深入淺出的嘗試,希望在一個框架下讓機器學習和邏輯推理二者能更均衡更充分地發揮效用。

AI的發展就像一個鐘擺,它在兩級之間搖擺,一級是知識,一級是數據。到目前為止,沒人知道這個平衡點在哪裡。這也意味著,處理知識與數據的方法,沒有最好,只有更好。我們一直在路上。

Q:到了今天,創造AI的方式是否因時代的進步而發生變化?醫療領域是否因變化而受益?

A:打孔機時代,數據存儲的方式是在卡片上打孔;數據的傳輸是由交通工具對卡片進行物理位置上的轉移後再進行讀取……60年過去了,數據的處理方式依然是收集、治理、存儲、應用,但其中的每一個環節,都因為技術的介入而使得數據的價值得以提升。譬如,過去只能處理存儲文本信息,現在能夠存儲影像、聲音等等各式各樣的信息。越來越多的非結構化信息進入可處理的範疇,這賦予了AI被創造的可能。

遊戲領域便非常適合打造AI算法,因為這裡有確定的規則,豐富的可供調用的數據。谷歌AlphaStar開發的星際爭霸AI便是以百萬份遊戲《星際爭霸2》的遊戲錄像為數據進行學習,短短一年時間便能與職業選手一爭高下。

相比之下,醫療數據往往是非結構化數據,且不同數據之間的差異與聯繫需要專業人士進行甄別。這意味著,要理解醫療數據並用機器進行處理並不容易。以糖尿病為例,醫生的治療有一線二線三線四線藥物,你不能一上來就給醫生推薦四線藥物。四線藥物的療效支撐是有前提的,AI不能對前提條件視而不見。

另一個問題來源於醫療數據分布的不均勻,我們曾嘗試做一個覆蓋大多數眼疾診斷的人工智慧軟體,但當我們綜合了四家頂級眼科醫院的脫敏數據後,我們發現常見病如青光眼、白內障佔據了大部分數據,而網膜裂孔、視網膜動脈阻塞等病種的數據便非常少,這些病種便很難打造出成熟的、符合臨床需求的AI工具。

總的來說,創造AI的根本路徑沒有變,但細節一直在變。醫療領域的確因此受益,但就現在而言,這些益處非常有限,AI還需要很長一段時間的發展。

「輔助醫生工作的AI,不應想著做一個破壞者」

Q:如此看來,現階段的醫療AI功能還十分有限,我們應該怎樣正確的認識AI,以避免盲目樂觀,或帶給醫生過高的預期?

A:指出錯誤認識,剩下的便是正確的認識。

首先是要理解醫療行業。很多AI企業在同醫生溝通時,把他們的訴求想得太過簡單。答應得很容易,但做著做著就開始認清現實了,發現自己辦不到了。這種情況不僅僅出現在醫療領域,當你把任何一個算法應用到一個具體行業中時,必須先有對這一行業的深刻理解。包括行業的應用、流程、關係生態……然後你才知道怎麼把你的東西嵌進去。

其次是認清自己在做什麼。過去幾年,很多AI企業總想著「破壞」與「重構」,想著用AI代替醫生。就像往平靜的湖面上丟石頭,這會打破醫院現有的平衡關係,但沒人會歡迎破壞者。醫療是個慢行業,網際網路思維在這裡很難走通。

到了今天,醫療AI與醫生的磨合也就短短數年,醫生從一張片子裡看到的信息關聯著他的認知,他對患者情況的理解……這不是一個從影像中找到可疑區域的過程,醫生的推理貫穿這過去與今天的知識,還夾雜著想像力。

要學習這些,AI任重道遠。

Q:探索至今,現有的AI應用場景中,哪些有前景?哪些還需要變革?

A:談論這個問題,一般需要區分為院內和院外兩個部分來思考。

先談院內。俗話說「三分靠院內治,七分靠院外養」。現在我國慢性疾病患者人數劇增,年診療量從70億到80億再到90億。患者出院後,醫院是想管的,希望留住客源,收集完整的患者數據,這對醫院的收入、後續的科研都是有幫助的。同時,患者全程由同一個醫生跟蹤管理,也會有更好的效果。

不過,院外疾病管理全靠醫生來管,肯定是管不過來的,全靠患者自覺,患者也沒那麼自覺。所以,院外管理是可以由機器幫助醫生進行統計、監督的。這是一個有效的應用場景,藥企、醫院都有需求。

當然,很多企業想要切入三甲醫院的核心流程,不過到目前為止,我覺得沒有什麼AI真的切入到了三甲醫院的核心流程,肺結節沒有,病理也沒有。可能有小案例確實做到了,但成規模的現象沒有發生。

那麼AI能在診療中發揮大作用嗎?我認為是的。不過不是在三甲醫院,而是在基層醫療。

中國有100萬家醫療機構,三家醫院才不過3000多家,基層醫療是一個擁有龐大AI需求的場景。當然,基層醫療的需求自然與三甲醫院不同,那裡的醫生跟大醫院相比確實有差距,醫生們也沒有那麼忙,更多需要的,不是效率的提升,而是規範性的提升。AI開發者要抓住這些特徵。

規範下來的好處很明顯,第一是對患者好,能夠提高診治準確率;第二是省錢,避免了各種不合理的醫療行為。

院外的AI應用場景合理的非常有限,最重要的便是藥物研發。

藥物研發是一個需要大量數據密集計算的領域,從上億個分子中去尋找,從無數臨床試驗中去探尋,最後看到底什麼物質最有可能成為藥。

如今一款創新藥的研發全流程花費動輒十億美元,時間跨度也長達十年。但其中的每一個環節,都有很多可以用算法優化的地方,這裡擁有很大的市場。

到目前為止,有很多創業公司在裡面競速,但都沒跑得太遠,如今包括平安、騰訊、百度等企業都加入了其中,要追上去,並不困難。

Q:有了方向,怎樣才能做好AI?

A:第一是動力問題,就我個人的經驗而言,簡單說可分為兩點。

第一點是這個問題得足夠有挑戰,不是我伸手就能夠到的。我得對這個問題花點力氣、花心思,然後做好他,這樣我才會去做這件事。

第二點是解決這個問題得有意義,不能說為了掙錢來做這個事。醫療本身特別有價值,當你看見醫生逐漸通過醫療手段將腫瘤患者從死亡邊緣拉回來時,幫助他重獲新生時,你會覺得這事特別有意義,我們也想用科技手段幫助醫生,進而幫助到患者。

有了動力,其次便是執行的問題。為什麼選擇平安?因為醫療科技並非任何地方都可以做,需要多方共同開拓,而平安擁有這樣的生態。三十年的保險業務經驗,十年的醫療業務、數據積累,這些東西研發AI很需要,也很難複製。

如今我們正在將這麼多年積累的用戶體檢數據、保險理賠數據、網際網路問診數據、影像中心數據等等數據沉澱下來,知識圖譜化,然後變成醫學大腦,去服務更多的患者,為患者構建疾病全生命周期的管理。

只做單一環節的AI很難發揮作用,這樣的AI企業要麼做不大,大多在做好後被整合,能啃下硬骨頭的企業太少了。最後能活下去的,一定是一個有醫療業務的公司,而不是單純的醫療科技公司。

「如果沒有NVIDIA的GPU,沒有Google,Microsoft的開源算法,我們怎麼辦?」

Q:醫療AI,需要怎樣的底線?

A:數據問題一直是醫療AI中最為敏感的問題,也是企業需要遵守的底線。過去大家少有隱私意識,但隨著人們對於隱私問題越來越敏感,從事醫療大數據的公司將會越來越困難,這個行業發展會相對放緩。

當然,這種發展的放緩是相對於近年來的AI醫療野蠻生長而言的,一家從事數據處理的公司,首要任務便是處理好數據的安全問題,保護用戶的隱私,做不到這一底線,就不要去談發展速度。

做好數據安全不單單是企業的事,我們也需要國家推動數據的使用指南。海外一些國家對於數據的交易擁有明確的定義,主要滿足相關的要求便可進行合法交易。在一方面,我們還很缺乏。需要向外學習。任何產業,有了規範,遵守底線,才能蓬勃發展。

Q:中國能在AI方向做到世界最前沿嗎?

A:毫無疑問,我們會站在世界的最前沿。

當我還在IBM的時候,無論是紐約的同事,還是矽谷的同事,我都告訴他們,做醫療AI,中國是一個不錯的選擇。五年過去了,看著他們這些年的成果,我覺得當時的話更在理了。

中國擁有開發醫療AI源源不斷的動力,病人多,醫生少,需求就擺在這裡。同時,對於新技術,我們擁有其他國家人民難以望其項背的熱情,所以我們能做成,也能做到最好。

現在要解決的,是我們仍缺乏的兩個關鍵點。第一是定義問題的能力;第二是底層的核心技術。

為什麼需要定義問題的能力?一直以來,我們都擁有濃厚的實用主義精神,從來不缺乏解決問題的能力,別人做什麼,我們就能跟著別人做,甚至做的更好。不過,當我們逐漸走到最前面時,這時就迷茫了,因為我們缺乏開創性的想法,沒有東西可學了。

所以,我們需要為企業構建創新發展的環境。

其次是底層的核心技術。現在的AI就像沙灘上的城堡,很輝煌,但也很脆弱。如果NVIDIA不向我們出售GPU,Google、Microsoft不向我們開源算法,我們怎麼辦?

華為是一個很好的案例,我們要引以為戒。

現在是一個很好的機會,由於美國對於華人科學家的打擊,很多人都回國了。他們知道應該怎麼去做開創性的東西,問題的關鍵在於我們能不能給他們一片適合他們生長的土壤。說到底,我們需要為人才構建創新發展的環境。

*封面圖片來源:123rf

聲明:動脈網所刊載內容之智慧財產權為動脈網及相關權利人專屬所有或持有。文中出現的採訪數據均由受訪者提供並確認。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

進攻是最好的防禦

相關焦點

  • 對話平安首席科學家謝國彤:AI如何平衡「知識」與「數據」?
    擔任平安集團首席科學家之前,謝國彤已在IBM與認知醫學深交了15年,算得上國內認知醫學從「0」到「1」的見證者。認知醫學,是以認知計算為核心技術,以醫療大數據為底層數據支撐,藉助AI對患者數據進行深度挖掘和分析利用,探索醫學問題新解法。描述之中有個兩個關鍵,一是AI,二是數據。
  • 對話平安首席科學家謝國彤:AI如何平衡「知識」與「數據」?
    擔任平安集團首席科學家之前,謝國彤已在IBM與認知醫學深交了15年,算得上國內認知醫學從「0」到「1」的見證者。認知醫學,是以認知計算為核心技術,以醫療大數據為底層數據支撐,藉助AI對患者數據進行深度挖掘和分析利用,探索醫學問題新解法。描述之中有個兩個關鍵,一是AI,二是數據。
  • 沈定剛、龔啟勇、謝國彤、鄭冶楓、王東媛,CCF-GAIR「醫療科技專場...
    其中,醫療科技專場向來是CCF-GAIR峰會上學科交叉、產學融合特徵非常鮮明的專場之一。從五年前開始,我們就知道,醫療科技需要艱深的醫學知識,又需要人工智慧、大數據技術的「因地制宜」。周志華教授曾說到,人工智慧產業發展最核心的要素是人才。
  • 對話平安集團首席科學家肖京:要著眼實際痛點,人工智慧不僅是炫技
    此次大賽協辦單位之一平安科技作為平安集團旗下科技解決方案專家、平安集團高科技內核,在「金融+科技」雙輪驅動下,擁有著龐大的商業體系,專注於為機構、企業、政府提供端對端智能科技服務,帶領生態合作夥伴觸達更多、更廣的業務場景,為 AI 技術升級不斷提供輸入和數據。 2008 年平安科技成立,開始了金融領域技術創新的嘗試。
  • 做醫療AI,你能不認識這六位大佬?| CCF-GAIR 2020
    醫療科技正在迎來一個全新的時代。如果說,2020年之前的醫療科技行業,是一場政策和企業的漫長「試水」;那麼,在疫情的「催化劑」下,國內的醫療科技迅速升溫,諸多閘口順勢打開,速成浩蕩之勢席捲而來。今年,醫療科技將續寫新章。
  • 「首席對話」平安首席科學家肖京:科技如何戰疫,AI從計算至「算計」有多遠
    按照平安首席科學家肖京的話說,大數據、AI賦能需與產業應用結合起來。近期發布的2020年全球金融科技專利排行榜TOP100中,平安集團整體以1604件專利申請數,再次榮獲全球第一,而排行榜前十中,有一半為平安旗下子公司,其中,平安科技、金融壹帳通位列前三。這家有著五大生態圈、豐富業務場景的「金融+科技」巨頭如何看科技戰疫?怎樣評估AI?
  • ...平安集團首席科學家肖京:行人重識別是智慧社區等應用的關鍵要素
    作為國際領先的科技型個人金融生活服務集團,平安集團打造「金融服務、醫療健康、汽車服務、房產金融、城市服務」五大生態圈,致力於推動傳統行業AI賦能及智慧化轉型,力推從「網際網路+」向「智能+」的躍升。平安集團首席科學家肖京博士「對於能力出眾的參賽選手,不論競賽成績如何,平安科技(深圳)有限公司均提供正式員工招聘的綠色通道,特別優秀者直接進入最後一輪的部門長面試。
  • 醫療科技的六位「最強大腦」,帶你看清技術與商業未來 | CCF-GAIR...
    8月9日,作為本次大會的收官之戰,「醫療科技」專場正式拉開帷幕,圍繞「後疫情時代的醫療新基建機遇」這一主題展開。其中聯影智能聯席CEO沈定剛、華西醫院副院長龔啟勇、騰訊天衍實驗室主任鄭冶楓、平安醫療科技首席科學家謝國彤、商湯科技副總裁張少霆、西門子醫療中國數字醫療負責人陳黎峰,詳談了後疫情時代醫療科技的新常態,以及技術落地和產品方法論。
  • 醫療科技的六位「最強大腦」,帶你看清技術與商業未來|CCF-GAIR 2020
    其中聯影智能聯席CEO沈定剛、華西醫院副院長龔啟勇、騰訊天衍實驗室主任鄭冶楓、平安醫療科技首席科學家謝國彤、商湯科技副總裁張少霆、西門子醫療中國數字醫療負責人陳黎峰,詳談了後疫情時代醫療科技的新常態,以及技術落地和產品方法論。
  • 科技賦能深化業務場景 2019年平安科技成果顯著
    3 月:中文醫療知識圖譜正式發布3 月 28 日,平安智慧醫療技術團隊聯合中國醫學科學院醫學信息所聯合發布中文醫療知識圖譜,集成了數百萬醫學概念、千萬醫學關係、千萬醫學證據,覆蓋核心醫學概念,實現了醫療生態圈內全方位知識數據的聚合。
  • 全球數字醫療專利TOP100發布,平安集團專利數居全球第一
    (0.91萬件)和日本(0.27萬件),排名前三的企業分別是平安集團(1074件)、飛利浦(1021件)、強生公司(535件),平安集團以1074件專利位居全球第一。數據來源:零壹智庫 國家知識產權局全球數字醫療專利排名:中國平安、騰訊進入前十《2018-2020年全球數字醫療專利TOP100》榜單顯示,進入前十的企業分別是平安集團(1074件)、飛利浦(1021件)、強生公司(535件)、西門子(503件)、IBM(395件)、聯影(367件)、佳能(346件)、騰訊(251件)、三星(233件)和通用電氣(221件)。
  • 中國平安位列全球數字醫療專利TOP100榜首
    (1021件)、強生公司(535件),平安集團以1074件專利位居全球第一。此前,國促會數科委與零壹財經聯合發布的《2018-2020年全球AI專利排行榜TOP100》中,平安集團憑藉9255件專利位列全國第一、全球第三。國促會數科委表示,相較美國,我國在數字醫療建設方面起步較晚。如今,能夠取得如此成果,離不開醫療機構和醫療科技公司的努力,同時以平安集團為代表的行業巨頭跨界入局,為數字醫療的發展提供了新的創造力和影響力。
  • 360數科首席科學家:AI時代 誰是數據安全保衛者?
    來源:金融界網站11月25日,360數科首席科學家張家興博士做客InfoQ《大咖說》欄目,在直播中分享 AI 技術在金融領域的落地現狀、普惠金融的整體邏輯和技術發展路線等話題。在具體談到人工智慧在金融領域的落地情況,張家興認為目前自然語音處理、圖像技術算法以及基於大數據的機器學習是金融領域應用較為廣泛的技術,與此同時,這些技術仍有很大的發展空間。 在語音技術領域,對話機器人的廣泛應用使得高效大規模觸達用戶成為了可能。「對話機器人以量取勝,雖然解決的是最簡單的問題,但是解放了90%的工作量。」
  • CB Insights:2017全球AI企業100強(附下載) | 網際網路數據資訊網...
    解決不良信息過載問題,為有大量數據負擔的知識專家解決無法抓住輔助決策的重要信息的問題。AlphaSense 提供對專有研究資料庫的訪問,並包括金融語言的語義知識和相關性分析以表達有價值的隱藏信息片段。5. AnkiAnki 的使命是把人工智慧和消費機器人帶入日常生活。Anki的主要產品是Anki Overdrive,用技術結合電子遊戲和物理道具。6.
  • AI Frontiers | 微軟首席 AI 科學家鄧力演講:口語對話系統的分類...
    編者按:鄧力博士原為加拿大滑鐵盧大學教授,1999 年加入微軟,2016 年起擔任微軟首席人工智慧科學家在某種程度上,我們可以把對話系統看作:對話系統=語音識別+基於文字(text-based,或翻譯為「語義理解」)的系統語音識別向基於文字的對話系統,提供了一些低延遲的文字輸入。因此你可以把它們放在一起(認為它們對等),這是較傳統的觀點。
  • 平安集團肖京這麼認為
    平安集團肖京這麼認為 2020年06月17日 17:24作者:網絡編輯:宏偉   如何挖掘人類大腦的潛力  平安集團首席科學家肖京認為,未來即便人工智慧技術發展到「超人工智慧」階段,全面超過人腦的認知決策能力,也還會有做不到的事情。比如需要特定機體配合的任務,智力水平即使夠了,硬體條件未必滿足。再比如情感、意識等非程序化編制的個性或偶發狀態,也不是僅憑智能技術就能實現的。  那麼在目前人工智慧的發展邊界下,人類應該如何利用人工智慧?
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    新智元專欄 作者:謝國彤【新智元導讀】AI在醫療中的應用場景十分複雜也十分重要,包括疾病的診斷、預測、治療和管理等。有感於 「搞人工智慧技術的人不知道醫療裡重要又可解的問題是什麼,搞醫療的人不知道技術究竟能幫到什麼程度」,前 IBM 認知醫療研究總監、平安醫療科技研究院副院長謝國彤博士針對疾病預測技術的核心概念、主要方法和發展趨勢,帶來詳細解讀。去年在新智元上寫了《我看到的靠譜醫療 AI 應用場景和關鍵技術》,原本計劃要寫個 「連續劇」 的,後來諸多事情就耽誤了。
  • 2018-2020年全球數字醫療專利TOP100發布 中國平安位列全球第一
    (535件),平安集團以1074件專利位居全球第一。此前,國促會數科委與零壹財經聯合發布的《2018-2020年全球AI專利排行榜TOP100》中,平安集團憑藉9255件專利位列全國第一、全球第三。國促會數科委表示,相較美國,我國在數字醫療建設方面起步較晚。如今,能夠取得如此成果,離不開醫療機構和醫療科技公司的努力,同時以平安集團為代表的行業巨頭跨界入局,為數字醫療的發展提供了新的創造力和影響力。
  • 前豆瓣首席科學家投身AI,創辦「愛因互動」,做企業服務版「Siri」
    前豆瓣網副總裁&首席科學家王守崑,多年來在個性化推薦和知識圖譜領域積攢了豐富的行業經驗,2016年6月,他放棄了待遇豐厚的職位,聯合前豆瓣同事&清華大學校友洪強寧共同創建了愛因互動。這是一家基於知識圖譜的智能對話機器人公司,利用AI技術為各大企業建立結構化知識庫,並提供智能交互服務。