紐約客特稿 | 把癌症診斷交給機器,醫療服務會更好嗎?

2020-12-05 機器之心Pro

選自Newyorker作者：Siddhartha Mukherjee機器之心編譯參與：侯韻楚、Rick R、微胖、吳攀、蔣思源

深度學習系統變得越強大，它就越含糊。由於更多的特徵被提取了出來，診斷本身變得越來越準確。然而為什麼這些特徵會從數以百萬計的其它特徵中被提取出來，這仍然是一個無法回答的問題。

棒球運動員一次又一次地拋了一百萬次球，他可能不了解任何方程式，但是他知道球到底會有多高、能達到多大的速度以及它會降落到地面的位置。物理學家可以寫方程式來判斷同一件事物。但是二者終將殊途同歸。——Geoffrey Hinton

去年 11 月深夜，一名來自布朗克斯的 54 歲婦女由於劇烈的頭痛而來到哥倫比亞大學醫療中心掛急診。她對急診室的醫生說，她的視力已經變得模糊，左手無力且伴有麻痺症狀。醫生檢查後，對她的頭部進行了 CT 掃描。

幾個月後，今年 1 月份的一個清晨，4 名培訓中的放射科醫師擠在醫院三樓的一臺電腦前。這個房間昏暗無窗，僅有幾絲光線從屏幕映出，就像被海水層層濾過。隔間裡擠滿了人，哥倫比亞大學的神經放射科主任 Angela Lignelli-Dipple 正拿著鉛筆和 pad 站在他們身後；她正在培訓他們如何看懂 CT 掃描。

她說：「一旦大腦不工作了，變成灰色，很容易診斷出中風。技巧就是把握好診斷時機：趕在神經細胞過量死亡之前進行診斷。」中風通常由堵塞或出血引起，神經放射學家有大約 45 分鐘的窗口期進行診斷，以便醫生採取幹預措施，比如，溶解正在變大的結塊。Lignelli-Dipple 繼續說著，提高了決策時間所帶來的巨大風險：「假設你正在急診室中，每過一分鐘，大腦的某部分正在死亡。失去時間就是失去大腦。」

時間一分一秒地流逝，她掃了一眼牆上的鐘，問道：「問題究竟出在哪裡？」

中風通常很不對稱。血液會供給大腦的左右分支，而後會分解為細小支流；凝塊或出血通常僅會影響其中的一個分支，導致大腦一部分出現異常。當神經細胞失去血液供應並死亡時，組織會略微膨脹，在掃描時，解剖結構之間清晰的邊界可能變模糊，最終組織會皺縮，並產生乾燥的陰影。但是，通常在中風後進行掃描的幾小時甚至幾天之後，陰影才會出現，此時診斷窗口期早就結束了。Lignelli Dipple 對我說：「在此之前，掃描時僅會出現很細微的跡象」，即中風前兆。

這名布朗克斯婦女的掃描圖像是對頭骨的橫切面切割圖，就像是從底部切到頂部的瓜。醫師們像是翻查一本手冊一樣瀏覽著圖層，喊出解剖結構的名稱：小腦、海馬區、島狀皮層、紋狀體、胼胝體、腦室等等。此時一名年近 30 的醫師在一張照片前停下了，用鉛筆尖比劃著大腦右側邊緣的一片區域說道：「這裡有些不對勁，它的邊界很模糊。」但在我眼裡，由於像素不清晰，整張圖片都是不協調並且模糊的，但他顯然發現了不尋常的情況。

「模糊？」Lignelli-Dipple 刺探道：「你能描述得更詳細一點嗎？」

這名醫師沉默著思索了一會，仿佛正在梳理腦海中的解剖結構，衡量著各種可能。之後他聳聳肩，說道：「它只是不一樣。我也不清楚，它看起來很有趣罷了。」

Lignelli-Dipple 展示了第二次 CT 掃描（比第一次晚 20 小時），此時，被那名醫師指出的區域已經腫脹到了葡萄的直徑那般大小，而且顏色顯得很暗。之後展出的一系列連續幾天的掃描圖片讓他們明白了真相——出現了一塊明顯的楔形灰色區域。她到達急診室不久，神經科醫師便試圖用溶栓藥物疏通堵塞的動脈，但已經太晚了。初次掃描的幾個小時後，她便失去意識，被送往重症監護室。兩個月後，這名婦女仍住在樓上的病房裡，但此時她的左半部分身體——從上臂到腿都已經癱瘓了。

我跟隨 Lignelli-Dipple 去了她的辦公室。我想了解關於學習的事情：醫生是怎樣學習診斷的？機器是否也能做到？

一

1997 年的秋天，我在波士頓開始了臨床輪轉（clinical rotations），也開啟了自己的診斷生涯。為了做好準備，我讀了一本醫學教育的經典教科書，這本書將診斷行為明確分為四個階段。第一，醫生利用患者的病史以及身體檢查，搜集有關病人的疾病或身體狀況的事實；第二，整理這些信息並生成一份可能病因的綜合列表；第三，通過提問和初步測試，進行「鑑別診斷」——即排除一種假設並加強另一種假設，同時給出權重來表現疾病的常見程度，以及患者的病史、風險與暴露情況（諺語有云，不要把簡單的問題複雜化）；於是列表的可能項就變少了；最後，部署確定的實驗室檢查、X 光或 CT 掃描以確認假設並確認診斷。數十年來，醫學教課書都如實複製著這些步驟的變體，我們也從一代又一代醫學院學生的身上看到了這幅圖像：他們有條不紊、不辭辛勞地從症狀找到病因。

但不久後我便得知，真正的診斷技術並不那麼簡單。我所在醫學院的主任是一個優雅的新英格蘭人，他總穿著拋光的便鞋，口音濃重，並以成為專家診斷醫師而自豪。他會讓病人表現出一種症狀，比如咳嗽，然後再靠到椅子上，嘴裡冒出一串形容詞。他可能會說「微弱而刺耳」，或是「底部有嗡嗡聲」，仿佛正在描述一瓶波爾多葡萄酒。而對我來說所有的咳嗽聲聽起來都一樣，但是我會參與其中——「是的，刺耳」，就像酒會中緊張的南郭先生。

咳嗽分類學家會即刻縮小診斷的可能範圍。他可能會說：「聽起來像一種肺炎」，或是「充血性心力衰竭的溼疹」，接著他會詢問一系列問題。病人最近體重是否有所增加？是否有石棉曝露的歷史？他還會要求病人再次咳嗽，斜倚身子，用聽診器仔細聽診。他可能會根據結果得出另一系列的可能情況，就像突觸的加強和削弱。而後就像路邊魔術師的縱身一躍一般宣布他的診斷——「心力衰竭！」，並進行測試來證明它的正確性，而結果通常確實無誤。

幾年前，巴西的研究人員研究了放射科專家的大腦，來了解他們如何做到診斷。這些經驗豐富的診斷醫師是否對圖像使用了心理「規則」？還是說他們使用了「模式識別或非分析推理」？

25 名放射科醫生被要求評估肺部的 X 光，而核磁共振成像機可以跟蹤他們的大腦活動（這個系列的遞歸很棒：若要診斷診斷，成像器就必須成像）。X 光在他們面前一閃而過。一些圖片包含可能常見的單一病理損傷，可能是肺部的棕櫚狀陰影，或積聚在肺內襯層後面發暗且不透明的流體壁。嵌在第二組診斷圖像中的是動物的線條圖；而第三組則是字母表的字母輪廓。這三種圖像會按照隨機順序向放射科醫生展示，然後在核磁共振成像機追蹤其大腦活動的同時，讓他們儘快說出圖像的名稱。放射科醫生平均需要 1.33 秒才能做出診斷。在這三種情況下，大腦亮起的區域相同：左耳附近的神經元寬三角洲以及顱骨後基上方的蛾形帶。

研究人員總結道：「我們的研究結果支持這樣的假設：當醫生立即發現一種特徵以及已知的病變時，這個過程與日常生活中命名事物的過程相似。」識別病變與命名動物的過程相似。當你認出犀牛時，你並不會考慮並消除替代的候選者。也不是在精神上將獨角獸、犰狳和小象融合在一起。你會以一種模式認出犀牛的全部，而放射科醫生也是如此。他們並沒有沉思、回憶以及區分，他們看到的是一個普通對象。對我的主任來說，那些溼漉漉的聲音也同樣像熟悉的叮噹聲一般能夠辨認出來。

二

1945 年，英國哲學家 Gilbert Ryle 舉辦了一場頗具影響力的講座，主題關於兩類知識。一個孩子知道一輛自行車有兩個輪子，其輪胎充滿了空氣，並且可以通過騎腳踏板讓它前進；Ryle 將這種事實、命題類的知識稱為「知其然（knowing that）」。但學習騎自行車涉及到另一個學習領域：這個孩子會在摔倒、平衡兩個輪子以及穿過坑窪的過程中學會騎自行車。Ryle 將這種隱性的、體驗式的、基於技能的知識稱為「知其所以然（knowing how）」。

這兩種知識似乎是相互依賴的：你可以使用事實性知識來深化經驗性知識，反之亦然。但是，Ryle 警告要抵制認為「知其然 (know that）」可以簡化為「知其所以然（knowing how）」這種誘惑，因為一本規則手冊無法教會孩子騎自行車。Ryle 認為，只有當我們知道如何運用規則時，規則才能真正發揮作用：「例如，對鳥類來說，只有通過生活才能掌握規則。」一天下午，我看著 7 歲的女兒騎自行車通過一個小丘。她第一次嘗試時停在了斜坡最陡峭的部分，然後摔倒了。下一次我看到她屈身向前傾斜，最初角度很小，隨後越來越明顯；而當坡度減小時，她會向後增加重量。但是，我從未教過她騎自行車爬上那座小丘的規則。我想，當她的女兒學習騎自行車翻過這座小丘時，她也不會教她這些規則。我們會傳授一些與宇宙有關的規則，但是會將剩下的留給大腦。

參加完 Lignelli-Dipple 與放射科學員的會議之後，我曾與通過 CT 掃描發現早期中風的年輕人 Steffen Haider 交流了一下。他是怎麼發現病變的？是「知其然（know that）」還是「知其所以然（know how）」？他以習得規則作為談話的開始。他知道中風往往發生在一面，組織會輕微「變灰」，且常常伴有略微腫脹，造成解剖邊界丟失。他說：「大腦中有些地方的血液供應特別脆弱。」為了識別病變，他必須在大腦的一側尋找沒有出現在另一側的跡象。

我提醒道，他忽視了圖像中很多不對稱的情況。這個 CT 掃描與大多數情況一樣，在左側存在其他灰色的波紋，但右側卻沒有，它們可能是婦女中風前大腦中的異常運動或潛在變化。他是如何把重點縮小到這片區域的？他停了下來，頭腦風暴卻仍在繼續。終於，他開口道：「我不知道，有一部分是潛意識的」。

Lignelli-Dipple 告訴我：「當你在學習中逐漸成長為放射學家時，這種情況就會出現，而問題在於機器能否以相同的方式『成長與學習』」。

三

2015 年 1 月，計算機科學家 Sebastian Thrun 開始痴迷於醫學診斷的難題。這位在德國長大的科學家很瘦，剃著光頭，周身充斥著漫畫人物的氣息；他看起來就像米歇爾·福柯（法國著名哲學家——譯者注）和憨豆先生的奇異組合。Thrun 以前是史丹福大學教授，領導者該校的人工智慧實驗室，後來離開創建 Google X，領導會自學的機器人和無人駕駛汽車的研發。但是，他發現自己對有著學習能力的醫療設備有了莫大的興趣。49 歲時，他母親因乳腺癌去世——正是他現在的年齡。Thrun 告訴我：「大多數癌症患者最初並沒有症狀，我母親就沒有，當她去看醫生時，癌症已經轉移了。我沉迷於找到一種能在癌症早期就將其偵測出來辦法——那時，還能用手術刀將其切除。我也一直在想，機器學習算法能否有所幫助？」

早期在自動診斷方面的研究往往與教科書代表的顯性知識（explicit knowledge）領域緊密相關。以心電圖為例（心電圖將心臟的電信號變化轉變為紙張或屏幕上的線條），過去的二十年來，電腦解讀的通常是這些系統的特徵。執行這些工作的程序通常比較直接，特徵波形與多種情況相關（如心房顫動或血管阻塞），以及識別這些特徵波形並輸入到應用中的規則。當機器識別到這些特徵波形時，它會把這種心跳標記為「心房顫動（atrial fibrillation）」。

在早期胸部腫瘤 X 射線透視技術中也是這樣，「計算機輔助診斷」已經屢見不鮮。圖像識別軟體會突出顯示疑似病變的區域，而後放射科醫師會複查結果。但這種識別軟體通常也是使用基於規則的系統來識別可能病變的區域。這樣的程序沒有內置的自主學習機制，即一臺已經檢查過三千張 X 光圖像的機器並不比僅檢查過四張 X 光圖像的機器更聰明。2007 年的研究對使用計算機輔助診斷設備前後胸部腫瘤 X 射線透視技術的準確性進行了比較，其中這些局限性變得異常明顯。人們也許會預計在設備投入使用後，診斷的準確率會明顯提高。但實際上設備產生的影響很複雜：在計算機輔助診斷組中，活體檢查的準確率上升，但腫瘤學家最希望檢測到的小型侵入性乳腺癌準確率卻有所降低（甚至後續研究顯示這種技術存在假正類（false positives）問題）。

Thrun 確信，他能通過從基於規則的算法轉變為基於學習的算法來超越第一代診斷設備，從「知其然（know that）」變為「知其所以然（Know how）」來作出診斷。Thrun 使用的這類學習算法就涉及使用「神經網絡」這種計算策略，因為該神經網絡的靈感源於大腦運作的模型，所以其能完成這一學習過程。大腦中的神經突觸通過反覆激活而加強或減弱；這些數字系統旨在通過數學手段實現類似的目的，調整連接的「權重」來向預期輸出靠攏。更強大系統會與神經元層級相似，每個系統會處理輸入的數據並將結果發送到下一層。因此，出現了「深度學習」。

Thrun 將皮膚癌作為切入點，特別是角化細胞癌（美國最常見的一類癌症）和黑素瘤（最危險的皮膚癌）。能否訓練機器通過掃描圖片將皮膚癌與良性皮膚病（如痤瘡、皮疹或痣）區分開呢？Thrun 推理道：「如果一名皮膚科醫生做得到，那麼機器應該也能夠做到，並且可能會做得更好。」

一般而言，關於黑素瘤的皮膚病學教學會從基於規則的系統開始，就像醫學生的學習一樣，配有一套便捷的助記符：ABCD。黑色素瘤通常是不對稱的（「A」——asymmetrical），其邊緣（「B」——border）是不均勻的，而顏色（「C」——color）會變成斑塊狀且附有雜色，並且它們的直徑（「D」——diameter）通常大於 6 毫米。但當 Thrun 在醫學教科書和網絡上查看黑素瘤標本時，卻發現了不適用於這些規則的例外。

Thrun 仍然是史丹福大學的兼職教授，找了兩名學生 Andre Esteva 和 Brett Kuprel 幫助他進行研究工作。他們的首要任務是創建一個所謂的「教學集（teaching set）」：一個龐大的圖像庫，用來訓練機器識別惡性腫瘤。Esteva 和 Kuprel 通過網絡搜索發現了 18 個由皮膚病專家分類好了的皮膚損傷圖像庫。其中包含了近 13 萬張有關痤瘡、皮疹、蟲咬、過敏反應和皮膚癌等疾病的圖片，皮膚病專家將它們分為近 2000 種疾病。值得注意的是，有一個包含 2000 個病變的集合已經由病理學家切片檢查過了，因而它們幾乎是被確診的了。

Esteva 和 Kuprel 開始訓練他們的系統。他們沒有制定規則；沒有教它 ABCD 助記符。相反，他們是將圖像和其確診分類輸入神經網絡。我請 Thrun 描述這個神經網絡的工作內容。

「想像用一個老式的程序去識別一隻狗，」他說。「軟體工程師會寫出 1000 行 if-then-else 語句：如果它有耳朵，和一個鼻子，並有頭髮，且不是一隻老鼠等等，這樣循環往復完成識別任務。當然，這並不是一個孩子去學習識別狗的方式。起初，孩子會通過觀察以及大人的告知來識別狗。她也許會犯錯誤，但能糾正自己。當她認為狼是狗時，大人們會告訴她狼屬於一個完全不同的類別。於是她一點一點地改變了自己的認識：這是『狗』，那是『狼』。機器學習算法就像孩子一樣，從一個已分類好的標註訓練集抽取信息。如這是一隻狗，那不是一隻狗。然後，它從一組一組的訓練集中提取出特徵。接著，通過對成百上千張已分類圖像進行自我測試，機器學習系統像孩子一樣開始創建屬於自己的方式來識別狗。」它就是知道如何去做（know how）。

2015 年 6 月，Thrun 的團隊開始測試通過給機器一個「驗證集（validation set）」的方式來了解它從圖像主集合中學到了什麼：一些經皮膚病專家診斷（雖然不一定是通過活檢）的 14，000 張圖像。該系統是否能夠準確地將圖像分為 3 個診斷類別——良性病變、惡性病變和非癌生長？這個系統的正確率為 70%。（該算法的實際輸出不是「yes」或「no」，而是某個給定病變屬於類別的概率。）兩位得到委員會認證的皮膚病學家也在一旁做了測試，不過他們做得更糟：其正確率為 66%。

接著，Thrun、Esteva 和 Kuprel 又將研究擴展到了 25 位皮膚病學家，而這一次他們使用了一個黃金標準——約 2000 張經由活組織檢測證實的圖像「測試集（test set）」。在幾乎每一個測試中，該機器都比這些專家更加敏感：它不太可能錯過一個（惡性）黑素瘤。它也比專家們更為明確：它不太可能將一個腫瘤錯稱為（惡性）黑素瘤。「在每一次測試中，該網絡都要優於皮膚病學家，」該小組在《自然》雜誌所發表的一份報告中總結到。

「還有一個有關網絡的更深刻的東西沒有在該論文中得到充分強調，」Thrun 告訴我。在研究的第一版本中，他和團隊開始使用的是一個完全的樸素（nave）神經網絡。但是他們發現，如果是從一個已被訓練成識別一些不相關特徵（比如狗和貓）的神經網絡入手，它會學得更快更好。也許我們的大腦功能也是這樣。高中課程中那些令人頭腦麻木的練習——因式分解、共軛動詞、背元素周期表——可能會得到相反的結果：令人頭腦敏銳。

在教機器時，他們團隊必須得小心地處理這些圖像。Thrun 希望人們有一天只需提交其令人擔憂的病變手機照片就可以得到診斷，這意味著該系統必須適用於多種角度和照明條件。但是，他回憶道，「在某些圖片中，（惡性）黑素瘤已經被黃圓盤標誌標記過了。我們必須把它們裁剪出來——否則，我們可能就是在教計算機將黃圓盤標誌作為癌症標誌給挑選出來。」

這是一個古老的難題：一個世紀前，德國民眾被 Clever Hans 迷住了，據說這匹馬可以進行加減運算，並能夠通過敲擊蹄子來將答案傳遞出來。事實證明，Clever Hans 實際上是在感受馴馬者的態度舉止。當馬蹄敲擊數接近正確答案時，馴馬者的表情和姿勢就會變得放鬆。動物的神經網絡沒有學過算術，卻學會了檢測人類肢體語言的變化。「這就是神經網絡離奇的地方，」Thrun 說。「你不知道它們在使用什麼信息。它們就像黑箱，其內部運作是神秘的。」

「黑箱」問題是深度學習所特有的。該系統不受大量而明確的醫學知識和一系列診斷規則的引導；通過進行大量的內部調整——類似於加強和減弱大腦中的突觸連接——它已經能夠有效地教自己去區別痣與黑色素瘤。它究竟是如何將某一病變確定為黑色素瘤的呢？我們無法知道，它也無法告訴我們。所有允許網絡去學習的內部調整和處理都發生在我們的審查能力之外。就像我們自己的大腦一樣。當你騎自行車慢慢轉彎時，你會向相反的方向傾斜。我的女兒知道自己是這樣做的，但這並不是她自己的選擇。該黑色素瘤機器必須從圖像中提取某些特徵；如果它不能告訴我們所選的是哪一個特徵，這會有什麼影響嗎？這就像是微笑著的知識之神。遇到這樣一臺機器，你可以窺見動物感知人類心靈的可能方式：無所不知但卻難以理解。

Thrun 輕快地設想了這樣一個世界——我們時刻處於診斷的監控之中。我們的手機將分析如何把語音模式轉化為老年痴呆症的診斷。一個方向盤會通過你小幅度的躊躇和震顫來檢測出早期的帕金森氏症。當你在洗澡時，一個浴缸將通過無害的超聲波或磁共振來執行順序掃描，以確定卵巢中是否出現了新的需要調查的紊亂。大數據將會觀看、記錄和評估你：我們將從一個攫取的算法中穿梭到下一個。進入 Thrun 的這個浴缸和方向盤的世界就是進入了一個診斷鏡大廳，每面鏡子都敦促著更多的測試。

很難不被這種願景所誘惑。一個每天都在做圖像對照、不斷以細節————甚至可能是細胞——顆粒的方式對我們進行掃描的醫療監獄，可能會使我們在癌症的最早期診斷出它嗎？它能提供癌症檢測方面的什麼突破嗎？這聽起來令人印象深刻，但其中有一個陷阱：許多癌症都註定是因人而異的。我們是和它們一起死去，而不是因它們死去。如果這樣一個身臨其境的診斷引擎將導致數以百萬計的不必要的活檢呢？在醫學上，早期診斷可以挽救或延長生命。但也有一些情況是，你會擔心更長的時間，但不會活得更久。很難知道你想知道多少。

「我對於增強人類能力方面很感興趣，」當我問他這種系統對人體診斷的影響時，Thrun 這樣說到。「看，工業耕作消除了某種形式的耕作嗎？當然，不過它也擴大了我們生產農產品的能力。並非所有這些都是好的，但它使我們能夠養活更多的人。工業革命增強了人類肌肉的力量。當你使用電話時，你增強了人類語言的力量。在紐約的你無法令加利福尼亞的人聽到你的喊叫」——的確，當時 Thrun 和我的通話距離就是這麼長——「但你手上的這個矩形設備可以讓人聲傳遞到 3000 英裡之外。電話取代了人聲嗎？沒有，電話是增強設備。認知革命將允許計算機以同樣的方式增強人類的思維能力。就像機器使人類肌肉增強了 1000 倍一樣，機器也將令人類的大腦性能增強 1000 倍。」Thrun 堅持認為，這些深度學習設備不會取代皮膚病醫生和放射科醫生。它們將加強專業人士的能力，為他們提供專業知識和援助。

四

Geoffrey Hinton 是多倫多大學的計算機科學家，他認為學習機器將在臨床醫學中發揮出更大的作用。Hinton——喬治·布爾的玄孫，其布爾代數是數字計算的一個基本原理——有時被稱為深度學習之父；這是他從 19 世紀 70 年代中期以來就開始研究的一個主題，他的許多學生如今已成為該領域的主要設計者。

「我認為，如果你是一名放射科醫生，那麼你就像是漫畫中的 Wile E.Coyote（譯註：先拼命地往懸崖外跑，離了很遠之後才發現自己已經踏空。），」Hinton 告訴我。「你已經越過了懸崖的邊緣，但是還沒有朝懸崖下看去。下面並沒有地面。」用於乳房和心臟成像的深度學習系統已被商業化開發出來了。「這完全是顯而易見的，深度學習將在 5 年內勝過放射科醫師，」他繼續說道。「可能是 10 年。我在一個醫院裡說過這個。但是這一點並沒有獲得廣泛的接受。」

Hinton 那次在醫院的原話很直率：「他們現在應該停止訓練放射科醫生了。」當我向 Angela Lignelli Dipple 提出這個挑戰時她指出，診斷醫師並非僅僅是在做 yes-no 式的分類工作。他們不僅僅是在定位導致中風的栓塞。他們是在關注其它地方的小出血，這些小出血可能會令溶栓藥物的使用造成災難性的後果，他們是在尋找一種意料之外的、或許依然處於無症狀狀態的腫瘤。

「很好。結果稍微是可預測的」

Hinton 現在有資格發起挑釁。他告訴我：「放射科醫生的角色將從做一些感知任務——受過高度訓練的鴿子也可能能完成的這種任務——演變為做更多的認知工作」。他對於自動化醫學未來結局的預測是基於一個簡單的原則：「如果你擁有關於某舊式分類問題的大量數據，那麼就考慮去解決這個問題吧，深度學習將會做到這一點。那時會有數以千計的深度學習應用程式出現。」他想利用學習算法來讀取各種各樣的 X 射線、CT 掃描和核磁共振——而這只是他所認為的近期前景。在未來，他說，「學習算法將會從事病理診斷」，它們可能會閱讀 Pap 塗片、聽心臟的聲音或是預測精神病患者復發的可能性。

我們討論了黑箱問題。雖然計算機科學家們正在研究它，但是 Hinton 承認，這些挑戰——打開黑箱和試圖找出到底這些強大的學習系統知道些什麼以及它們是如何知道的——是「微不足道的——不要相信任何人的話。「不過，這是一個他認為我們可以學會去適應的問題。他說：「想像在某場比賽中，一名棒球運動員與一名物理學家對抗以確定球可能在哪著陸，」他說。「棒球運動員一次又一次地拋了一百萬次球，他可能不了解任何方程式，但是他知道球到底會有多高、能達到多大的速度以及它會降落到地面的位置。物理學家可以寫方程式來判斷同一件事物。但是二者終將殊途同歸。」

我回顧了計算機前輩在鉬靶檢查中使用計算機輔助檢測和診斷的令人失望的結果。Hinton 承認，任何新系統都需要通過嚴格的臨床試驗進行評估。然而，他強調，新的智能系統是為了從其錯誤中吸取教訓——從而可以隨著時間的推移而改進。「我們可以在一個會關注每個錯過的診斷——最終患肺癌的病人——並將其反饋到機器系統中來建立檢測與診斷機制。我們可以問，你錯過了什麼？你能細化診斷嗎？沒有針對人類放射科醫生的這種系統。如果你遺漏了某件事，然後 5 年後你的一個病人患上了癌症，那麼這就沒有系統的例行程序來告訴你如何糾正自己。但是你可以在一個系統中建立這種機制來教計算機實現這一目標。」

一些最雄心勃勃的診斷機器學習算法版本尋求將自然語言處理（讓算法可以查看病人的醫療記錄）與從教科書、期刊和醫學資料庫獲得的醫療方面的百科知識整合起來。總部設立於麻薩諸塞州劍橋市的 IBM Watson Health 和總部設在倫敦的 DeepMind 都希望建立這樣的綜合系統。我看到一些這樣的系統正處於試點示範運行中，但它們的許多功能——特別是深度學習組件仍在發展中。

Hinton 對於深度學習診斷的未來充滿激情，這部分是由於他自己的經驗。當他正在開發這種算法時，他的妻子被發現患有晚期胰腺癌。他的兒子被診斷出患有惡性黑色素瘤，但隨後活檢顯示該病變是一個基底細胞癌，是一種不太嚴重的癌症。「這裡還有很多東西需要學習，」Hinton 說，輕輕地嘆了一口氣。「準確的早期診斷並不是一個簡單的問題。我們可以做得更好。為什麼不讓機器幫助我們呢？」

五

在一個冰冷的三月的清晨，在我與 Thrun 和 Hinton 談話的幾天之後，我去了位於曼哈頓第一大街 50 號的哥倫比亞大學的皮膚診所。主治醫師 Lindsey Bordone 那一天原定要看 49 個病人。然而到了十點鐘，候診室卻裡擠滿了人。一個 60 歲左右留著鬍子的男人坐在角落裡，用一條羊毛圍巾把脖子上的皮疹掩蓋起來。一對焦慮的夫婦蜷縮著在看《時代》雜誌。

Bordone 看著病人接二連三地趕來。在一個由螢光燈照明的裡屋內，一個護士坐在一臺計算機前說了一句話總結到：「50 歲，先前沒有診斷史，皮膚上有新的可疑點」——然後 Bordone 衝進診療室，她金色的頭髮在風中飛揚著。

一個 30 多歲的年輕人臉上有鱗屑紅疹子。Bordone 打量著這個年輕人，他的皮膚剝落了並從鼻子上掉下來。Bordone 把他拉入燈光下仔細檢查了他的皮膚，然後用手持皮膚鏡對其進行觀察。

「你的頭髮裡有頭皮屑嗎？」她問。

這個男人看起來很困惑。「當然，」他說。

「嗯，這是面部皮屑，」Bordone 告訴他。「這是一個特別糟糕的情況。但問題是它現在為什麼會出現並且情況變得越來越糟了。你在頭髮上使用過什麼新產品嗎？你有一些異常的家庭壓力嗎？「

「壓力肯定是有一些的，」他說。他最近失業了，正在處理隨之而來的財務問題。

「記日記，」她建議到。「我們可以憑此確定二者之間是否有關聯，」她開了一個類固醇霜的處方，並讓他一個月後再來。

在隔壁房間的是一個年輕的律師助理，他的頭皮上起了一片發癢的疙瘩。Bordone 摸他的疙瘩時他趕緊避開了。「脂溢性皮炎，」她說到，結束了這個檢查。

另一個房間的女人脫了衣服並穿上醫院的病號服。她過去被診斷出患有黑色素瘤，而她做預防措施卻很勤奮。Bordone 一個斑點接著一個斑點地檢查了這個女人的皮膚。這花了她 20 分鐘的時間，但這種檢查徹底且全面，她用手指在一片痣與皮贅組成的景觀中划過，同時說出診斷結果。有一些痣和角化病，但並沒有黑色素瘤或者癌。「看起來一切都很好，」她興高採烈地說。女人寬慰地嘆了口氣。

於是乎就是：Bordone 來；她見；她確診（譯註：愷撒大帝描述其勝利時說，「我來；我見；我徵服。」）。她不像 Hinton 是只草原狼，而似乎像是一架有些瘋狂的越野車，試圖用接二連三趕來的病例來跟上時代的步伐。她在裡屋中寫筆記時，我問她關於 Thrun 對診斷的願景：一張 iPhone 照片被電郵給一個強大的異地網絡，召集了一群無可置疑但不可理解的專家評價。一位全職的皮膚科醫生，比如 Bordone，會在她的一生中看到約 20 萬個病例。斯坦福的機器算法在大約 3 個月內獲取了近 13 萬的病例。然而每位新晉的皮膚科醫師都需要從零開始，但是 Thrun 的算法卻一直都處於獲取病例、成長和學習的過程中。

Bordone 聳了聳肩。「如果它能幫助我作出更準確的決定，我會歡迎它，」她說。「我的一些病人在來找我之前會拍下他們的皮膚問題照片，這會增加我的診所的診斷範圍。」

這聽起來像是一個合理的回覆，而我還記得 Thrun 有關技術增強人類能力的安撫性言論。但是，隨著機器學習得越來越多，人類會學習得越來越少嗎？這是一些父母所長期焦慮的問題，他們的孩子可以使用手機中的拼寫檢查功能：如果孩子停止學習如何去拼寫怎麼辦？這種現象被稱為「自動化偏見（automation bias）」。當汽車獲得自動駕駛輔助時，司機可能變得不那麼警覺了，而類似的事情也可能發生在醫學領域。或許 Bordone 是一個孤獨的 John Henry（譯註：他為了保住自己和黑人兄弟們的飯碗而站出來向機器挑戰，寧死不向機器屈服。），而現實中的蒸汽鑽即將上線。但有一點是無法忽視的，即她自己的關注從未動搖過、她對待手指划過的每一個皮贅和痣時是多麼地認真。如果她與一臺機器合作，那麼她還會這樣繼續下去嗎？

我注意到了 Bordone 與其病人之間的其它互動模式。一方面，他們最後幾乎總是會感覺更好。他們被觸摸並被仔細地檢查；一個談話就這樣發生了。即使是對病變的命名——「痣」、「角化病」——也是一劑心靈潤滑劑：心底裡有一些對疾病診斷過程的欣慰。那個皮膚重現光澤和彈性的女人，她的焦慮也隨之脫落。

還有很多。正如巴西研究員可能已經猜到的，Bordone 會在一瞬間識別出診斷結果。她口中的「皮炎」或「溼疹」，就好像是在識別一隻犀牛：當她識別出某一模式時，你幾乎可以看到她大腦後下方的神經元角錐狀物所迸發出的火花。但診斷還沒有結束。Bordone 幾乎在每個案例中都會花大量的時間調查病變原因。為什麼會出現這些症狀？是壓力嗎？一種新的洗髮水？有人改變了遊泳池裡的氯嗎？為什麼是現在？

我認識到，在這些臨床實踐中的最有力的因素，不是了解它或是知道如何去掌握案例的事實情況，或識別出醫生們所構建的模式。而是存在於知識的第三個領域中：了解原因。

六

因為解釋可淺可深。如你的手指上有一個紅色的水泡，因為你碰到了一塊熱鐵；你的手指上有一個紅色的水泡，因為燒傷激發了前列腺素和細胞因子的一個炎症級聯反應，而其中的調控過程仍然不能被我們完美地解讀出來。了解原因、提問為什麼，是我們通向各種解釋的橋梁，而解釋正越來越多地成為掌控醫學進步的東西。當 Hinton 談到棒球運動員和物理學家時，人工或真實人類的診斷醫師，將會成為棒球運動員，他們熟練但黑箱。醫學研究者將成為醫學領域的物理學家，正如來自棒球領域的理論學家一樣，但他們有知道「為什麼」的渴望。這是一個方便的職責分工，但這是否或許也意味著損失？

「深度學習系統沒有任何解釋能力，」Hinton 直截了當地說到。黑箱不能調查原因。事實上，他說：「深度學習系統變得越強大，它就越含糊。由於更多的特徵被提取了出來，診斷本身變得越來越準確。然而為什麼這些特徵會從數以百萬計的其它特徵中被提取出來，這仍然是一個無法回答的問題。」算法可以解決一個案例，但它不能創建一個案例。

然而我在自己的領域（腫瘤學）中不禁注意到，往往是那些熟練的從業者，他們通常也是喜愛鑽研的研究人員在取得研究進展。事實上在過去的幾十年裡，有抱負的醫生曾經努力想成為棒球運動員和物理學家：他們試圖用診斷的靈敏度來了解疾病的病理生理學。

為什麼一個皮膚病變的不對稱邊緣會預測出黑色素瘤？為什麼有些黑色素瘤會自然消退，以及為什麼在其中的一些病例中會出現白色斑塊？巧合的是，診斷專家在臨床中所觀察到的這些現象，最終與如今臨床上所使用的一些最有效的免疫藥物的發明聯繫在一起。（皮膚美白原來是免疫反應的結果，該反應同時也會對抗黑色素瘤）該發現鏈可以始於臨床。如果越來越多的臨床實踐被黑箱的學習機所取代，如果知識的內隱和顯性形式之間日常和自發的親密關係（即知道是什麼、為什麼、怎麼樣）開始褪色，那麼我們是否會變成這樣一種情況：把能做的做得更好，但對於重新審視我們所應該做的事情、去跳出黑箱進行思考卻表現得越來越無能？

我與哥倫比亞大學皮膚病學科的一把手 David Bickers 交流過我們的自動化未來。「相信我，我已經試著去理解 Thrun 論文的所有分支知識，」他說。「我不明白這些算法背後的數學原理，但我確實知道這樣的算法可能會改變皮膚科領域的發展實踐。皮膚科醫生會失業嗎？我不這麼認為，但我認為我們必須認真考慮如何把這些技術融入我們的實踐中。我們使用機器的代價是什麼？如果機器做出了錯誤的預測，那麼其法律責任是什麼？如果依靠這樣的算法，那麼，這是否會削弱我們的實踐，或者作為診斷專家的自身形象？最終，是否會訓練一批技術人員而不再是醫生？「

他看了下時間。一個病人正等著見他，他要離開了。「我這輩子都是以診斷學家和科學家為業，」他說。我知道病人多麼依賴我的分辨惡性病變和良性病變的專業。我也知道醫學知識來自於診斷。」

他提醒我，「診斷」這個詞來源於希臘語「理解知道差異（knowing apart.）。」機器學習算法只會更加擅於知道這類差異：比如，分隔（partitioning）、辨別痣和黑色素瘤。但是無論從哪個角度說，就知道（knowing）來說，都會超越那些專注於解決具體任務的算法。在醫學領域，也許最終的回報來自於理解整體（knowing together）。

原文連結：http://www.newyorker.com/magazine/2017/04/03/ai-versus-md?mbid=social_twitter

紐約客特稿 | 把癌症診斷交給機器,醫療服務會更好嗎?

相關焦點

2020年全球癌症診斷初創企業融資排行TOP 10

關於醫療大腦、知識圖譜與智能診斷,這是最全的解讀 | 雷鋒網公開課

碰撞與融合:MSK-IMPACT在癌症診斷和治療中的臨床應用——張麗英教授學術交流紀實

皮膚診斷,會是圖像技術的下一個落地點嗎?

FMI公司癌症 NGS 體外診斷產品獲美國「醫保」覆蓋!適用全部實體瘤

國內腫瘤精準醫療伴隨診斷行業領軍者——艾德生物

紐約城市學院從七葉樹中研發出了幫助癌症成像的分子

AI+醫療系列之一:智能病理診斷及醫學影像識別系統

AI在醫療領域智能幫我們診斷嗎

「小金人」走上街頭紐約客對奧斯卡態度不同

海外醫療表示:癌症已不再是不治之症

...AI醫療|輔助診斷|核磁共振成像|LPIXEL|腦動脈瘤圖像檢查|-健康界

疫情加速精準醫療時代到來基因檢測、體外診斷迎發展新機遇

「谷歌」一下癌症診斷新利器,AI顯微鏡開掛,AR瞬間識別癌細胞

分子診斷行業發展趨勢

泛生子登陸納斯達克達成全球癌症精準醫學領域史上最大IPO

赴美就醫小科普:家族史會影響你患癌症的風險嗎?

2019世界十大醫療新技術排行榜

聽聲音就能診斷PTSD,紐約大學團隊開發AI識別正確率高達89%

劉文華院長:癌症的早發現、早診斷、早治療有什麼重要的意義?

紐約客特稿 | 把癌症診斷交給機器,醫療服務會更好嗎?

相關焦點

2020年全球癌症診斷初創企業融資排行TOP 10

關於醫療大腦、知識圖譜與智能診斷,這是最全的解讀 | 雷鋒網公開課

碰撞與融合:MSK-IMPACT在癌症診斷和治療中的臨床應用——張麗英教授學術交流紀實

皮膚診斷,會是圖像技術的下一個落地點嗎?

FMI公司癌症 NGS 體外診斷產品獲美國「醫保」覆蓋!適用全部實體瘤

國內腫瘤精準醫療伴隨診斷行業領軍者——艾德生物

紐約城市學院從七葉樹中研發出了幫助癌症成像的分子

AI+醫療系列之一:智能病理診斷及醫學影像識別系統

AI在醫療領域智能幫我們診斷嗎

「小金人」走上街頭 紐約客對奧斯卡態度不同

海外醫療表示:癌症已不再是不治之症

...AI醫療|輔助診斷|核磁共振成像|LPIXEL|腦動脈瘤圖像檢查|-健康界

疫情加速精準醫療時代到來 基因檢測、體外診斷迎發展新機遇

「谷歌」一下癌症診斷新利器,AI顯微鏡開掛,AR瞬間識別癌細胞

分子診斷行業發展趨勢

泛生子登陸納斯達克達成全球癌症精準醫學領域史上最大IPO

赴美就醫小科普:家族史會影響你患癌症的風險嗎?

2019世界十大醫療新技術排行榜

聽聲音就能診斷PTSD,紐約大學團隊開發AI識別正確率高達89%

劉文華院長:癌症的早發現、早診斷、早治療有什麼重要的意義?

「小金人」走上街頭紐約客對奧斯卡態度不同

疫情加速精準醫療時代到來基因檢測、體外診斷迎發展新機遇