從「數據沙漠」中找到綠洲
數據清洗師毛雨晴每天從大量樣本中篩選出有效素材,為人工智慧深度學習提供數據
毛雨晴(左一)每天要對大量的染色體樣本進行數據化轉換。 長沙晚報全媒體記者 小劉軍 攝
長沙晚報全媒體記者 陳登輝
人物名片
毛雨晴,長沙人,畢業於長沙醫學院,自興人工智慧集團智慧醫療數據清洗師。
新職業簡介
數據清洗師:根據業務要求,能夠用程序實現數據篩選、分類、修正、加工等的工程技術人員。一般要求掌握計算機、數據分析、機器算法等技能。
大數據之所以「大」,意味著它的價值密度低,就像在廣袤的沙漠之中,只有尋找到綠洲,才能讓數據實現價值。這項繁雜而重要的辨別工作,如今已經形成了一個獨特的新職業——數據清洗師。
位於長沙高新區的自興人工智慧大廈裡,一個將人工智慧應用於醫療的項目已經進入試用階段,一批數據清洗師每天都在「大浪淘沙」,對大量的染色體素材進行數據化處理。毛雨晴就是其中一位。
人工智慧賦能,省去大量繁瑣環節
毛雨晴及其團隊正在從事的,是一個名為人類染色體智能分析雲平臺AICKS(以下簡稱AICKS)的項目。
「染色體如今已經廣泛應用於醫療診斷領域,」自興人工智慧智慧醫療的產品及研發經理鄒磊告訴記者,在傳統的診斷過程中,醫生需要對大量的染色體進行分離和判斷,「一般人都是23對染色體,分成46條,在樣本裡,它們交織在一起,想要逐個比對,工作量不小。」即便是熟練的醫生,也需要15到20分鐘才能完成一個樣本。
「與我們合作的中信湘雅生殖與遺傳專科醫院,高峰期時一個月要處理6000多例,可以想像工作量有多大。」鄒磊表示。
為了解決這一痛點,自興人工智慧研發了AICKS,通過運用人工智慧算法,對光學顯微成像後的人類染色體圖像,進行自動去噪、增強、分割與識別,完成染色體疾病的智能檢測,自動生成核型分析報告,實現染色體核型智能化分析。
鄒磊介紹說,這是一個數據開放平臺,包含了數據標註、質檢在內的多種工具,以及醫生的標註行為以及圖像的共享等。為配合平臺運轉,還有控建的數據中心。
「根據我們的測算,應用AICKS後,每個樣本的分析時間可以縮短至3~5分鐘,顯著提高效率。」鄒磊說,在這個過程中,需要讓人工智慧系統通過海量的案例,去深度學習,而這個把現實素材轉化成數據的過程,就需要發揮數據清洗師的作用。
每天要看近萬張樣本圖片,海量數據中「淘金」
毛雨晴是土生土長的長沙人,畢業於長沙醫學院,所學的專業是醫學檢驗專業。
「這個專業就是學習如何通過試驗和分析樣本,向醫生反饋結果,」毛雨晴說,她的數據清洗師工作,與這一專業密不可分。
在毛雨晴的電腦屏幕上,顯示著一個樣本的23對染色體。「我需要做的就是逐個比對,根據算法的需要進行區分,」毛雨晴介紹說,染色體異常的情況主要分為兩類,一是數量上的異常,二是結構上的異常,如缺失、增加、異位、互換等。
常人眼裡看起來扭曲而模糊的染色體,在毛雨晴眼中卻能準確地找到帶紋上的特徵,「最細微的差別只有幾個像素」。這樣的樣本圖片,她每天要看成千上萬張。
數據化的過程中,篩選有效素材就像從樹上摘果子,果子採摘完後,還要交給下一道工序,打成果汁,也就是把素材完全轉化成數字。當染色體素材轉換成為數據之後,數據清洗師的工作才算圓滿完成。
鄒磊告訴記者,目前AICKS已經進入試用階段,「醫生們都希望能夠早日用上這個系統,幫助他們省去繁雜而重複的工作」。
職業感悟
人工智慧就是「越人工、越智能」。在人工智慧賦能各個行業的過程中,都需要海量的數據進行支撐。人工處理數據的過程有重複、繁瑣的一面,但這份工作對提高社會效率有很大的意義,值得我們去堅守和突破。
——毛雨晴