中國西藏網訊 12月3日,中央民族大學56創孵化項目大學生創業團隊——巨神人工智慧科技,發布全球首套藏文手寫體數字數據集TibetanMNIST,並在國內領先的數據科學平臺科賽網獨家首發。這個學生創新團隊曾於今年6月被評為「北京地區高校優秀大學生創業團隊」。
圖為TibetanMNIST的數據樣本。圖片由才讓先木提供。
什麼是MNIST?
圖為MNIST 數據集。圖片由才讓先木提供。
MNIST數據集簡而言之就是一個手寫數據識別庫,包含有大量的手寫數字圖像,可以用來識別各種手寫體數字。MNIST 數據集來自美國國家標準與技術研究所, 由Yann LeCun教授主導建立。該數據集由250個不同人手寫的數字構成, 這250個人中50% 是高中學生, 50% 來自人口普查局的工作人員。該數據集共包含70000張數字圖像,其中訓練集60000張,測試集10000張。自MNIST數據集建立以來,被廣泛地應用於檢驗各種機器學習算法,測試各種模型,為機器學習的發展做出了不可磨滅的貢獻。
用它做什麼?
據團隊負責人袁明奇同學介紹,現在很多人都用過觸屏板手機或電腦的手寫功能,每個人都有自己的書寫風格,那麼當我們寫下數字之後,如何讓計算機成功地識別呢,我們可以通過機器學習的方法來解決這個問題,如使用卷積神經網絡模型,模型的結構如下所示:
圖為LeNet5卷積神經網絡模型結構。 圖片由才讓先木提供。
通過輸入MNIST數據對模型進行訓練,最終會獲得一個可識別手寫體數字的網絡模型,這就為計算機識別手寫體數字提供了一種很棒的方法。MNIST數據集的生命力極其旺盛,自其建立以來,在其基礎上衍生出了更多的變式,如FashionMNIST,它們都給出了不俗的表現。
將民族文化融入機器學習
「在一次會議上,我無意間看到了一位藏族夥伴的筆記本上寫著一些奇特的符號。他告訴我,這些是藏文數字,這對於從小使用阿拉伯數字的我十分驚訝,這些奇特的符號竟有如此特殊的含義!我當時就產生了一個想法,能不能讓計算機也能識別這些數字呢?」袁明奇告訴記者,「當時想法很簡單,就是希望將少數民族文化融入到機器學習中。」
「這個想法得到了大家的一致認可,於是我們開始模仿MNIST來製作這些數據,由於對藏文的不熟悉,一開始的工作十分艱難,直到取得了藏學研究院同學的幫助,才使得製作工作順利完成。歷時1個月,超過300次反覆篩選,最終得到17768張高清藏文手寫體數字圖像,形成了TibetanMNIST數據集。」談起那一個月的工作,團隊成員紛紛表示「累並快樂著」。
藏文作為我國的少數民族文字之一,具有十分悠久的文化歷史,而藏文文字獨特的書寫方式和構造,使得其極具美感!藏文主要有楷體和行體兩種書法體,此次創新團隊製作的TibetanMNIST正是行體藏文中的數字,如下圖所示:
圖為形體藏文、楷體藏文、拉丁文以及阿拉伯數字的對照表。圖片由才讓先木提供。
不忘初心,開源共享
「我們也沒有想到這個項目會有那麼多人關注,現在有很多人跟我們聯繫,表示對這個項目感興趣。」袁明奇對自己團隊取得的工作成果感到驕傲。「但是,這只是萬裡長徵第一步,我們需要更多的圖像數據,不斷對算法進行優化,才能保證這個識別模型的精密程度。而且,現在只是藏文數字數據集方面有了進展,後期我們還要做藏文字母手寫體數據集等一系列更加複雜的數據。距離實際的應用階段,我們還有很多工作要做。」
圖為團隊主要負責人在谷歌開發者社區活動現場。圖片由才讓先木提供。
面對突如其來的關注,這群身懷人工智慧夢想的95後學生團隊,做出了一個讓人驚嘆的舉動,「我們並沒有想過利用這個項目掙錢,這不是我們的初衷,所以經過反覆商議,我們決定將其完全開源,供所有的開發者自由使用,這樣才能使其能發揮最大的價值!」(中國西藏網 記者/孫健)
(責編: 孔夏)
版權聲明:凡註明「來源:中國西藏網」或「中國西藏網文」的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須註明來源中國西藏網和署著作者名,否則將追究相關法律責任。