全球首套!中央民族大學學生創新團隊發布藏文手寫體數字數據集

2020-12-13 中國西藏網

  中國西藏網訊 12月3日,中央民族大學56創孵化項目大學生創業團隊——巨神人工智慧科技,發布全球首套藏文手寫體數字數據集TibetanMNIST,並在國內領先的數據科學平臺科賽網獨家首發。這個學生創新團隊曾於今年6月被評為「北京地區高校優秀大學生創業團隊」。

  
圖為TibetanMNIST的數據樣本。圖片由才讓先木提供。

  什麼是MNIST?


圖為MNIST 數據集。圖片由才讓先木提供。

  MNIST數據集簡而言之就是一個手寫數據識別庫,包含有大量的手寫數字圖像,可以用來識別各種手寫體數字。MNIST 數據集來自美國國家標準與技術研究所, 由Yann LeCun教授主導建立。該數據集由250個不同人手寫的數字構成, 這250個人中50% 是高中學生, 50% 來自人口普查局的工作人員。該數據集共包含70000張數字圖像,其中訓練集60000張,測試集10000張。自MNIST數據集建立以來,被廣泛地應用於檢驗各種機器學習算法,測試各種模型,為機器學習的發展做出了不可磨滅的貢獻。

  用它做什麼?

  據團隊負責人袁明奇同學介紹,現在很多人都用過觸屏板手機或電腦的手寫功能,每個人都有自己的書寫風格,那麼當我們寫下數字之後,如何讓計算機成功地識別呢,我們可以通過機器學習的方法來解決這個問題,如使用卷積神經網絡模型,模型的結構如下所示:


圖為LeNet5卷積神經網絡模型結構。 圖片由才讓先木提供。

  通過輸入MNIST數據對模型進行訓練,最終會獲得一個可識別手寫體數字的網絡模型,這就為計算機識別手寫體數字提供了一種很棒的方法。MNIST數據集的生命力極其旺盛,自其建立以來,在其基礎上衍生出了更多的變式,如FashionMNIST,它們都給出了不俗的表現。

  將民族文化融入機器學習

  「在一次會議上,我無意間看到了一位藏族夥伴的筆記本上寫著一些奇特的符號。他告訴我,這些是藏文數字,這對於從小使用阿拉伯數字的我十分驚訝,這些奇特的符號竟有如此特殊的含義!我當時就產生了一個想法,能不能讓計算機也能識別這些數字呢?」袁明奇告訴記者,「當時想法很簡單,就是希望將少數民族文化融入到機器學習中。」

  「這個想法得到了大家的一致認可,於是我們開始模仿MNIST來製作這些數據,由於對藏文的不熟悉,一開始的工作十分艱難,直到取得了藏學研究院同學的幫助,才使得製作工作順利完成。歷時1個月,超過300次反覆篩選,最終得到17768張高清藏文手寫體數字圖像,形成了TibetanMNIST數據集。」談起那一個月的工作,團隊成員紛紛表示「累並快樂著」。

  藏文作為我國的少數民族文字之一,具有十分悠久的文化歷史,而藏文文字獨特的書寫方式和構造,使得其極具美感!藏文主要有楷體和行體兩種書法體,此次創新團隊製作的TibetanMNIST正是行體藏文中的數字,如下圖所示:


圖為形體藏文、楷體藏文、拉丁文以及阿拉伯數字的對照表。圖片由才讓先木提供。

  不忘初心,開源共享

  「我們也沒有想到這個項目會有那麼多人關注,現在有很多人跟我們聯繫,表示對這個項目感興趣。」袁明奇對自己團隊取得的工作成果感到驕傲。「但是,這只是萬裡長徵第一步,我們需要更多的圖像數據,不斷對算法進行優化,才能保證這個識別模型的精密程度。而且,現在只是藏文數字數據集方面有了進展,後期我們還要做藏文字母手寫體數據集等一系列更加複雜的數據。距離實際的應用階段,我們還有很多工作要做。」


圖為團隊主要負責人在谷歌開發者社區活動現場。圖片由才讓先木提供。

  面對突如其來的關注,這群身懷人工智慧夢想的95後學生團隊,做出了一個讓人驚嘆的舉動,「我們並沒有想過利用這個項目掙錢,這不是我們的初衷,所以經過反覆商議,我們決定將其完全開源,供所有的開發者自由使用,這樣才能使其能發揮最大的價值!」(中國西藏網 記者/孫健)

(責編: 孔夏)

版權聲明:凡註明「來源:中國西藏網」或「中國西藏網文」的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須註明來源中國西藏網和署著作者名,否則將追究相關法律責任。

相關焦點

  • 扎西次仁:藏文信息高速公路的鋪路人
    屆時,以敦煌文獻藏文手寫體為藍本形成的敦煌體以及印章用藏文霍爾伊體都會推出,與此同時,藏文還將實現電腦豎排,滿足用戶對傳統藏文的各種排版的需求。「處心積慮」創造藏文輸入法1985年,當扎西次仁還在清華大學讀書的時候,IBM才剛開始生產個人電腦,學校用的計算機還只是小型機連著顯示器。
  • 中科院團隊發布首套2020年全球30米地表覆蓋精細分類產品
    記者今天從中國科學院空天信息創新研究院獲悉,近日該院劉良雲研究員團隊對外發布2020年全球30米地表覆蓋精細分類產品。目前該數據集已在地球大數據科學工程數據網站免費共享。近年來,隨著衛星遙感和計算機存儲與計算能力的不斷增強,全球尺度中高解析度地表覆蓋產品的應用需求日益迫切。作為全球首套2020年全球30米精細地表覆蓋產品,該數據集及時反映了2020年全球陸地區域(除南極洲)在30米空間解析度下的地表覆蓋分布狀況,為地表相關應用提供了最新的數據支撐,對於全球變化、可持續發展分析以及地理國情監測等具有重要意義。
  • 全球首個藏文搜尋引擎「雲藏」推出漢藏英手機輸入法
    中新社西寧10月5日電 (記者 羅雲鵬)全球首個藏文搜尋引擎「雲藏」5日對外披露,該搜尋引擎推出漢藏英手機輸入法旨在打造藏文在手機端的高效輸入方式。「雲藏」輸入法集成漢藏英三種語言文字,其中藏文輸入實現了智能聯想、智能糾錯、自動下加字等特色功能。「雲藏」輸入法由青海省海南藏族自治州藏文信息技術研究中心研發,西北民族大學語言資源創新中心協助研發,是繼「雲藏」團隊2016年推出全球首個藏文搜尋引擎後在藏文信息化領域又一階段化成果。
  • 西藏大學發布首款全能藏語輸入軟體
    &nbsp&nbsp&nbsp&nbsp新華社拉薩11月3日電(記者索朗德吉)西藏大學3日在拉薩發布首款集語音、手寫、拼寫三位一體的藏文輸入軟體。該軟體為首款基於蜂巢輸入模型的全能藏語輸入軟體,填補了藏語信息技術研究領域的又一項空白。
  • 中央民族大學民族舞蹈教育教師團隊介紹
    一、團隊的建設背景——中央民族大學舞蹈學院  中央民族大學是國家雙一流大學,中央民族大學舞蹈學院是國家級少數民族藝術重點學科基地,是中國民族舞蹈家的搖籃。經過60年的發展,舞蹈學院已經成為融少數民族舞蹈教育、表演、科研、創作為一體的民族舞蹈藝術中心。
  • 全球首個藏文搜尋引擎「雲藏」上線 填補業內空白
    「雲藏」22日在青海省海南藏族自治州共和縣正式上線運營,該搜尋引擎將在滿足全球藏文網民個性化檢索需求的同時,還將推進藏文信息處理研究成果的技術轉化和應用,使藏文信息全方位融入網際網路世界。  海南藏族自治州藏文信息技術研究中心副主任拉吉卓瑪介紹,研發團隊現有150餘名工作人員,由藏文資料庫建設組、語言智能處理組和技術組3個小組組成,團隊中藏族比例達87%以上。  據了解,「雲藏」藏文搜尋引擎系統平臺建設項目是集搜尋引擎、藏文百科、自動問答為一體的大型藏文門戶系統工程,涵蓋新聞、網頁、圖片、視頻、音頻、百科、文庫、知道8個板塊。
  • 藏語智能語音雲平臺全球首發 填補多項空白
    ­  中新社拉薩11月3日電(記者 陳韜彬)基於藏語合成、藏語識別、藏漢翻譯等研究成果的藏語智能語音雲平臺3日對外發布,填補了多項藏語信息技術研究空白。­  當日,西藏大學·訊飛語音及語言聯合實驗室在拉薩發布了該平臺。歷時6年,該聯合實驗室推出三位一體藏語輸入法、漢藏互譯通、PC端藏語合成系統等多項科研產品。
  • 詳解與實戰TensorFlow MNIST手寫體數字識別(softmax and cnn)
    更多人關注的公眾號:機器學習算法與Python精研編輯|魚大來源|githubMNIST是一套手寫體數字的圖像數據集
  • 周恩來總理與中央民族學院藏族學生二三事
    撫今追昔,我突然想起一次座談會發言時曾談到,1959年經黨中央批准,在周總理的指示和具體安排下,中央民族學院(今中央民族大學)的藏族學員全部前往西藏參與民主改革,並做出了重要貢獻。我的發言引起與會人員的關注,都希望詳細敘述事情的過程。周總理是我敬仰的領袖人物之一。他對中央民族大學的關心和照顧,我耳聞目睹了不少。於是,查找了一些史料,完成這篇短短的文章,以緬懷敬愛的周恩來總理。
  • 經多年研發 西藏藏文信息處理技術取得整體性突破
    據西藏大學藏文信息技術教育部工程研究中心介紹,在國家有關部門的大力支持下,西藏自主研發了國產新一代藏文軟體系統,包括輸入法、作業系統、辦公套件、網頁瀏覽器、出版系統等9大項,藏文信息處理技術取得了整體性突破。其中包括世界首個支持Windows作業系統的藏文軟體、首個支持國產Linux作業系統的藏文軟體以及國際上最先進的藏文輸入法等。
  • Fashion-MNIST:替代MNIST手寫數字集的圖像數據集
    研究方向丨深度學習在產品搜索中的應用FashionMNIST 是一個替代 MNIST 手寫數字集 [1] 的圖像數據集。為什麼要做這個數據集?經典的 MNIST 數據集 [1] 包含了大量的手寫數字。十幾年來,來自機器學習、機器視覺、人工智慧、深度學習領域的研究員們把這個數據集作為衡量算法的基準之一。你會在很多的會議,期刊的論文中發現這個數據集的身影。實際上,MNIST數據集已經成為算法作者的必測的數據集之一。
  • 全球首個藏文搜尋引擎落戶青海
    人民網海南州8月23日電(郭慧芳) 以藏文新聞、網頁、百科、文庫、視頻、音頻、圖片為一體的「雲藏」藏文搜索平臺22日在青海省海南州開通上線,標誌著全球首個藏文搜尋引擎誕生。 青海省政協主席仁青加、省委常委、宣傳部部長張西明、省人大常委會副主任鄧本太和海南州委書記張文魁共同啟動了開通按鈕。
  • 全球首個藏文搜尋引擎「雲藏」發布新版App和輸入法
    全球首個藏文搜尋引擎「雲藏」發布新版App和輸入法 2020年08月04日 08:39:00來源:中國新聞網    中新網西寧8月3日電 (魯丹陽許祥虎)3日,青海省海南藏族自治州藏文信息技術研究中心發布「雲藏」新版App及輸入法。
  • 東北大學研發出國內首套漢文與民族文雙向翻譯系統
    央廣網瀋陽5月14日消息(記者徐志強)近日,經中華人民共和國國家民族事物委員會公布,東北大學信息學院計算機軟體所朱靖波老師團隊與中國民族語文翻譯局共同研發的漢文與民族文智能翻譯系統正式上線試運行。該系統採用了國際一流的、朱靖波團隊自主研發的NiuTrans翻譯引擎,可實現漢文與蒙古、藏、維吾爾、哈薩克、朝鮮等5種民族文的智能翻譯,是國內首套漢文與民族文雙向翻譯系統。
  • 西北民族大學
    中國國家交響樂團、中國愛樂樂團、中國芭蕾舞樂團、中央民族歌舞團、二炮文工團、蘭州軍區戰鬥文工團、甘肅省歌劇院、蘭州市歌舞劇院、北京廣播學院、蘭州大學、浙江師範大學、成都師範大學、中央電視臺均有且為業務骨幹;部分畢業生已在國外發展。
  • SMART發布中文手寫體識別軟體
    【2月27日太平洋電腦網北京訊】近期,全球頂尖的電子白板生產商SMART發布了其最新研製的中文手寫體識別軟體,這是SMART產品首次實現中文直接輸入。此次增加中文識別後,SMART軟體支持的語言文字將達到34種,基本涵蓋了全球主流的文字,充分體現出了SMART產品全球性的特徵。
  • 西北師大教授團隊參與研發的藏文智能語音翻譯系統發布
    原標題:師大教授團隊參與研發的藏文智能語音翻譯系統發布  中國甘肅網7月12日訊 據蘭州日報報導(記者 耿睿) 7月11日,記者從西北師範大學獲悉,中國民族語文翻譯局在西寧和拉薩發布了藏文(安多、衛藏)智能語音翻譯系統。
  • 首套漢文與民族文智能翻譯系統上線
    原標題:首套漢文與民族文智能翻譯系統上線 國家民委日前公布,由東北大學信息學院計算機軟體所朱靖波教授帶領的團隊與中國民族語文翻譯局共同研發的漢文與民族文智能翻譯系統正式上線試運行。該系統採用了朱靖波團隊自主研發的NiuTrans翻譯引擎,可實現漢文與蒙古、藏、維吾爾、哈薩克、朝鮮等5種民族文的智能翻譯,可進一步提高民族語文翻譯工作的信息化水平,更好地為民族語文翻譯工作服務。
  • 「蒙古文編碼轉換系統」和「藏文分詞標準評測系統研究」通過結項...
    該項目是教育部、國家語委民族語言文字規範標準建設及信息化項目,由中央民族大學國家語言資源監測與研究中心少數民族語言分中心承擔。教育部語言文字信息管理司田立新副司長、標準處處長王奇,中央民族大學宋敏副校長、科研處遊斌處長出席會議。
  • 中央民族大學排名第幾位?2020年中國民族類大學排行榜15強名單!
    中央民族大學,是中國少數民族教育的最高學府,是全國民族院校中唯一所985/211,是唯一一所集齊了56個民族的大學。民族學科是該校的特色。每年還會預留少量計劃,用來調整省際間的生源平衡、民族比例、人口較少的民族生源問題等。那麼,中央民族大學排名第幾位?下面小編就為大家整理了2020年中國民族類大學排行榜15強名單!