...音樂數據開放項目與信息檢索:從IMSLP到字節跳動GiantMIDI-Piano

2021-01-21 南大信管研會

說到音樂資源的獲取,我們一般想到的是網易雲音樂、QQ音樂這樣以音頻播放功能為主的數位音樂平臺。但是音樂資源並不囿於音頻形式,在作學習或研究之用時,樂譜是和音頻同樣重要的信息資源。

本期推送將介紹知名的國際音樂數字圖書館IMSLP(International Music Score Library Project)以及今年10月字節跳動發布的全球最大的古典鋼琴數據集GiantMIDI-Piano,並在結尾推薦信息檢索領域的經典書籍《信息檢索導論》。

IMSLP

IMSLP是一個可供免費下載公有領域樂譜的電子圖書館。該網站由一名叫Edward Guo的學生在2006年所創建,運營資金主要來源於廣告和社會人士捐款。

14年後,這一電子圖書館已經變成了學院派音樂人士的重要網絡資源來源。該資料庫收錄了大約17700位作曲家的作品,覆蓋作品超過480000部。

在IMSLP網站上,用戶既可以按照作曲家、國籍、時期等分類目錄檢索,也可以直接通過作品號進行檢索。IMSLP會對所呈現的資源均標明編者、出版者資料以及版權來保障資源質量。

如下圖就展示了IMSLP中蕭邦第四敘事曲(檢索詞:Chopin Ballade No.4)的檢索結果之一。

圖1:Chopin Ballade No.4 檢索結果之一

然而,即使是用一份樂譜,不同演奏家的每一場演奏都是不同的,形成了多個經典且獨特的版本,用樂譜記錄演奏版本之間的不同之處顯得捉襟見肘。

GiantMIDI-Piano

人工智慧的發展將音樂的記錄與傳播推向了新的發展臺階。2020年10月,字節跳動發布信息檢索領域論文《GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music》,介紹了其團隊成果——全球最大的古典鋼琴數據集GiantMIDI-Piano。

圖2:字節跳動孔秋強團隊發表論文

研究者首先從開放的國際音樂數字圖書館 IMSLP 獲取了 18,067 位作曲家的 143,701 首作品名信息,並通過 YouTube 搜索到 60,724 個音頻。

然後,研究者設計了基於音頻卷積神經網絡(CNN)的鋼琴獨奏檢測算法,篩選出來自 2,786 位作曲家的 10,854 部鋼琴作品,形成了古典音樂領域的大數據集(圖3-5)。

最後,研究者開發並開源了一套高精度鋼琴轉譜系統(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times),將所有音頻轉譜成 MIDI 文件,進而構建了 GiantMIDI-Piano 資料庫。

在數據規模上,GiantMIDI-Piano數據集不同曲目的總時長是谷歌 MAESTRO 數據集的 14 倍。目前,該項目向全世界開放,旨在推動音樂科技和計算機信息學的方法。

圖3:數據集前100位作曲家的作品數量

圖4:數據集前100位作曲家的音符分布

圖5:巴赫、貝多芬、李斯特作品的音符分布

該項目未來的工業化用途包括音樂信息檢索、自動作曲、智能音樂創作、計算音樂學等。比如,用戶在欣賞古典曲目時對演奏版本有獨特需求,但目前的檢索系統並不能通過聽曲識別鑑定版本。但高精度轉譜系統的發展可使該需求得到滿足。

同時,團隊認為GiantMIDI-Piano的研究可以反哺基礎技術的研究,研究中的音頻事件檢測技術可以幫助識別一首歌曲中的哪部分是歌聲,另外在短視頻和特效領域也值得期待。

再如,高精度的轉譜系統記錄的不僅僅是音符本身,還數位化了演奏家的演奏風格,在自動演奏技術的加持下,現場復刻演奏家的演出成為可能。

山葉在2019年推出了世界首套人工智慧鋼琴系統Dear Glenn,系統能用已故鋼琴家格倫·古爾德(Glenn Gould)的風格演奏任意曲目。字節跳動新推出的數據集擴大了復刻演奏的流派與風格範圍。

該項目團隊成員認為,「通用的、大規模的、音樂領域的音頻數據集,有很多可以專注的方向和可能性。這個項目叫GiantMIDI-Piano,加一個Piano的後綴,其實就是給之後留空間,這個後綴說不定也可以是交響樂。」除了該項成果外,項目團隊在語言合成、音頻處理和識別、音樂理解和創作等方面都有很多積累和創新。

信息檢索導論

從文本到圖片,從圖片到音頻,信息檢索技術與應用在不斷地發展。由Christopher D.Manning主編的《信息檢索導論》介紹了信息檢索的基礎知識,並對信息檢索的發展做了回顧。

字節跳動GiantMIDI-Piano的研究是學術界和工業界合作的典型案例,雙方的配合使得學術界的想法順利落地。而本書的三位作者均是信息檢索領域的頂級專家,兩位來自學術界,一位來自矽谷業界,使得本書既具備深厚的理論基礎,又代表了前沿科技水準,在此推薦給大家。

圖6《信息檢索導論》

參考資料:

[1] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. 「GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music」(2020).

[2] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." (2020).

[3] 機器之心.萬餘首鋼琴作品、一千多個小時,字節跳動發布全球最大鋼琴MIDI數據集(2020) [EB/OL].https://mp.weixin.qq.com/s/aJhQZ812MgWxC-2gmAb92g

[4] 字節範兒. 黑白鍵上的字節跳動:全球最大鋼琴MIDI數據集背後的故事(2020)[EB/OL]. https://mp.weixin.qq.com/s/9RxesfIvGeoH7pnDPw_VCQ

[5] 山葉樂器音響.人工智慧再現逝世37年的鋼琴家,與人類演奏者實時合奏互動(2019) [EB/OL]https://www.bilibili.com/video/BV1q4411y76P?from=search&seid=2707649859924142680

相關焦點

  • 從30人公司到估值超1000億美元,字節跳動如何成為全球獨角獸?
    單單說起字節跳動這家公司,大部分人腦海可能並沒有什麼概念,但是如果說起今日頭條這個APP,很多人又很熟悉。沒錯,今日頭條就是北京字節跳動科技有限公司在建立初期獨立研發的。字節跳動通過海量信息採集、深度數據挖掘和用戶行為分析,為用戶智能推薦個性化信息,從而開創了一種全新的新聞閱讀模式。
  • 「海外員工:字節跳動讓世界刷新對中國的認知」
    其實,TikTok、Musical.ly、TopBuzz,它們的背後都是同一家中國公司——字節跳動。不過,我們大多數人或許更習慣用「今日頭條」,這家公司最出名的產品來稱呼它。所以,你可以簡單地將TopBuzz理解為今日頭條海外版,TikTok為抖音海外版,Musical.ly則是字節跳動後來收購的音樂短視頻社區。
  • 字節跳動VS騰訊:世紀之戰
    這也是繼今年1月份推出「多閃」之後,字節跳動旗下第二款熟人社交平臺類型產品。回顧字節跳動的產品布局,從Media屬性的今日頭條,到具備社區屬性的內涵段子,再到Social Media的抖音,字節跳動正在一步一步不斷加強用戶之間的關係鏈和互動性,離最後的山頂(熟人社交)已經越來越近。
  • 字節跳動火山引擎加入 Linux 雲原生計算基金會(CNCF)
    在本次峰會上,CNCF 執行總裁 Priyanka Sharma 表示:CNCF 對火山引擎加入基金會表示誠摯歡迎,字節跳動以業界領先的超大容器集群規模支撐著今日頭條、抖音、西瓜視頻等產品線,作為字節跳動旗下的企業服務品牌,火山引擎加入雲原生社區可以為企業應用雲原生提供豐富經驗
  • 中文在線:與北京字節跳動網絡技術有限公司(以下簡稱「字節跳動...
    同花順金融研究中心8月4日訊,有投資者向中文在線提問, 董秘你好,貴公司與字節跳動文學作品合作,其中包含衍生的遊戲授權和影視授權嗎?今年字節跳動一直在進軍遊戲開發,需要相關的版權,請問遊戲版權方面貴公司和字節跳動是如何處理的相關問題呢,包括字節跳動布局影視,貴公司和字節跳動有相關的影視合作細節嗎公司回答表示,2020年7月14日,公司與北京字節跳動網絡技術有限公司(以下簡稱「字節跳動」)籤訂了《框架合作協議》。
  • 不要神化字節跳動:字節跳動的新業務發展並不均衡
    行業內對字節的忌憚似乎已經逼近當年業界對騰訊的忌憚,從競爭對手到投資圈、從打工人到創業狗,「張一鳴又來搶XX的地盤」是近兩年圈內經常熱議的話題。今天,衛夕和你認真地聊一聊這家公司。毫無疑問,字節跳動是一家極其成功的公司,這基於以下事實——1.產品:今日頭條、抖音在各自賽道已經做到綜合數據第一。2.出海:Tik Tok成為中國網際網路出海領域最成功的產品,沒有之一。
  • 字節跳動高管炮轟騰訊:停止無理由封殺
    1月7日,字節跳動副總裁謝欣在微頭條發文稱,微信開放平臺無理由封禁和限制了多款飛書小程序,包括「飛書」、「飛書會議」和「飛書文檔」等。謝欣表示,騰訊對飛書的無理由全面封殺,已經對很多用戶的日常工作造成了困擾,希望騰訊能夠從公平、公正的立場出發,「停止無理由的封殺」。對於謝欣提出的指控,截至記者發稿,騰訊公司並未回應。
  • 字節跳動做起了政府的生意 這是塊好啃的骨頭嗎?
    字節跳動也自然不會錯過,在企服賽道的布局已佔到總投資數量的20%左右。這一次,創始人張一鳴也跟政府做上了生意。字節跳動瞄上這塊萬億市場近日,南京市大數據管理局公布了《基於政務雲的微服務監控和運營數據分析管理平臺》項目的中標公告,北京火山引擎科技有限公司以836.8萬元中標。
  • 股市四海堂資訊看點:字節跳動入局網際網路金融
    2018年6月和2019年8月,字節跳動經過收購華夏穩妥經紀有限公司和北京金美林出資諮詢有限公司,別離取得穩妥經紀人車牌和證券出資與諮詢執業資歷。  2018年7月初,今天頭條APP曾低沉上線「放心借」,但由於爾後P2P行業一再爆雷,網際網路金融風險專項整治敞開,「放心借」還遭到自媒體告發,質疑其是否持有金融車牌和涉及虛假宣揚等方面問題,爾後該項目被字節跳動擱置。
  • 字節跳動AI副總裁馬維英離職,因「個人興趣」選擇加入清華...
    從微軟亞洲研究院到字節跳動翻開字節跳動AI Lab的大咖名單,可以發現AI技術大牛李航、李磊、郭傳雄均匯集於此,而馬維英則是AI Lab的負責人。那麼馬維英到底是何許人也?博士期間,其負責開發的網際網路圖像檢索系統Netra被認為是最具代表性的圖像檢索系統之一。1997年工作後,先是加入美國惠普實驗室,從事多媒體自適應傳輸和移動網際網路的分布式多媒體服務系統的研究。之後,於2001年正式加入微軟亞洲研究院,一做就是16年。
  • 頭條、抖音後,誰是字節跳動的新引擎?
    丈量「全球」,這些數據對於張一鳴來說可能爛熟於心。畢竟站在當時,他所領導的字節跳動是中國有史以來出海最成功的網際網路企業,旗下的明星產品TikTok風靡全球,全球下載量破20億次。 從日本到印度,再到澳大利亞和美國,每月有8億用戶在TikTok上刷著各種魔性短視頻,平均每個用戶每天打開該App 8次,共花費接近1個小時。
  • 第三屆字節跳動夏令營開啟全球報名 中外頂級科學家親自授課
    7月9日,第三屆字節跳動夏令營正式面向全球高校學生開放報名。據悉,本屆夏令營將開設研發、遊戲兩個賽道,面向全球高校在校生公開招募150人,以「大咖授課+項目實踐」的形式帶領營員全面了解算法、工程、遊戲領域的前沿知識,幫助營員將學校的專業知識與業界的實踐經驗打磨融合,為進入職場打好前站。
  • 字節跳動推出企業技術服務平臺「火山引擎 」
    網易科技訊 6月22日消息,字節跳動企業技術服務平臺「火山引擎」官網上線,據介紹,「火山引擎」是字節跳動旗下企業級智能技術服務平臺,依託字節跳動的大數據、人工智慧等技術能力,以及增長理念與方法論,為客戶提供技術產品與解決方案。
  • 字節跳動下的飛書,有哪些優勢與劣勢?
    字節經常強調其文化是重視「Context」,而不是「Control」,因此張一鳴為Lark定下的核心產品基調基調。2. 信息透明且高效流轉張一鳴可謂是追求信息快速流動和共享最極致的一個。在「飛書」的商業化過程中,會把字節跳動的組織管理方式當作一項核心賣點,這顯然比單純賣軟體更加吸引客戶。也正是信息的高效流轉。
  • 北京字節跳動將在海口設區域總部中心!旗下有今日頭條、抖音……
    1月28日,海口市政府與北京字節跳動科技有限公司在北京籤訂合作協議。這是海口深入貫徹全面深化改革開放政策落實年要求,落實省委書記劉賜貴與字節跳動高層座談講話精神,持續深化百日大招商(項目)活動,緊緊圍繞「三大領域」「十二個重點產業」上門精準招商的又一碩果。
  • 當字節跳動跳入教育領域:一場模仿遊戲?
    而字節跳動本身是一家非常看重數據和盈利能力的公司,「大部分項目都很看重ROI(投資回報率)」,成躍東說,曾經熱鬧的飛聊和多閃項目,都因為DAU和ROI遲遲提不上來,被戰略性放棄。但在教育領域,字節跳動特意放寬了對ROI的要求。「別的項目要是這麼搞,早就在內部被斃了。」成躍東對AI財經社說。目前,飛聊和多閃還在維持運營,不過技術團隊都被調到了教育板塊。
  • 字節跳動入局網際網路券商 傳旗下松鼠證券已獲在港牌照
    《中國經營報》記者發現,截至8月13日上午10時,在香港證監會官網上,暫未能通過搜索「字節跳動」「松鼠證券」的中英文名稱在《持牌人及註冊機構的公眾紀錄冊》中找到相應資料。同時,香港證監會官網於2020年7月更新的公眾紀錄冊資料中,新增持牌人及註冊機構裡也沒有找到相關企業名稱。
  • 字節跳動:開源Fedlearner框架,廣告投放增效209%
    本文中,我們將分享字節跳動聯邦學習平臺 Fedlearner 的技術實現與落地應用經驗,看字節跳動如何尋找聯邦學習落地難題的突破口。聯邦學習平臺 Fedlearner 的技術落地與挑戰字節跳動聯邦學習團隊在 2020 年初低調開源了自研的聯邦學習平臺 Fedlearner(項目地址:https://github.com/bytedance/fedlearner ),並一直持續更新,在 2020 年 10 月 26 日上線了 v1.5 版本。
  • 字節跳動企業技術服務平臺 「火山引擎」官網上線
    字節跳動企業技術服務平臺 「火山引擎」官網上線 2020-06-23 10:29:49 來源 : 北京商報 6月22日,字節跳動企業技術服務平臺「火山引擎」官網上線
  • 從飛書看它背後的字節跳動_詳細解讀_最新資訊_熱點事件_36氪
    疫情支援:捐贈5萬多個口罩,為抗疫情一線醫務人員設立專項基金;疫情信息:在字節系產品上線新冠肺炎專題頁,闢謠專區,在線問診等;公益項目:上線電影《囧媽》,免費開放飛書商業版等。  除夕當天,為了保證溝通效率,北京和上海的工作人員24小時開著視頻會議溝通,「整個情景讓我覺得北京和上海的同事就是在一個空間」,被物理空間限制的信息流通,在這個視頻會議裡得到全方位高速流動。