說到音樂資源的獲取,我們一般想到的是網易雲音樂、QQ音樂這樣以音頻播放功能為主的數位音樂平臺。但是音樂資源並不囿於音頻形式,在作學習或研究之用時,樂譜是和音頻同樣重要的信息資源。
本期推送將介紹知名的國際音樂數字圖書館IMSLP(International Music Score Library Project)以及今年10月字節跳動發布的全球最大的古典鋼琴數據集GiantMIDI-Piano,並在結尾推薦信息檢索領域的經典書籍《信息檢索導論》。
IMSLP
IMSLP是一個可供免費下載公有領域樂譜的電子圖書館。該網站由一名叫Edward Guo的學生在2006年所創建,運營資金主要來源於廣告和社會人士捐款。
14年後,這一電子圖書館已經變成了學院派音樂人士的重要網絡資源來源。該資料庫收錄了大約17700位作曲家的作品,覆蓋作品超過480000部。
在IMSLP網站上,用戶既可以按照作曲家、國籍、時期等分類目錄檢索,也可以直接通過作品號進行檢索。IMSLP會對所呈現的資源均標明編者、出版者資料以及版權來保障資源質量。
如下圖就展示了IMSLP中蕭邦第四敘事曲(檢索詞:Chopin Ballade No.4)的檢索結果之一。
圖1:Chopin Ballade No.4 檢索結果之一
然而,即使是用一份樂譜,不同演奏家的每一場演奏都是不同的,形成了多個經典且獨特的版本,用樂譜記錄演奏版本之間的不同之處顯得捉襟見肘。
GiantMIDI-Piano
人工智慧的發展將音樂的記錄與傳播推向了新的發展臺階。2020年10月,字節跳動發布信息檢索領域論文《GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music》,介紹了其團隊成果——全球最大的古典鋼琴數據集GiantMIDI-Piano。
圖2:字節跳動孔秋強團隊發表論文
研究者首先從開放的國際音樂數字圖書館 IMSLP 獲取了 18,067 位作曲家的 143,701 首作品名信息,並通過 YouTube 搜索到 60,724 個音頻。
然後,研究者設計了基於音頻卷積神經網絡(CNN)的鋼琴獨奏檢測算法,篩選出來自 2,786 位作曲家的 10,854 部鋼琴作品,形成了古典音樂領域的大數據集(圖3-5)。
最後,研究者開發並開源了一套高精度鋼琴轉譜系統(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times),將所有音頻轉譜成 MIDI 文件,進而構建了 GiantMIDI-Piano 資料庫。
在數據規模上,GiantMIDI-Piano數據集不同曲目的總時長是谷歌 MAESTRO 數據集的 14 倍。目前,該項目向全世界開放,旨在推動音樂科技和計算機信息學的方法。
圖3:數據集前100位作曲家的作品數量
圖4:數據集前100位作曲家的音符分布
圖5:巴赫、貝多芬、李斯特作品的音符分布
該項目未來的工業化用途包括音樂信息檢索、自動作曲、智能音樂創作、計算音樂學等。比如,用戶在欣賞古典曲目時對演奏版本有獨特需求,但目前的檢索系統並不能通過聽曲識別鑑定版本。但高精度轉譜系統的發展可使該需求得到滿足。
同時,團隊認為GiantMIDI-Piano的研究可以反哺基礎技術的研究,研究中的音頻事件檢測技術可以幫助識別一首歌曲中的哪部分是歌聲,另外在短視頻和特效領域也值得期待。
再如,高精度的轉譜系統記錄的不僅僅是音符本身,還數位化了演奏家的演奏風格,在自動演奏技術的加持下,現場復刻演奏家的演出成為可能。
山葉在2019年推出了世界首套人工智慧鋼琴系統Dear Glenn,系統能用已故鋼琴家格倫·古爾德(Glenn Gould)的風格演奏任意曲目。字節跳動新推出的數據集擴大了復刻演奏的流派與風格範圍。
該項目團隊成員認為,「通用的、大規模的、音樂領域的音頻數據集,有很多可以專注的方向和可能性。這個項目叫GiantMIDI-Piano,加一個Piano的後綴,其實就是給之後留空間,這個後綴說不定也可以是交響樂。」除了該項成果外,項目團隊在語言合成、音頻處理和識別、音樂理解和創作等方面都有很多積累和創新。
信息檢索導論
從文本到圖片,從圖片到音頻,信息檢索技術與應用在不斷地發展。由Christopher D.Manning主編的《信息檢索導論》介紹了信息檢索的基礎知識,並對信息檢索的發展做了回顧。
字節跳動GiantMIDI-Piano的研究是學術界和工業界合作的典型案例,雙方的配合使得學術界的想法順利落地。而本書的三位作者均是信息檢索領域的頂級專家,兩位來自學術界,一位來自矽谷業界,使得本書既具備深厚的理論基礎,又代表了前沿科技水準,在此推薦給大家。
圖6《信息檢索導論》
參考資料:
[1] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. 「GiantMIDI-Piano: A large-scale MIDI dataset for classical piano music」(2020).
[2] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." (2020).
[3] 機器之心.萬餘首鋼琴作品、一千多個小時,字節跳動發布全球最大鋼琴MIDI數據集(2020) [EB/OL].https://mp.weixin.qq.com/s/aJhQZ812MgWxC-2gmAb92g
[4] 字節範兒. 黑白鍵上的字節跳動:全球最大鋼琴MIDI數據集背後的故事(2020)[EB/OL]. https://mp.weixin.qq.com/s/9RxesfIvGeoH7pnDPw_VCQ
[5] 山葉樂器音響.人工智慧再現逝世37年的鋼琴家,與人類演奏者實時合奏互動(2019) [EB/OL]https://www.bilibili.com/video/BV1q4411y76P?from=search&seid=2707649859924142680