首先從入門書籍說起,入門書籍的話推薦以下基本書籍,通過這幾本書,可以對音頻信號處理的基礎知識有個大概了解,掌握一些基本的音頻信號處理方法。本文推薦書籍無先後排名順序,大家可以挑選合適的書籍進行閱讀。
圖片取自天貓店鋪,侵刪
書籍介紹:
本書介紹了語音信號處理的基礎、原理、方法和應用,以及該學科領域近年來取得的一些新成果、新進展及新技術。全書共分十二章。內容包括:緒論;語音信號處理的基礎知識;語音信號處理的常用方法(矢量量化、隱馬爾可夫模型、神經網絡);語音信號的分析技術(語音分幀、語音信號頻域分析、倒譜分析、線性預測分析、小波分析);語音信號特徵提取(端點檢測、基音周期估計、共振峰估計);語音增強(濾波器法、相關特徵法、非線性處理法、減譜法、Weiner濾波法);語音識別(語音識別原理和識別系統的組成、孤立詞識別系統、連續語音識別系統);說話人識別(說話人識別方法和系統結構、應用VQ、DTW、HMM的說話人識別系統);語音編碼(語音編碼的評價指標、語音信號的波形編碼、參數編碼、混合編碼);語音合成與轉換(語音合成算法、TTS、常用語音轉換的方法);語音信號的情感信息處理技術(情感理論與情感優化實驗、情感的聲學特徵分析、實用語音情感的識別算法研究、跨語言的語音情感識別);語音隱藏(基本語音信息隱藏算法);聲源定位(雙耳聽覺定位原理及方法、傳聲器陣列模型、基於傳聲器陣列的聲源定位算法分類)。書籍介紹:
本書是上面推薦的書籍《語音信號處理(第3版)》的配套實驗教材。這本實驗教材闡述了語音信號處理的基本理論,並基於MATLAB介紹了語音信號處理的實現方法和關鍵技術。本書共分13章,內容涵蓋了語音信號處理基礎實驗、語音信號的變換域分析實驗、語音信號特徵提取實驗、語音增強實驗、語音編碼實驗、語音合成與轉換、語音隱藏、聲源定位、語音識別、說話人識別、語音情感識別。和前面的書籍配套使用效果較好,我這邊有在網上下載過對應的源碼文件,由於公眾號文章無法貼百度雲連結,有需要的可以私信公眾號「語音信號處理實驗源碼」文件進行獲取。歡迎大家找我私聊獲取鴨!(期待你們打開窗口,私聊我喲~)
書籍介紹:
語音信號處理是數位訊號處理的一個重要分支。本書含有許多數位訊號處理的方法和 MATLAB函數。全書共10章。第1~4章介紹語音信號處理的一些基本分析方法和手段,以及相應的MATLAB函數;第5~ 9章介紹語音信號預處理和特徵的提取,包括消除趨勢項和基本的減噪方法,以及端點檢測、基音的提取和共振峰的提取,並利用語音信號進行處理的基本方法,給出了多種提取方法和相應的MATLAB程序;第10章結合各種參數的檢測介紹了語音信號的合成、語音信號的變速和變調處理,還介紹了時域基音同步疊加( TD PSOLA)的語音合成,並給出了相應的MATLAB程序。附錄A中給出了調試複雜程序的方法和思路。(悄悄說:本書的源碼程序我也有,可以私信公眾號「MATLAB語音信號分析與合成」獲取)
前面推薦了兩本中文書籍,下面推薦下英文書籍翻譯過來的教材,假如你有些信號與系統的知識忘記了的話,可以買一本這個書籍或者在網上下載一本奧本海姆的《離散時間信號處理》看看,所以推薦的就是這本書(PDF也可以私信公眾號「離散時間信號處理」獲取,沒有下載快來私信我吧!只求私信後,順便打賞一下本文鴨,謝謝各位大佬!)A.V.奧本海姆, R.W.謝弗, 奧本海姆, et al. 離散時間信號處理[M]. 西安交通大學出版社, 2001.
書籍介紹:
本書系統論述了離散時間信號處理的基本理論和方法,是國際信號處理領域中的經典權威教材。內容包括離散時間信號與系統,z變換,連續時間信號的採樣,線性時不變系統的變換分析,離散時間系統結構,濾波器設計方法,離散傅立葉變換,離散傅立葉變換的計算,利用離散傅立葉變換的信號傅立葉分析,參數信號建模,離散希爾伯特變換,倒譜分析與同態解卷積。
書籍介紹:
本書可稱為語音信號處理領域最新最好的指導書和參考資料。作者在所開設的麻省理工學院研究生課程的基礎上,介紹了語音信號處理的主要原理、重要應用以及最新研究動態,並且指出了新的研究方向的進展和局限性。全書在理論和應用之間達到了極好的平衡。首先講解了用於理解離散時間語音信號處理的完整理論基礎,然後介紹了語音信號處理方面的重要研究進展,其中包括正弦語音處理、語音時頻分析以及非線性聲學語音產生模型,而這些進展情況在以往任何一本語音信號處理教科書中都不曾提及。本書在應用部分深入介紹了以下內容:語音編碼、語音增強、語音綜合、說話人識別、語音降噪、語音信號恢復、動態範圍壓縮等。值得注意的是,在本書的原理和應用部分恰當地加入了非常完整的實例和MATLAB習題。本書適合作為數字語音處理及相關方向的研究生教材,也可供有關領域的研究人員參考閱讀。
以下兩本書是看到知乎上【微軟亞洲研究院】推薦的書籍,想要列全,所以引用了下。
Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of speech recognition[M]. Tsinghua University Press, 1999.書籍介紹:
Preface Our primary motivation in writing this book is to share our working experience to bridge the gap between the knowledge of industry gurus and newcomers to the spoken language processing community. Many powerful techniques hide in conference proceedings and academic papers for years before becoming widely recognized by the research community or the industry. We spent many years pursuing spoken language technology research at Carnegie Mellon University before we started spoken language RandD at Microsoft. We fully understand that it is by no means a small undertaking to transfer a state-of-the-art spoken language research system into a commercially viable product that can truly help people improve their productivity. Our experience in both industry and academia is reflected in the context of this book, which presents a contemporary and comprehensive description of both theoretic and practical issues in spoken language processing. This book is intended for people of diverse academic and practical backgrounds. Speech scientists, computer scientists, linguists, engineers, physicists, and psychologists all have a unique perspective on spoken language processing. This book will be useful to all of these special interest groups. Spoken language processing is a diverse subject that relies on knowledge of many levels, including acoustics, phonology, phonetics, linguistics, semantics, pragmatics, and discourse. The diverse nature of spoken language processing requires knowledge in computer science, electrical engineering, mathematics, syntax, and psychology. There are a number of excellent books on the subfields of spoken language processing, including speech recognition, text-to-speech conversion, and spoken language understanding, but there is no single book that covers both theoretical and practical aspects of these subfields and spoken language interface design. We devote many chapters systematically introducing fundamental theories needed to understand how speech recognition, text-to-speech synthesis, and spoken language understanding work. Even more important is the fact that the book highlights what works well in practice, which is invaluable if you want to build a practical speech recognizer, a practical text-to-speech synthesizer, or a practical spoken language system. Using numerous real examples in developing Microsoft's spoken language systems, we concentrate on showing how the fundamental theories can be applied to solve real problems in spoken language processing.
主要內容:
本書對口語處理中所涉及的理論和實踐問題進行了全面的論述。口語處理包含聲學、音韻、語音、語言、語用、話語等多樣多層次的知識,涉及到計算機科學、電子工程、數學、語法和心理學等多領域,其應用包括語音識別、語音合成和口語理解。本書系統介紹上述應用所需要的理論基礎(包括概率統計、資訊理論、模式識別、語音信號處理、語音特徵表達、語音編碼),然後從實踐角度詳細介紹了語音識別系統(包括聲學模型、環境魯棒性、語言模型、搜索算法尤其是大詞彙搜索算法、包含數據準備和詞典的語音合成技術 、結構化特徵、文本歸一化、韻律、合成方法),最後還介紹了口語理解的相關內容。本書涵蓋了口語處理中的基本理論以及需要解決的實際問題。
俞棟, 鄧力, 俞凱, et al. 解析深度學習:語音識別實踐[M]// 解析深度學習:語音識別實踐. 電子工業出版社, 2016.本書主要介紹基於網際網路場景的交互式實時語音處理流程,內容涉及智能語音助手、智能音箱、音/視頻會議等,具體包括實時語音信號處理、數字音效、網絡傳輸編/解碼和語音喚醒識別四部分。在闡述各部分的內容時,本書從基本概念和原理入手,將理論和實踐相結合,並細緻分析了極具商業價值的實例,以幫助讀者了解相關算法在工程上是如何實現的。另外,為便於有興趣的讀者快速進行算法驗證並將其改進和應用到實際的項目中,作者也開源了書中算法的源碼。
上面的書籍是針對語音的書籍,如果有研究方向為麥克風陣列信號處理的,有以下兩本書籍推薦,感覺寫的不錯,有些方法在陣列中比較常見,推薦閱讀。
陣列信號處理是信號處理領域的一個重要分支,它採用傳感器陣列來接收空間信號。與傳統的單個定向傳感器相比,陣列信號處理具有靈活的波束控制、較高的信號增益、極強的幹擾抑制能力,以及更高的空間分辨能力等優點,因而具有重要的軍事、民事應用價值和廣闊的應用前景。具體來說,陣列信號處理已用於雷達、聲納、通信、地震勘探、射電天文及醫學診斷等多種國民經濟和軍事領域。本書共12章,主要內容涵蓋波束形成、DOA估計、二維DOA估計、寬帶陣列信號處理、陣列分布式信源定位、陣列近場信源定位、稀疏陣列信號處理、向量傳感器陣列信號處理及其MATLAB實現等。
李宏毅《深度學習人類語言處理》國語(2020)(視頻教程)
課程連結
https://www.bilibili.com/video/BV1QE411p7z3?from=search&seid=15275460504882771129
數字語音處理 李琳山2019
https://www.bilibili.com/video/BV1Gt411V7Pq/?spm_id_from=333.788.videocard.0%E2%80%8Bwww.bilibili.com
哥倫比亞大學的e6870 Speech Recognition課程http://www.ee.columbia.edu/~stanchen/spring16/e6870/outline.html
大作業沒有帳號進不去,但是楊超前輩整理了一份不帶答案的作業放在github上: https://github.com/placebokkk/e6870/
許開拓前輩的答案:https://github.com/kaituoxu/E6870
Automatic Speech Recognition(課程):
http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.html
19-20的Lectures:
http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2020.html
18-19的Labs:
http://www.inf.ed.ac.uk/teaching/courses/asr/labs-2019.html
18-19的coursework:
http://www.inf.ed.ac.uk/teaching/courses/asr/coursework-2019.html
J&M指的是:Daniel Jurafsky and James H. Martin (2008).Speech and Language Processing, Pearson Education (2nd edition)
R&H指的是:S Renals and T Hain (2010).Speech Recognition, in Computational Linguistics and Natural Language Processing Handbook, A Clark, C Fox and S Lappin (eds.), Blackwells, chapter 12, 299-332.
Reading list寫的很詳細,大家可以查閱
Tomas Hain的那部分愛大下不了,大家可以自行搜索,Computational Linguistics and Natural Language Processing Handbook ,這本書的299頁開始就是 Speech Recognition部分。
主要內容:本課程是英國愛丁堡大學最新語音識別課程,內容包括背景理論介紹、語音信號分析、HMM聲學模型、基於神經網絡的聲學模型以及相關技術(包括解碼、對齊和加權有限狀態機、區分性訓練、說話人識別和多語言識別等)。該課程對語音識別領域的最新進展和相關經典論文亦有介紹,課程作業還包括用Kaldi工具構建識別系統,有助於學習者獲得實踐經驗。
推薦理由:該課程內容非常系統,並且包括了許多較新的技術進展。通過學習該課程,讀者能夠對當下語音識別領域有較為全面和深入的了解。
UCL的聲學所課程:
https://www.phon.ucl.ac.uk/courses/spsci/ish/week.htm
語音的基礎課程-數位訊號處理:Digital Signal Processing
https://www.cl.cam.ac.uk/teaching/1819/L314/
Speech Processing -- Fall 2011(非常詳細的課程)
http://www.speech.cs.cmu.edu/15-492/
斯坦福:CS224S / LINGUIST285 - Spoken Language Processing
http://web.stanford.edu/class/cs224s/syllabus.html
中國科學技術大學:Fundamentals of Speech Signal Processing
http://staff.ustc.edu.cn/~zhling/Course_SSP/
學習了這麼多課程後,最終可能是去找工作,或者繼續讀博,如果找工作的話,建議大家在早點做如下準備:
1、刷題。主要是劍指offer以及leetcode等題目(及早準備刷題,這樣在找工作的時候不會慌亂)
2、學習以上書籍和課程,夯實專業基礎知識
3、簡歷模板:百度「wondercv」或者「latex工作室」,參考模板修改自己的簡歷(簡歷之後找工作的時候準備)
Tips:
找工作的話能找到內推就先找內推(內推信息可以在牛客網上找到)。關於面試經驗、內推信息還有刷題的也是可以去牛客網。牛客網的討論區可以看到這些信息,在線編程那裡有編程題,leetcode可以去leetcode官網刷題,最好還要有一本算法書,確保對算法和數據結構較為熟悉,面試官會問到相關概念。
參考資料:
語音及語言處理(SLP)課程與相關資料分享(知乎)----作者:莫吉託燃燒吧準備學習研究一下語音識別 請問有哪些值得推薦的書籍 論文 及開源庫?----作者:微軟亞洲研究院
交流群
歡迎加入公眾號讀者群一起和「音頻信號處理」的小夥伴交流交流,目前群裡有各個公司的師兄師姐(可以幫忙內推)還有在讀的同學,可以在公眾號聊天框私信「加群」並備註下「暱稱+學校/公司+研究方向」,例如「張三+上海交大/字節跳動+語音識別」,請按照格式備註,謝謝合作!添加進群後,在群裡歡迎發送招聘、求職廣告,其他廣告請諮詢群主是否可以發送。謝謝理解~
投稿、合作歡迎聯繫:Boener@163.com
互動時刻:
對於音頻信號處理入門,你有什麼建議,歡迎點擊留言板留言!