【音頻信號處理專欄】【2】入門書籍和課程推薦

2021-02-14 音頻信號處理那些事兒

作為剛剛入門音頻信號處理（語音信號處理包括但不限於語音合成、語音識別、語音情感分析、車輛聲音信號處理、麥克風陣列信號處理等）的小懵懂們總是會問以下問題（以下問題均摘自知乎）：
本人剛研一，想學習語音識別方面知識，請問有哪些入門書籍或者課程推薦？請求推薦，不勝感激？之前我也有這些疑問，所以現在看到這些問題後，想要做出一個回答，確保之後入門的小懵懂們能夠快速入門，不再耽擱到自己的科研和學習。嘻嘻，。如果對大家有用的話，歡迎大家一鍵三連，分享，點讚和在看呀！

首先從入門書籍說起，入門書籍的話推薦以下基本書籍，通過這幾本書，可以對音頻信號處理的基礎知識有個大概了解，掌握一些基本的音頻信號處理方法。本文推薦書籍無先後排名順序，大家可以挑選合適的書籍進行閱讀。

圖片取自天貓店鋪，侵刪

書籍介紹：

本書介紹了語音信號處理的基礎、原理、方法和應用，以及該學科領域近年來取得的一些新成果、新進展及新技術。全書共分十二章。內容包括：緒論；語音信號處理的基礎知識；語音信號處理的常用方法（矢量量化、隱馬爾可夫模型、神經網絡）；語音信號的分析技術（語音分幀、語音信號頻域分析、倒譜分析、線性預測分析、小波分析）；語音信號特徵提取（端點檢測、基音周期估計、共振峰估計）；語音增強（濾波器法、相關特徵法、非線性處理法、減譜法、Weiner濾波法）；語音識別（語音識別原理和識別系統的組成、孤立詞識別系統、連續語音識別系統）；說話人識別（說話人識別方法和系統結構、應用VQ、DTW、HMM的說話人識別系統）；語音編碼（語音編碼的評價指標、語音信號的波形編碼、參數編碼、混合編碼）；語音合成與轉換（語音合成算法、TTS、常用語音轉換的方法）；語音信號的情感信息處理技術（情感理論與情感優化實驗、情感的聲學特徵分析、實用語音情感的識別算法研究、跨語言的語音情感識別）；語音隱藏（基本語音信息隱藏算法）；聲源定位（雙耳聽覺定位原理及方法、傳聲器陣列模型、基於傳聲器陣列的聲源定位算法分類）。

書籍介紹：

本書是上面推薦的書籍《語音信號處理（第3版）》的配套實驗教材。這本實驗教材闡述了語音信號處理的基本理論，並基於MATLAB介紹了語音信號處理的實現方法和關鍵技術。本書共分13章，內容涵蓋了語音信號處理基礎實驗、語音信號的變換域分析實驗、語音信號特徵提取實驗、語音增強實驗、語音編碼實驗、語音合成與轉換、語音隱藏、聲源定位、語音識別、說話人識別、語音情感識別。和前面的書籍配套使用效果較好，我這邊有在網上下載過對應的源碼文件，由於公眾號文章無法貼百度雲連結，有需要的可以私信公眾號「語音信號處理實驗源碼」文件進行獲取。歡迎大家找我私聊獲取鴨！（期待你們打開窗口，私聊我喲~）

書籍介紹：

語音信號處理是數位訊號處理的一個重要分支。本書含有許多數位訊號處理的方法和 MATLAB函數。全書共10章。第1~4章介紹語音信號處理的一些基本分析方法和手段,以及相應的MATLAB函數;第5~ 9章介紹語音信號預處理和特徵的提取，包括消除趨勢項和基本的減噪方法，以及端點檢測、基音的提取和共振峰的提取，並利用語音信號進行處理的基本方法，給出了多種提取方法和相應的MATLAB程序；第10章結合各種參數的檢測介紹了語音信號的合成、語音信號的變速和變調處理，還介紹了時域基音同步疊加( TD PSOLA)的語音合成，並給出了相應的MATLAB程序。附錄A中給出了調試複雜程序的方法和思路。（悄悄說：本書的源碼程序我也有，可以私信公眾號「MATLAB語音信號分析與合成」獲取）

前面推薦了兩本中文書籍，下面推薦下英文書籍翻譯過來的教材，假如你有些信號與系統的知識忘記了的話，可以買一本這個書籍或者在網上下載一本奧本海姆的《離散時間信號處理》看看，所以推薦的就是這本書（PDF也可以私信公眾號「離散時間信號處理」獲取，沒有下載快來私信我吧！只求私信後，順便打賞一下本文鴨，謝謝各位大佬！）

A.V.奧本海姆, R.W.謝弗, 奧本海姆, et al. 離散時間信號處理[M]. 西安交通大學出版社, 2001.

書籍介紹：

本書系統論述了離散時間信號處理的基本理論和方法，是國際信號處理領域中的經典權威教材。內容包括離散時間信號與系統，z變換，連續時間信號的採樣，線性時不變系統的變換分析，離散時間系統結構，濾波器設計方法，離散傅立葉變換，離散傅立葉變換的計算，利用離散傅立葉變換的信號傅立葉分析，參數信號建模，離散希爾伯特變換，倒譜分析與同態解卷積。

書籍介紹：

本書可稱為語音信號處理領域最新最好的指導書和參考資料。作者在所開設的麻省理工學院研究生課程的基礎上，介紹了語音信號處理的主要原理、重要應用以及最新研究動態，並且指出了新的研究方向的進展和局限性。全書在理論和應用之間達到了極好的平衡。首先講解了用於理解離散時間語音信號處理的完整理論基礎，然後介紹了語音信號處理方面的重要研究進展，其中包括正弦語音處理、語音時頻分析以及非線性聲學語音產生模型，而這些進展情況在以往任何一本語音信號處理教科書中都不曾提及。本書在應用部分深入介紹了以下內容：語音編碼、語音增強、語音綜合、說話人識別、語音降噪、語音信號恢復、動態範圍壓縮等。值得注意的是，在本書的原理和應用部分恰當地加入了非常完整的實例和MATLAB習題。本書適合作為數字語音處理及相關方向的研究生教材，也可供有關領域的研究人員參考閱讀。

以下兩本書是看到知乎上【微軟亞洲研究院】推薦的書籍，想要列全，所以引用了下。

Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of speech recognition[M]. Tsinghua University Press, 1999.
A theoretical, technical description of the basic knowledge and ideas that constitute a modern system for speech recognition by machine. The book covers production, perception and acoustic-phonetic characterization of the speech signal, signal processing recognition, pattern comparison techniques, speech recognition system and analysis methods for speech design and implementation, theory and implementation of hidden Markov models, speech recognition based on connected word models, large vocabulary continuous speech recognition and task-oriented application of automatic speech recognition.本書是兩位語音領域的泰鬥——前貝爾實驗室主任L. Rabiner教授和美國國家工程院院士莊炳煌教授合著，完整論述了現代語音識別的基本問題和思想，包括語音信號產生、感知和語音信號的聲學以及語音學特徵、語音識別的信號處理和分析方法、模式比較、以及語音識別系統的設計和實現。其中詳細介紹了隱馬爾可夫模型理論和實現、孤立詞/連接詞模型、大詞彙連續語音識別、特定任務語音識別等。Huang, Xuedong & Acero, Alex & Hon, Hsiao-Wuen. (2001). Spoken Language Processing: A Guide to Theory, Algorithm, and System Development.

書籍介紹：

Preface Our primary motivation in writing this book is to share our working experience to bridge the gap between the knowledge of industry gurus and newcomers to the spoken language processing community. Many powerful techniques hide in conference proceedings and academic papers for years before becoming widely recognized by the research community or the industry. We spent many years pursuing spoken language technology research at Carnegie Mellon University before we started spoken language RandD at Microsoft. We fully understand that it is by no means a small undertaking to transfer a state-of-the-art spoken language research system into a commercially viable product that can truly help people improve their productivity. Our experience in both industry and academia is reflected in the context of this book, which presents a contemporary and comprehensive description of both theoretic and practical issues in spoken language processing. This book is intended for people of diverse academic and practical backgrounds. Speech scientists, computer scientists, linguists, engineers, physicists, and psychologists all have a unique perspective on spoken language processing. This book will be useful to all of these special interest groups. Spoken language processing is a diverse subject that relies on knowledge of many levels, including acoustics, phonology, phonetics, linguistics, semantics, pragmatics, and discourse. The diverse nature of spoken language processing requires knowledge in computer science, electrical engineering, mathematics, syntax, and psychology. There are a number of excellent books on the subfields of spoken language processing, including speech recognition, text-to-speech conversion, and spoken language understanding, but there is no single book that covers both theoretical and practical aspects of these subfields and spoken language interface design. We devote many chapters systematically introducing fundamental theories needed to understand how speech recognition, text-to-speech synthesis, and spoken language understanding work. Even more important is the fact that the book highlights what works well in practice, which is invaluable if you want to build a practical speech recognizer, a practical text-to-speech synthesizer, or a practical spoken language system. Using numerous real examples in developing Microsoft's spoken language systems, we concentrate on showing how the fundamental theories can be applied to solve real problems in spoken language processing.

主要內容:

本書對口語處理中所涉及的理論和實踐問題進行了全面的論述。口語處理包含聲學、音韻、語音、語言、語用、話語等多樣多層次的知識，涉及到計算機科學、電子工程、數學、語法和心理學等多領域，其應用包括語音識別、語音合成和口語理解。本書系統介紹上述應用所需要的理論基礎（包括概率統計、資訊理論、模式識別、語音信號處理、語音特徵表達、語音編碼），然後從實踐角度詳細介紹了語音識別系統（包括聲學模型、環境魯棒性、語言模型、搜索算法尤其是大詞彙搜索算法、包含數據準備和詞典的語音合成技術、結構化特徵、文本歸一化、韻律、合成方法），最後還介紹了口語理解的相關內容。本書涵蓋了口語處理中的基本理論以及需要解決的實際問題。

俞棟, 鄧力, 俞凱, et al. 解析深度學習:語音識別實踐[M]// 解析深度學習：語音識別實踐. 電子工業出版社, 2016.
書籍介紹：
本書首先概要介紹了傳統語音識別理論和經典的深度神經網絡核心算法。接著全面而深入地介紹了深度學習在語音識別中的應用，包括"深度神經網絡-隱馬爾可夫混合模型"的訓練和優化，特徵表示學習、模型融合、自適應，以及以循環神經網絡為代表的若干先進深度學習技術。本書適合有一定機器學習或語音識別基礎的學生、研究者或從業者閱讀，所有的算法及技術細節都提供了詳盡的參考文獻，給出了深度學習在語音識別中應用的全景。葛世超等. 實時語音處理實踐指南[M].北京：電子工業出版社,2020.

書籍介紹：

本書主要介紹基於網際網路場景的交互式實時語音處理流程，內容涉及智能語音助手、智能音箱、音/視頻會議等，具體包括實時語音信號處理、數字音效、網絡傳輸編/解碼和語音喚醒識別四部分。在闡述各部分的內容時，本書從基本概念和原理入手，將理論和實踐相結合，並細緻分析了極具商業價值的實例，以幫助讀者了解相關算法在工程上是如何實現的。另外，為便於有興趣的讀者快速進行算法驗證並將其改進和應用到實際的項目中，作者也開源了書中算法的源碼。

上面的書籍是針對語音的書籍，如果有研究方向為麥克風陣列信號處理的，有以下兩本書籍推薦，感覺寫的不錯，有些方法在陣列中比較常見，推薦閱讀。

書籍介紹：

陣列信號處理是信號處理領域的一個重要分支，它採用傳感器陣列來接收空間信號。與傳統的單個定向傳感器相比，陣列信號處理具有靈活的波束控制、較高的信號增益、極強的幹擾抑制能力，以及更高的空間分辨能力等優點，因而具有重要的軍事、民事應用價值和廣闊的應用前景。具體來說，陣列信號處理已用於雷達、聲納、通信、地震勘探、射電天文及醫學診斷等多種國民經濟和軍事領域。本書共12章，主要內容涵蓋波束形成、DOA估計、二維DOA估計、寬帶陣列信號處理、陣列分布式信源定位、陣列近場信源定位、稀疏陣列信號處理、向量傳感器陣列信號處理及其MATLAB實現等。

書籍介紹：空間譜估計是陣列信號處理中的一個重要研究方向，在雷達、通信、聲吶等眾多領域有極為廣闊的應用前景。本書深入、系統地論述了空間譜估計的理論、算法及一些理論方法之間的關係，總結了作者多年來的研究成果以及國際上這一領域的研究進展。全書由14章組成，主要內容有空間譜估計的研究進展、信號源數估計、線性預測（LP）類算法、MUSIC類算法、子空間擬合類算法、旋轉不變子空間（ESPRIT）類算法、子空間迭代與更新、特殊信號的空間譜估計、特殊陣列的空間譜估計、陣列誤差校正方法、現代信號處理在空間譜估計中的應用及多維空間譜估計等。看完之前的書籍後，相信大部分小夥伴都應該已經入門了，這裡還有一些課程，可以推薦給大家同步學習。

李宏毅《深度學習人類語言處理》國語(2020)（視頻教程）

課程連結

https://www.bilibili.com/video/BV1QE411p7z3?from=search&seid=15275460504882771129

數字語音處理李琳山2019

https://www.bilibili.com/video/BV1Gt411V7Pq/?spm_id_from=333.788.videocard.0%E2%80%8Bwww.bilibili.com

哥倫比亞大學的e6870 Speech Recognition課程http://www.ee.columbia.edu/~stanchen/spring16/e6870/outline.htmlwww.ee.columbia.edu

大作業沒有帳號進不去，但是楊超前輩整理了一份不帶答案的作業放在github上: https://github.com/placebokkk/e6870/

許開拓前輩的答案：https://github.com/kaituoxu/E6870

Automatic Speech Recognition（課程）：

http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.html

19-20的Lectures：

http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2020.html

18-19的Labs:

http://www.inf.ed.ac.uk/teaching/courses/asr/labs-2019.html

18-19的coursework:

http://www.inf.ed.ac.uk/teaching/courses/asr/coursework-2019.html

J&M指的是：Daniel Jurafsky and James H. Martin (2008).Speech and Language Processing, Pearson Education (2nd edition)

R&H指的是：S Renals and T Hain (2010).Speech Recognition, in Computational Linguistics and Natural Language Processing Handbook, A Clark, C Fox and S Lappin (eds.), Blackwells, chapter 12, 299-332.

Reading list寫的很詳細，大家可以查閱

Tomas Hain的那部分愛大下不了，大家可以自行搜索，Computational Linguistics and Natural Language Processing Handbook ，這本書的299頁開始就是 Speech Recognition部分。

主要內容：本課程是英國愛丁堡大學最新語音識別課程，內容包括背景理論介紹、語音信號分析、HMM聲學模型、基於神經網絡的聲學模型以及相關技術（包括解碼、對齊和加權有限狀態機、區分性訓練、說話人識別和多語言識別等）。該課程對語音識別領域的最新進展和相關經典論文亦有介紹，課程作業還包括用Kaldi工具構建識別系統，有助於學習者獲得實踐經驗。

推薦理由：該課程內容非常系統，並且包括了許多較新的技術進展。通過學習該課程，讀者能夠對當下語音識別領域有較為全面和深入的了解。

UCL的聲學所課程：

https://www.phon.ucl.ac.uk/courses/spsci/ish/week.htm

語音的基礎課程-數位訊號處理：Digital Signal Processing

https://www.cl.cam.ac.uk/teaching/1819/L314/

Speech Processing -- Fall 2011（非常詳細的課程）

http://www.speech.cs.cmu.edu/15-492/

斯坦福：CS224S / LINGUIST285 - Spoken Language Processing

http://web.stanford.edu/class/cs224s/syllabus.html

中國科學技術大學：Fundamentals of Speech Signal Processing

http://staff.ustc.edu.cn/~zhling/Course_SSP/

‍

學習了這麼多課程後，最終可能是去找工作，或者繼續讀博，如果找工作的話，建議大家在早點做如下準備：

1、刷題。主要是劍指offer以及leetcode等題目（及早準備刷題，這樣在找工作的時候不會慌亂）

2、學習以上書籍和課程，夯實專業基礎知識

3、簡歷模板：百度「wondercv」或者「latex工作室」，參考模板修改自己的簡歷（簡歷之後找工作的時候準備）

Tips:

找工作的話能找到內推就先找內推（內推信息可以在牛客網上找到）。關於面試經驗、內推信息還有刷題的也是可以去牛客網。牛客網的討論區可以看到這些信息，在線編程那裡有編程題，leetcode可以去leetcode官網刷題，最好還要有一本算法書，確保對算法和數據結構較為熟悉，面試官會問到相關概念。

參考資料：

語音及語言處理(SLP)課程與相關資料分享（知乎）----作者：莫吉託燃燒吧準備學習研究一下語音識別請問有哪些值得推薦的書籍論文及開源庫？----作者：微軟亞洲研究院

交流群

歡迎加入公眾號讀者群一起和「音頻信號處理」的小夥伴交流交流，目前群裡有各個公司的師兄師姐（可以幫忙內推）還有在讀的同學，可以在公眾號聊天框私信「加群」並備註下「暱稱+學校/公司+研究方向」，例如「張三+上海交大/字節跳動+語音識別」，請按照格式備註，謝謝合作！添加進群後，在群裡歡迎發送招聘、求職廣告，其他廣告請諮詢群主是否可以發送。謝謝理解~

投稿、合作歡迎聯繫：Boener@163.com

互動時刻：

對於音頻信號處理入門，你有什麼建議，歡迎點擊留言板留言！

【音頻信號處理專欄】【2】入門書籍和課程推薦

相關焦點

【音頻信號處理專欄】【1】音頻算法學習路徑介紹

Python入門必備的書籍推薦

C語言入門學習和書籍推薦

前端書籍和學習資源推薦

最好的Python入門書籍(官方推薦)

新手入門 | 算法書籍推薦

一些入門烘焙書籍的推薦

語音信號處理:基本方法與前沿技術

推薦一本入門醫學英語詞彙的書籍

十六本python入門學習書籍推薦,python入門新手必看

推薦|機器學習入門方法和資料合集

入門python 有什麼好的書籍推薦?

超實用音樂製作書籍推薦，學到最後的都是大佬

音頻信號及音頻分析

據說學到最後的都是大佬，超實用音樂製作書籍推薦

機器學習最佳統計書籍推薦

C語言入門書籍推薦和下載,小白自學經典

推薦一些值得訂閱的 Android 技術專欄

推薦一本靠譜的哲學入門書籍

在物聯網系統和應用中使用音頻和圖像信號處理技術的好處是什麼