聲音信號處理與項目實踐
應娜,唐向宏,簡志華
- 出版商: 電子工業
- 出版日期: 2024-06-01
- 定價: $419
- 售價: 8.5 折 $356
- 語言: 簡體中文
- 頁數: 248
- ISBN: 7121487527
- ISBN-13: 9787121487521
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書系統介紹了聲音信號處理的背景知識、發展歷史以及研究現狀與趨勢,並詳細闡述了基礎原理、處理方法、實踐應用、新成果與新技術。 全書共9章。第1章緒論,第2章聲音信號簡介,第3章短時時域處理技術,第4章短時傅里葉變換,第5章聲音信號的線性預測,第6章語音編碼,第7章聲音合成與轉換,第8章語音識別,第9章基於深度學習技術的聲音技術應用。 本書體系完整,結構嚴謹,系統性強,原理闡述透徹,聯系實際應用,凸顯理論與實踐結合,包含豐富的實踐案例。本書可作為高等院校信號與信息處理、通信與電子工程、模式識別與人工智能等專業高年級本科生及研究生教材,也可供該領域的科研及工程技術人員參考。
目錄大綱
目 錄
第1章 緒論 1
1.1 聲音信號處理的研究內容 1
1.2 聲音信號處理的發展歷史 2
1.2.1 語音編碼算法的發展歷史 3
1.2.2 語音識別算法的發展歷史 4
1.2.3 語音去噪及增強算法的發展歷史 5
1.2.4 語音合成轉換等其他算法的發展歷史 7
1.2.5 基於語音和視覺信息的多模態融合方法 11
1.3 聲音效果評價 14
1.3.1 主觀評價方法 14
1.3.2 客觀評價方法 15
練習題 16
第2章 聲音信號簡介 17
2.1 人類語音信號的產生 17
2.2 語音信號的基本特徵 18
2.3 聲音的特徵提取 19
2.3.1 手工聲音特徵 19
2.3.2 深度語音情感特徵 19
2.4 人類的聽覺感知 20
2.5 語音數據庫 22
2.5.1 語音識別數據集 22
2.5.2 語音情感數據庫 23
2.5.3 多模態情感數據集 24
練習題 26
第3章 短時時域處理技術 27
3.1 語音信號的短時處理方法 27
3.1.1 語音端點檢測 27
3.1.2 預加重 28
3.1.3 分幀與加窗 28
3.2 短時能量和短時平均幅度 30
3.3 短時過零率 33
3.4 短時自相關函數 35
3.5 短時時域處理技術案例:基音提取 35
3.5.1 基音檢測估計方法1:三電平削波法 36
3.5.2 基音檢測估計方法2:SHR諧波檢測法 40
練習題 42
第4章 短時傅里葉變換 44
4.1 短時傅里葉變換的定義 44
4.2 短時傅里葉變換的理解 45
4.3 短時傅里葉變換的實現 49
4.4 語音短時傅里葉變換的應用案例 50
4.4.1 梅爾頻率倒譜系數的提取和應用 50
4.4.2 聲音去噪算法的實現 57
4.4.3 聲音信號熵的提取應用 62
練習題 69
第5章 聲音信號的線性預測編碼 70
5.1 線性預測基本原理 70
5.2 線性預測的解析算法 73
5.3 線性預測的應用案例 76
5.3.1 基音檢測估計 77
5.3.2 共振峰估計 81
練習題 85
第6章 語音編碼 86
6.1 脈沖編碼調制 87
6.1.1 均勻量化脈沖編碼調制 87
6.1.2 非均勻量化脈沖編碼調制 87
6.1.3 自適應量化脈沖編碼調制 88
6.2 差分脈沖編碼 89
6.2.1 差分脈沖編碼原理 89
6.2.2 自適應差分脈沖編碼 91
6.3 增量調制 95
6.3.1 增量調制原理 95
6.3.2 自適應增量調制原理 95
6.4 基於線性預測編碼的聲碼器 96
6.4.1 LPC-10聲碼器 96
6.4.2 碼激勵線性預測編碼 102
練習題 107
第7章 聲音合成與轉換 109
7.1 語音合成方法 109
7.1.1 參數合成方法 110
7.1.2 波形合成方法 115
7.2 漢語基於音節的規則合成方法 120
7.2.1 韻律規則合成 121
7.2.2 多音節協同發音規則合成 129
7.2.3 輕聲音節規則合成 130
7.3 語音轉換方法 131
7.3.1 語音轉換系統的總體框架 131
7.3.2 語音轉換常見的特徵參數 132
7.4 語音轉換評價指標 134
7.4.1 客觀評價 135
7.4.2 主觀評價 135
7.5 語音轉換應用案例 136
7.5.1 平行語音轉換方法 136
7.6 非平行語音轉換應用案例 139
7.6.1 循環生成對抗網絡 139
7.6.2 星型生成對抗網絡 140
7.6.3 變分自動編碼器 141
7.6.4 自適應實例規範化 141
7.6.5 激活引導和自適應實例歸一化 142
練習題 150
第8章 語音識別 151
8.1 採用矢量量化的說話人識別 151
8.1.1 矢量量化的原理 151
8.1.2 矢量量化的訓練 152
8.1.3 矢量量化說話人識別的實現 153
8.2 採用動態時間規整的孤立詞識別 154
8.3 基於隱馬爾可夫模型的語音(語句)識別 159
8.3.1 HMM模型 159
8.3.2 HMM的概率求解 161
8.3.3 HMM的解碼 164
8.3.4 HMM的訓練 166
8.3.5 HMM-GMM模型 171
8.3.6 基於HMM的語音識別應用案例 173
練習題 180
第9章 基於深度學習模型的聲音技術應用 183
9.1 深度學習網絡基礎 183
9.1.1 深度學習網絡基本結構 183
9.1.2 深度學習網絡的訓練 185
9.1.3 捲積神經網絡 187
9.1.4 循環神經網絡 191
9.1.5 註意力機制 197
9.2 基於深度學習的聲音去噪算法 198
9.2.1 基於深度神經網絡幅度譜估計的深度學習聲音去噪算法 198
9.2.2 基於多尺度時頻捲積網絡的多通道聲音去噪 201
9.3 基於深度學習的語音識別應用案例 205
9.3.1 基於循環神經網絡-連續時序分類的語音識別 206
9.3.2 基於捲積神經網絡的語音識別 209
9.3.3 基於Transformer的語音識別 211
9.4 基於ResNet的語音情感識別應用案例 220
9.5 聲音與呼吸信號聯合識別應用案例 225
9.6 聲音與人臉聯合識別應用案例 228
練習題 231
參考文獻 232