終端智能語音處理技術與應用

納躍躍 王子騰 付強 王亮 馬麗艷

  • 出版商: 電子工業
  • 出版日期: 2025-04-01
  • 定價: $654
  • 售價: 8.5$556
  • 語言: 簡體中文
  • 頁數: 361
  • ISBN: 7121498065
  • ISBN-13: 9787121498060
  • 下單後立即進貨 (約4週~6週)

商品描述

語音是最有效的人機交互方式之一。人工智能與傳統語音技術相結合使其在家居、可穿戴、機器人、車載等智能終端設備上得到了普及。終端設備具有低資源、實時性、應用場景覆雜多變等特點,對算法提出了更嚴格的要求。 本書介紹了面向端側設備的若幹智能語音處理技術,書中主要採用了傳統信號處理與深度學習相結合的方法論,並且介紹了在實際工程應用中的若幹心得,適合於理工科高年級本科生、研究生,以及語音領域的工程師閱讀。

作者簡介

納躍躍,2005年、2008年及2014年先後於北京交通大學計算機科學與技術專業獲得學士、碩士及博士學位。2014年在中國科學院聲學研究所語言聲學與內容理解重點實驗室完成博士後研究。現任職於吉利汽車研究院,專註於數字信號處理、機器學習及智能終端語音交互等領域的研究與開發工作。

目錄大綱

1 終端智能語音處理概述
1.1 引言
1.2 問題和挑戰
1.3 發展歷史概要
1.4 本書的組織結構
1.5 本書的適用人群
1.6 常用表示和符號對照
1.6.1 默認符號
1.6.2 對離散時間序列的表示
1.6.3 關於索引序號從0還是1開始的說明
1.7 關於中英文混寫的說明
1.8 免責聲明
1.9 本章小結
理論篇
2 子帶濾波
2.1 離散傅里葉變換與短時傅里葉變換
2.1.1 離散傅里葉變換
2.1.2 短時傅里葉變換
2.1.3 輸出延時
2.1.4 頻譜泄漏
2.1.5 時域捲積與頻域點積的近似關系
2.2 多相濾波器組
2.2.1 對頻譜泄漏的數學解釋
2.2.2 扇形損失
2.2.3 重採樣
2.2.4 多相濾波器組
2.3 濾波器設計基礎
2.4 本章小結
3 固定波束形成
3.1 多通道語音增強的基本原理
3.1.1 物理解釋
3.1.2 幾何解釋
3.2 遠場模型
3.3 波束形成及陣列性能評價
3.3.1 beampattern
3.3.2 directivity index
3.3.3 white noise gain
3.3.4 effective rank
3.4 波束形成算法的求解形式
3.4.1 superdirective beamforming
3.4.2 差分波束形成
3.5 本章小結
4 自適應波束形成
4.1 遞推求平均
4.2 典型自適應波束形成算法
4.2.1 MVDR算法
4.2.2 PMWF算法
4.3 共軛對稱矩陣求逆
4.3.1 1×1和2×2矩陣求逆
4.3.2 Cholesky分解
4.3.3 矩陣求逆引理
4.3.4 IQRD方法
4.3.5 誤差與穩定性
4.4 本章小結
5 盲源分離
5.1 信號模型
5.1.1 瞬時模型
5.1.2 捲積模型
5.2 獨立成分分析
5.2.1 獨立性假設與中心極限定理
5.2.2 ICA的目標函數
5.2.3 AuxICA算法
5.2.4 2×2廣義特徵分解問題
5.2.5 排列歧義性與尺度歧義性
5.3 獨立向量分析
5.3.1 IVA的目標函數
5.3.2 AuxIVA算法
5.3.3 兩級架構
5.4 盲源分離與波束形成的聯系和區別
5.5 本章小結
6 回聲消除與去混響
6.1 信號模型
6.1.1 回聲消除信號模型
6.1.2 去混響信號模型
6.2 LMS與NLMS算法
6.3 RLS算法
6.3.1 最小二乘法
6.3.2 RLS算法
6.4 一種基於盲源分離的回聲消除方法
6.4.1 問題背景
6.4.2 算法推導
6.4.3 對比實驗
6.5 本章小結
7 數據模擬
7.1 信號模型和系統框架
7.2 傳函的模擬與測量
7.2.1 鏡像法傳函模擬
7.2.2 傳函測量
7.2.3 分塊捲積
7.3 非線性回聲模擬
7.4 散射噪聲模擬
7.5 信噪比和音量
7.6 本章小結
8 深度語音增強
8.1 信號模型
8.2 時頻掩蔽
8.3 損失函數
8.4 深度回聲殘餘抑制
8.4.1 數據準備
8.4.2 輸入特徵
8.4.3 模型結構
8.5 多通道語音增強模型
8.5.1 基於掩蔽的波束形成算法
8.5.2 深度神經網絡空域濾波算法
8.6 歌曲成分分離
8.7 本章小結
9 語音活動性檢測
9.1 HMMVAD
9.1.1 HMM基礎
9.1.2 前向算法與後向算法
9.1.3 Viterbi算法
9.1.4 Baum-Welch算法
9.1.5 下溢問題
9.1.6 在線HMMVAD
9.2 NNVAD
9.2.1 一種NNVAD模型
9.2.2 一種NN和HMM結合的VAD
9.3 VAD性能評價
9.4 本章小結
10 關鍵詞檢測
10.1 特徵提取
10.2 聲學模型
10.2.1 建模單元
10.2.2 聲學模型
10.2.3 關於聲學模型工作原理的討論
10.3 解碼器
10.3.1 閾值與動態閾值
10.3.2 關於ROC曲線與閾值選擇的討論
10.4 虛警問題
10.4.1 對虛警現象的直觀解釋
10.4.2 減少虛警的方法
10.4.3 對比實驗
10.5 多通道關鍵詞檢測與通道選擇
10.5.1 問題背景
10.5.2 模型與訓練方法
10.5.3 實驗與分析
10.6 本章小結
11 聯合優化方法
11.1 盲源分離統一框架
11.1.1 信號模型
11.1.2 問題拆解
11.1.3 對比實驗
11.2 語音增強與關鍵詞檢測聯合優化
11.2.1 系統框架
11.2.2 語音增強模塊
11.2.3 關鍵詞檢測模塊
11.2.4 實驗現象
11.3 本章小結
12 模型量化
12.1 模型量化方法
12.1.1 訓練後量化
12.1.2 訓練時量化
12.1.3 無數據量化
12.2 關鍵詞檢測模型的無數據量化方法
12.2.1 時序數據生成器