AI 數字人原理與實現

方進

預覽內頁

出版商: 人民郵電
出版日期: 2024-12-01
售價: $539
語言: 簡體中文
頁數: 317
ISBN: 7115642850
ISBN-13: 9787115642851

下單後立即進貨 (約2週~3週)

商品描述

本書是一部系統介紹 AI 數字人技術的專業著作，涵蓋了數字人的定義、發展歷程、關鍵技術及應用實

踐等內容，全書共分 3 部分。

在技術基礎部分，首先介紹了數字人的定義、發展歷程、分類和應用場景，接著詳細解析了數字人系統的架構設計、視覺算法和語音合成技術的原理，以及語義理解和知識表示技術如何提升數字人的智能和表現力。

在應用實踐部分，帶領讀者深入探索數字人的創作流程，從內容策劃、角色建模到交互設計，每一步都進行了詳細講解。此外，還討論了數字人的身份認知和技術規範，為數字人的應用實踐提供了必要的知識。

在展望未來部分，探討了數字人技術的未來發展趨勢，為讀者描繪了數字人與人類和諧共生的美好藍圖。

本書內容豐富，結構清晰，適合對數字人技術感興趣的讀者，包括數字人技術的研究者、開發者、相關行業的從業人員及愛好者等閱讀。

作者簡介

方進

資深軟件架構師，長期深耕於前沿技術領域，曾在多家知名企業成功推動機器學習平臺建設，領導模型創新工作。在自然語言處理、電腦視覺和語音合成等領域積累了豐富的算法研發經驗，並對生成式AI技術及預訓練語言模型進行了深入研究。密切關註數字人行業，通過開源項目和學術研究，不斷提升自己的數字人系統構建技能；精通SD圖生成、VITS語音合成等技術，實現了數字人在形象、語音和情感等方面的創新創作。

目錄大綱

技術基礎

第 1 章　數字人概述 3

1.1　什麽是數字人 3

1.1.1　數字人的定義 4

1.1.2　數字人的特徵 4

1.2　數字人的發展歷史 5

1.2.1　早期虛擬角色 5

1.2.2　人工智能與數字人的融合 5

1.3　數字人的分類 5

1.3.1　根據外觀分類 6

1.3.2　根據用途分類 6

1.3.3　根據智能級別分類 7

1.4　數字人的應用場景 7

1.4.1　娛樂場景 7

1.4.2　教育場景 8

1.4.3　客服場景 9

1.5　數字人技術的發展趨勢 9

1.6　數字人的社會影響 10

1.7　本章小結 11

第 2 章　數字人系統的架構 12

2.1　系統的組成模塊 12

2.1.1　輸入模塊 13

2.1.2　內容生成模塊 16

2.1.3　渲染模塊 19

2.1.4　交互模塊 22

2.2　多模態信息融合流程 25

2.2.1　文本生成 25

2.2.2　語音合成 26

2.2.3　表情映射 28

2.2.4　唇型同步 29

2.3　數字人雲服務架構 30

2.3.1　雲平臺選型 31

2.3.2　模型倉庫 32

2.3.3　多模態處理 33

2.3.4　在線服務 34

2.4　數字人的數據表示 35

2.4.1　文本數據表示 36

2.4.2　音頻數據表示 37

2.4.3　視頻數據表示 38

2.4.4　多模態數據表示 38

2.5　本章小結 39

第 3 章　數字人視覺算法 41

3.1　3D 人臉建模 42

3.1.1　建模流程 42

3.1.2　參數調整 45

3.1.3　3D 人臉重建技術 47

3.1.4　建模軟件比較 51

3.2　表情分析 54

3.2.1　表情識別 54

3.2.2　表情生成 62

3.2.3　表情跟蹤 69

3.2.4　表情融合 74

3.3　姿態估計 81

3.3.1　2D 姿態估計 81

3.3.2　3D 姿態估計 87

3.3.3　手勢估計 92

3.3.4　手勢生成 96

3.4　唇形檢測和口型匹配 99

3.4.1　2D 唇型檢測 99

3.4.2　2D 口型匹配 105

3.4.3　3D 唇型檢測 109

3.4.4　3D 口型匹配 115

3.4.5　唇型同步評價 119

3.5　本章小結 125

第 4 章　數字人語音合成 126

4.1　語音數字化原理 127

4.1.1　音頻採樣 127

4.1.2　語音編碼 130

4.2　基於拼接的語音合成 137

4.2.1　段音拼接 137

4.2.2　語音跨段平滑 141

4.3　基於深度學習的語音合成 144

4.3.1　LSTM 在語音合成中的應用 145

4.3.2　基於註意力機制的 Tacotron 模型 147

4.3.3　Tacotron2 與 WaveNet 集成 151

4.3.4　基於 Transformer 的語音合成 154

4.3.5　基於非自回歸結構的實時語音合成 155

4.4　語音風格遷移 158

4.4.1　聲紋提取 159

4.4.2　風格轉換 159

4.5　個性化語音合成 162

4.6　語音風格增強 164

4.7　多語種語音合成 165

4.7.1　多語言模型訓練 165

4.7.2　語言嵌入 166

4.7.3　語言自適應模型 167

4.7.4　語音後處理 168

4.8　本章小結 169

第 5 章　數字人語義理解 171

5.1　語義解析 172

5.1.1　詞法分析 172

5.1.2　句法分析 175

5.1.3　語義分析 179

5.2　情感分析 183

5.2.1　情感識別 184

5.2.2　情感分類 188

5.3　語義編碼器 - 解碼器 191

5.3.1　編碼器架構 191

5.3.2　解碼器架構 195

5.3.3　註意力機制 197

5.3.4　應用場景 200

5.4　本章小結 203

第 6 章　數字人知識表示 204

6.1　知識表示基礎 205

6.1.1　符號主義知識表示 205

6.1.2　連接主義知識表示 210

4.4　語音風格遷移 158

4.4.1　聲紋提取 159

4.4.2　風格轉換 159

4.5　個性化語音合成 162

4.6　語音風格增強 164

4.7　多語種語音合成 165

4.7.1　多語言模型訓練 165

4.7.2　語言嵌入 166

4.7.3　語言自適應模型 167

4.7.4　語音後處理 168

4.8　本章小結 169

第 5 章　數字人語義理解 171

5.1　語義解析 172

5.1.1　詞法分析 172

5.1.2　句法分析 175

5.1.3　語義分析 179

5.2　情感分析 183

5.2.1　情感識別 184

5.2.2　情感分類 188

5.3　語義編碼器 - 解碼器 191

5.3.1　編碼器架構 191

5.3.2　解碼器架構 195

5.3.3　註意力機制 197

5.3.4　應用場景 200

5.4　本章小結 203

第 6 章　數字人知識表示 204

6.1　知識表示基礎 205

6.1.1　符號主義知識表示 205

6.1.2　連接主義知識表示 210

7.4.4　數字人表情及動作生成實例 265

7.5　語音及視頻合成 266

7.5.1　語音驅動的唇型動畫 266

7.5.2　體積感渲染 267

7.5.3　數字人語音及視頻合成實例 268

7.6　內容編輯和後期製作 268

7.6.1　視頻編輯 269

7.6.2　後期特效製作 270

7.6.3　渲染與輸出 270

7.6.4　數字人後期編輯與渲染實例 271

7.7　交互設計與內容運營 272

7.7.1　交互設計 273

7.7.2　內容運營策略 275

7.7.3　數字人交互設計與內容運營

實例 278

7.8　本章小結 279

第 8 章　數字人身份認知 280

8.1　數字人的身份定位 280

8.1.1　個體或工具 280

8.1.2　數字人的角色定位 281

8.2　數字人的權利保障 283

8.2.1　知識產權 283

8.2.2　隱私權 285

8.3　數字人的成長與沒落 286

8.3.1　持續學習 287

8.3.2　版本迭代 288

8.4　數字人的倫理問題 290

8.4.1　摒棄偏見和歧視 290

8.4.2　透明可解釋性 292

8.4.3　尊重多樣性 293

8.5　本章小結 295

第 9 章　數字人技術規範 296

9.1　數字人信息安全規範 296

9.1.1　數據隔離規範 297

9.1.2　訪問控制規範 298

9.2　數字人內容審核規範 300

9.2.1　內容審核方式 300

9.2.2　違規處理機制 302

9.3　數字人應用管理規範 303

9.3.1　應用接入管理 303

9.3.2　應用監測與審計 305

9.4　本章小結 308

展望未來

第 10 章　人機共生 311

10.1　人機共生的美好時代 311

10.1.1　人機共生的定義與理念 312

10.1.2　人機共生時代的社會生態 312

10.2　數字人與人類的深度互動 313

10.2.1　互動模式的多樣性 313

10.2.2　數字人與人類文化的交融 314

10.3　社區共建 315

10.3.1　數字人與人類社區的融合 315

10.3.2　共同學習的平臺與機制 316

10.3.3　社區共建與數字人技術的創新 316

10.4　本章小結 317

AI 數字人原理與實現

方進

相關主題

商品描述

作者簡介

目錄大綱

類似商品