Kaldi 語音識別實戰

陳果果等

出版商: 電子工業
出版日期: 2020-03-01
定價: $534
售價: 8.5 折 $454
貴賓價: 8.0 折 $427
語言: 簡體中文
頁數: 336
裝訂: 平裝
ISBN: 7121378744
ISBN-13: 9787121378744
相關分類: 語音辨識 Speech-recognition
相關翻譯: AI 語音辨識：用 Kaldi 實作應用全集 (繁中版)

立即出貨 (庫存 < 3)

買這商品的人也買了...

$403

解析深度學習 : 語音識別實踐
~~$580~~ $458

精通 Go 程式設計 (The Go Programming Language)
$352

基於深度學習的自然語言處理/智能科學與技術叢書
$403

自然語言處理理論與實戰
$427

深度學習 : 語音識別技術實踐
$352

Python 深度學習實戰：基於 TensorFlow 和 Keras 的聊天機器人以及人臉、物體和語音識別
~~$534~~ $507

語音信號處理, 3/e
~~$680~~ $537

最專業的語音辨識全書：使用深度學習實作
~~$301~~ $283

特徵工程入門與實踐 (Feature Engineering Made Easy)
$602

知識圖譜：方法、實踐與應用
~~$520~~ $406

特徵工程不再難：資料科學新手也能輕鬆搞定！ (Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems)
~~$648~~ $616

深度學習推薦系統
$454

深度學習與目標檢測
$505

實時語音處理實踐指南
~~$539~~ $512

深入淺出 PyTorch — 從模型到源碼
$505

知識圖譜與深度學習
$384

語音識別：原理與應用
$454

WebRTC Native 開發實戰
~~$880~~ $695

AI 語音辨識：用 Kaldi 實作應用全集
~~$534~~ $507

語音識別基本法：Kaldi 實踐與探索
$505

鳳凰架構：構建可靠的大型分佈式系統
$2,094

High Performance MySQL: Proven Strategies for Operating at Scale, 4/e (Paperback)
$551

深入理解分佈式系統
~~$500~~ $390

Clean Architecture 實作篇：在整潔的架構上弄髒你的手 (Get Your Hands Dirty on Clean Architecture)
~~$880~~ $695

Hey Siri 及 Ok Google原理 - AI語音辨識專案真應用開發

商品描述

剛剛過去的十年是語音技術發展的黃金十年。
2010 年前後，從谷歌公司發布第一個語音搜索應用、
蘋果公司發布第一個語音助手Siri 開始，語音技術的發展轉瞬進入了快車道。

語音技術的基礎算法不斷推陳出新，語音任務Benchmark 持續被刷新；
語音產品的應用也從一開始很小眾的語音輸入，逐漸滲透到人們生活的方方面面。

語音產業飛速發展，傳統的語音技術教材已經滿足不了該領域從業者的迫切需求。
本書以目前流行的開源語音識別工具Kaldi 為切入點，
深入淺出地講解了語音識別前沿的技術及它們的實踐應用。
本書的作者們擁有深厚的學術積累及豐富的工業界實戰經驗。

本書適合語音技術相關研究人員及因特網從業人員學習參考。

作者簡介

陳果果

清華大學本科學位，約翰霍普金斯大學博士學位，
主要研究方向是語音識別及關鍵詞檢索，
師從語音識別開源工具Kaldi主要開發者Daniel Povey，
以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。
博士期間為Google開發了Google的喚醒詞Okay Google的原型，
現在已經用到數以億計的安卓設備及Google智能語音交互設備上。
博士期間同時參與開發語音識別開源工具Kaldi，以及神經網絡開源工具CNTK。
博士畢業以後聯合創辦KITT.AI，專註於語音識別及自然語言處理，
公司於2017年被百度收購，目前擔任百度智能生活事業群組（SLG）主任架構師。

都家宇

本科畢業於大連理工大學，後於澳大利亞新南威爾士大學電子信息工程學院學習，
取得信號處理專業碩士學位。
研究生期間在導師Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。
畢業後先後任職於清華大學語音技術實驗室、百度語音技術部，
以及阿裡巴巴iDST、達摩院語音組，從事聲學模型、解碼器、
語音喚醒等方面的研發工作。
參與過與Kaldi 相關的工作有：Kaldi nnet1神經網絡框架中lstm 作者；
發起並推動全球大規模的中文開源數據集語音項目AISHELL-1、AISHELL-2，
已服務於清華大學、北京大學、南洋理工大學、
哥倫比亞大學等近200所國內外高校的科研項目。

那興宇

本科和博士均畢業於北京理工大學，主要研究方向是語音識別和語音合成。
先後任職於中國科學院聲學研究所和阿裡巴巴機器人，
從事語音識別模型訓練系統和語音交互系統的開發。
目前就職於微軟，擔任資深應用科學家，
從事語音識別算法和技術架構的開發及業務支持工作。
2015年開始在Kaldi開源項目中貢獻代碼，參與了nnet3和chain模型的開發工作，
並維護其中若乾示例及OpenSLR的中文語音識別模型。

張俊博

博士畢業於中國科學院聲學研究所，師從顏永紅研究員。
在小米公司從零起主導構建了整套語音算法研究框架，
包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、
用於語音應用的神經網絡部署，均達到了當時的先進水平，
並發表頂會論文若乾篇，為後續的語音研發工作建立了基礎。
近期上線了用於外語學習的發音質量評測引擎，
並給Kaldi貢獻了發音良好度評分的代碼。

目錄大綱

1 語音識別技術基礎 1
1.1 語音識別極簡史 1
1.2 語音識別系統架構 6
1.3 一些其他細節11

2 Kaldi概要介紹15
2.1 發展歷史15
2.2 設計思想18
2.3 安裝20
2.4 一個簡單的示例26
2.5 示例介紹34

3 數據整理44
3.1 數據分集44
3.2 數據預處理49
3.3 輸入和輸出機制56
3.4 常用數據表單與處理腳本69
3.5 語言模型相關文件79

4 經典聲學建模技術94
4.1 特徵提取95
4.2 單音子模型的訓練107
4.3 三音子模型訓練128
4.4 特徵變換技術139
4.5 區分性訓練143

5 構圖和解碼147
5.1 N元文法語言模型148
5.2 加權有限狀態轉錄機151
5.3 用WFST表示語言模型156
5.4 狀態圖的構建158
5.5 圖的結構優化170
5.6 最終狀態圖的生成174
5.7 基於令牌傳遞的維特比搜索176
5.8 SimpleDecoder源碼分析178
5.9 Kaldi 解碼器家族187
5.10 帶詞網格生成的解碼189
5.11 用語言模型重打分提升識別率192

6 深度學習聲學建模技術195
6.1 基於神經網絡的聲學模型195
6.2 神經網絡在Kaldi中的實現200
6.3 神經網絡模型訓練214
6.4 神經網絡的區分性訓練228
6.5 與其他深度學習框架的結合242

7 關鍵詞搜索與語音喚醒245
7.1 關鍵詞搜索技術介紹245
7.2 語音檢索247
7.3 語音喚醒263

……