AI 圖像生成核心技術與實戰

南柯

預覽內頁

出版商: 人民郵電
出版日期: 2024-10-01
定價: $419
售價: 8.7 折 $365 (限時優惠至 2025-04-26)
語言: 簡體中文
頁數: 158
ISBN: 711565039X
ISBN-13: 9787115650399
相關翻譯: AI 獨家解密－ DALL·E、Midjourney、Stable Diffusion Python 打開圖片生成原理潘朵拉盒子 (繁中版)

立即出貨

買這商品的人也買了...

~~$580~~ $435

量子電腦與量子計算｜IBM Q Experience 實作
~~$1,188~~ $1,129

量子計算與編程入門
$352

電腦視覺圖像與視頻數據標註
~~$580~~ $435

AutoCAD 2022 電腦繪圖與絕佳設計表現 -- 室內設計基礎 (附660分鐘影音教學/範例檔)
~~$520~~ $390

輕鬆學量子程式設計｜從量子位元到量子演算法
~~$599~~ $569

AutoCAD Electrical 2022 中文版電氣設計自學速成
$599

AutoCAD 2024中文版土木工程設計從入門到精通
~~$599~~ $569

AutoCAD 2024中文版室內裝潢設計從入門到精通
~~$599~~ $569

AutoCAD 2024 中文版電氣設計從入門到精通
$454

AI 程式設計班 : Python × ChatGPT 網絡爬蟲從入門到精通
$331

LangChain 編程：從入門到實踐
~~$680~~ $537

LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具
~~$414~~ $393

量子機器學習 — 基於 Python 的理論和實現
~~$480~~ $360

AI 生成影音創作：超好用的文案、圖像、影片、聲音實戰技 (附影音教學)
~~$650~~ $507

LLM 大型語言模型的絕世祕笈：27路獨步劍法，帶你闖蕩生成式 AI 的五湖四海（iThome鐵人賽系列書）
~~$594~~ $564

深度神經網絡高效計算：大模型輕量化原理與關鍵技術
~~$580~~ $435

AutoCAD 2024 電腦繪圖與絕佳設計表現 -- 室內設計基礎 (附600分鐘影音教學/範例檔)
~~$479~~ $455

機器視覺偵測與辨識技術及應用基於深度學習
~~$720~~ $540

自己開發 ChatGPT - LLM 從頭開始動手實作
~~$650~~ $488

LLM 的大開源時代 - Llama 模型精讀實戰
$559

大語言模型開發：用開源模型開發本地系統
~~$620~~ $465

全面掌握生成式 AI 與 LLM 開發實務：NLP × PyTorch × GPT 輕鬆打造專屬的大型語言模型（iThome鐵人賽系列書）
$505

巧用 ChatGPT 進行資料分析與挖掘
~~$690~~ $518

AI 音效、語音與音樂：設計創意影片新時代
~~$880~~ $660

多 Agent 智慧體 - LangChain 大型 ReAct 系統開發

商品描述

本書以AI圖像生成為主線，串聯講解了Stable Diffusion、DALL·E、Imagen、Midjourney等模型的技術方案，並帶著讀者訓練一個自己專屬的AI圖像生成模型。

本書共6章。第1章先介紹身邊的AIGC產品，再講解AI圖像生成相關的深度學習基礎知識，包括神經網絡和多模態模型的基礎知識。第2章講解AI圖像生成技術，從VAE到GAN到基於流的模型再到擴散模型的演化，並詳細介紹擴散模型的算法原理和組成模塊。第3章講解Stable Diffusion模型的核心技術。第4章講解DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體模型的核心技術。第5章講解Midjourney、SDXL和DALL·E 3的核心技術。第6章是項目實戰，使用LoRA技術對Stable Diffusion模型進行微調，得到特定風格的AI圖像生成模型。

作者簡介

南柯，某頭部因特網公司 AIGC 團隊技術負責人，高級算法專家，極客時間“AI 繪畫核心技術與實戰”專欄作者，擁有十多年電腦視覺領域從業經驗，帶領團隊推動多模態生成，尤其是 AI 圖像生成與編輯、多模態大語言模型、數字人等熱點方向的技術建設。在 ICCV 和AAAI 年會等 AI 領域頂級會議上發表過多篇論文，擁有 100 多項專利。

目錄大綱

第 1章　AIGC基礎 1

1.1 身邊的AIGC 1

1.1.1　圖像生成和編輯類工具 1

1.1.2　文字提效類工具 2

1.1.3　音頻創作類工具 4

1.2 神經網絡 4

1.2.1　人工神經元 5

1.2.2　激活函數 6

1.2.3　人工神經網絡 7

1.2.4　損失函數 9

1.2.5　優化器 9

1.2.6　捲積神經網絡 10

1.3 多模態模型 13

1.3.1　認識模態 14

1.3.2　典型多模態模型 15

1.3.3　參數量 16

1.3.4　計算量 17

1.4 小結 17

第 2章　圖像生成模型：GAN和擴散模型 19

2.1 圖像生成模型的技術演化 19

2.1.1　第一代圖像生成模型：VAE 20

2.1.2　第二代圖像生成模型：GAN 20

2.1.3　第三代圖像生成模型：基於流的模型 21

2.1.4　第四代圖像生成模型：擴散模型 21

2.1.5　第五代圖像生成模型：自回歸模型 22

2.2 “舊畫師”GAN 22

2.2.1　生成對抗原理 22

2.2.2　生成能力的進化 24

2.2.3　GAN時代的“圖生圖” 28

2.2.4　GAN的技術應用 30

2.3 “新畫師”擴散模型 31

2.3.1　加噪過程：從原始圖像到噪聲圖 32

2.3.2　去噪過程：從噪聲圖到清晰圖像 33

2.3.3　訓練過程和推理過程 35

2.3.4　擴散模型與GAN 36

2.4 擴散模型的U-Net模型 37

2.4.1　巧妙的U形結構 37

2.4.2　損失函數設計 41

2.4.3　應用於擴散模型 43

2.5 擴散模型的採樣器 43

2.5.1　採樣器背後的原理 44

2.5.2　如何選擇採樣器 45

2.6 訓練一個擴散模型 46

2.6.1　初探擴散模型：輕松入門 46

2.6.2　深入擴散模型：定製藝術 50

2.7 小結 52

第3章　Stable Diffusion的核心技術 53

3.1 圖像的“壓縮器”VAE 53

3.1.1　從AE到VAE 54

3.1.2　圖像插值生成 58

3.1.3　訓練“餐廳評論機器人” 60

3.1.4　VAE和擴散模型 61

3.2 讓模型“聽話”的CLIP 62

3.2.1　連接兩種模態 62

3.2.2　跨模態檢索 64

3.2.3　其他CLIP模型 67

3.2.4　CLIP和擴散模型 68

3.3 交叉註意力機制 69

3.3.1　序列、詞符和詞嵌入 69

3.3.2　自註意力與交叉註意力 71

3.3.3　多頭註意力 72

3.4 Stable Diffusion是如何工作的 77

3.4.1　Stable Diffusion的演化之路 77

3.4.2　潛在擴散模型 78

3.4.3　文本描述引導原理 80

3.4.4　U-Net模型實現細節 82

3.4.5　反向描述詞與CLIP Skip 86

3.4.6 “圖生圖”實現原理 87

3.5 小結 90

第4章　DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體的

核心技術 91

4.1 里程碑DALL·E 2 91

4.1.1　DALL·E 2的基本功能概覽 91

4.1.2　DALL·E 2背後的原理 94

4.1.3　unCLIP：圖像變體的魔法 97

4.1.4　DALL·E 2的算法局限性 97

4.2 Imagen和DeepFloyd 98

4.2.1　Imagen vs DALL·E 2 98

4.2.2　Imagen的算法原理 99

4.2.3　文本編碼器：T5 vs CLIP 100

4.2.4　動態閾值策略 103

4.2.5　開源模型DeepFloyd 104

4.2.6　升級版Imagen 2 107

4.3 Stable Diffusion圖像變體 107

4.3.1 “圖生圖”vs圖像變體 107

4.3.2　使用Stable Diffusion圖像變體 108

4.3.3　探秘Stable Diffusion圖像變體模型背後的算法原理 110

4.4 小結 112

第5章　Midjourney、SDXL和DALL·E 3的核心技術 113

5.1 推測Midjourney的技術方案 113

5.1.1　Midjourney的基本用法 113

5.1.2　各版本演化之路 114

5.1.3　技術方案推測 117

5.2 SDXL的技術方案與使用 120

5.2.1　驚艷的繪圖能力 120

5.2.2　使用級聯模型提升效果 122

5.2.3　更新基礎模塊 123

5.2.4　使用SDXL模型 124

5.3 更“聽話”的DALL·E 3 126

5.3.1　體驗DALL·E 3的功能 126

5.3.2　數據集重新描述 127

5.3.3　生成數據有效性 128

5.3.4　數據混合策略 129

5.3.5　基礎模塊升級 131

5.3.6　擴散模型解碼器 133

5.3.7　算法局限性 133

5.4 小結 134

第6章　訓練自己的Stable Diffusion 135

6.1 低成本訓練神器LoRA 135

6.1.1　LoRA的基本原理 135

6.1.2　LoRA的代碼實現 136

6.1.3　用於圖像生成任務 138

6.2 Stable Diffusion WebUI體驗圖像生成 139

6.2.1　本地AI圖像生成模型 140

6.2.2　開源社區中的模型 142

6.2.3　體驗AI圖像生成功能 143

6.2.4　將多個模型進行融合 144

6.2.5　靈活的LoRA模型 146

6.3 Stable Diffusion代碼實戰 150

6.3.1　訓練數據準備 151

6.3.2　基礎模型的選擇與使用 154

6.3.3　一次完整的訓練過程 155

6.4 小結 157

AI 圖像生成核心技術與實戰

南柯

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品