AI 獨家解密－ DALL·E、Midjourney、Stable Diffusion Python 打開圖片生成原理潘朵拉盒子

南柯著

AI 獨家解密－ DALL·E、Midjourney、Stable Diffusion Python 打開圖片生成原理潘朵拉盒子

預覽內頁

出版商: 深智
出版日期: 2025-04-19
定價: $980
售價: 7.9 折 $774
語言: 繁體中文
頁數: 256
ISBN: 6267569675
ISBN-13: 9786267569672
相關分類: Python、程式語言、人工智慧

尚未上市，歡迎預購

AI 獨家解密－ DALL·E、Midjourney、Stable Diffusion Python 打開圖片生成原理潘朵拉盒子-preview-1

商品描述

AI獨家解密－DALL·E、Midjourney、Stable Diffusion Python打開圖片生成原理潘朵拉盒子

✴︎AIGC 核心概念：快速掌握 AI 生成內容的關鍵技術。

✴︎影像生成技術：解密 GAN、擴散模型、VAE 的運作原理。

✴︎Stable Diffusion：深入解析 VAE、CLIP、交叉注意力等技術。

✴︎頂尖 AI 模型：比較 DALL·E 2、Imagen、DeepFloyd 的特色。

✴︎熱門工具剖析：Midjourney、SDXL、DALL·E 3 詳細解讀。

✴︎多模態 AI：探索 AI 如何融合文本、影像與聲音。

✴︎影像變形技術：解讀 unCLIP、Stable Diffusion 的影像加工能力。

✴︎完整實作指南：手把手帶你訓練 Stable Diffusion。

✴︎低成本 AI 訓練：用 LoRA 技術輕鬆微調 AI 模型。

✴︎開源生態與應用：進入 AI 創作與技術社群。

✴︎產業應用解析：AIGC 在藝術、廣告、遊戲等領域的發展。

✴︎適合所有讀者：AI 新手、創作者、技術專家都適用。

作者簡介

南柯

某頭部網際網路公司AIGC團隊技術負責人，高級演算法專家，極客時間「AI 繪畫核心技術與實戰」專欄作者，擁有十多年電腦視覺領域從業經驗，帶領團隊推動多模態生成，尤其是AI圖像生成與編輯、多模態大語言模型、數字人等熱點方向的技術建設。在ICCV和AAAI年會等AI領域頂級會議上發表過多篇論文，擁有100多項專利。

目錄大綱

第 1 章 AIGC 基礎

1.1 身邊的AIGC

1.1.1 影像生成和編輯類工具

1.1.2 文字提效類工具

1.1.3 音訊創作類工具

1.2 神經網路

1.2.1 類神經元

1.2.2 啟動函數

1.2.3 類神經網路

1.2.4 損失函數

1.2.5 最佳化器

1.2.6 卷積神經網路

1.3 多模態模型

1.3.1 認識模態

1.3.2 典型多模態模型

1.3.3 參數量

1.3.4 計算量

1.4 小結

第 2 章影像生成模型：GAN 和擴散模型

2.1 影像生成模型的技術演化

2.1.1 第一代影像生成模型：VAE

2.1.2 第二代影像生成模型：GAN

2.1.3 第三代影像生成模型：基於流的模型

2.1.4 第四代影像生成模型：擴散模型

2.1.5 第五代影像生成模型：自迴歸模型

2.2 「舊畫師」GAN

2.2.1 生成對抗原理

2.2.2 生成能力的進化

2.2.3 GAN 時代的「圖生圖」

2.2.4 GAN 的技術應用

2.3 「新畫師」擴散模型

2.3.1 加入雜訊過程：從原始影像到雜訊圖

2.3.2 去除雜訊過程：從雜訊圖到清晰影像

2.3.3 訓練過程和推理過程

2.3.4 擴散模型與GAN

2.4 擴散模型的U-Net 模型

2.4.1 巧妙的U 形結構

2.4.2 損失函數設計

2.4.3 應用於擴散模型

2.5 擴散模型的採樣器

2.5.1 採樣器背後的原理

2.5.2 如何選擇採樣器

2.6 訓練一個擴散模型

2.6.1 初探擴散模型：輕鬆入門

2.6.2 深入擴散模型：訂製藝術

2.7 小結

第 3 章 Stable Diffusion 的核心技術

3.1 影像的「壓縮器」VAE

3.1.1 從AE 到VAE

3.1.2 影像插值生成

3.1.3 訓練「餐廳評論機器人」

3.1.4 VAE 和擴散模型

3.2 讓模型「聽話」的CLIP

3.2.1 連接兩種模態

3.2.2 跨模態檢索

3.2.3 其他CLIP 模型

3.2.4 CLIP 和擴散模型

3.3 交叉注意力機制

3.3.1 序列、詞元和詞嵌入

3.3.2 自注意力與交叉注意力

3.3.3 多頭注意力

3.4 Stable Diffusion 是如何工作的

3.4.1 Stable Diffusion 的演化之路

3.4.2 潛在擴散模型

3.4.3 文字描述引導原理

3.4.4 U-Net 模型實現細節

3.4.5 反向描述詞與CLIP Skip

3.4.6 「圖生圖」實現原理

3.5 小結

第 4 章 DALL · E 2、Imagen、DeepFloyd 和Stable Diffusion 影像變形的核心技術

4.1 里程碑DALL · E 2

4.1.1 DALL · E 2 的基本功能概覽

4.1.2 DALL · E 2 背後的原理

4.1.3 unCLIP：影像變形的魔法

4.1.4 DALL · E 2 的演算法局限性

4.2 Imagen 和DeepFloyd

4.2.1 Imagen vs DALL · E 2

4.2.2 Imagen 的演算法原理

4.2.3 文字編碼器：T5 vs CLIP

4.2.4 動態設定值策略

4.2.5 開放原始碼模型DeepFloyd

4.2.6 升級版Imagen 2

4.3 Stable Diffusion 影像變形

4.3.1 「圖生圖」vs 影像變形

4.3.2 使用Stable Diffusion 影像變形

4.3.3 探秘Stable Diffusion 影像變形模型背後的演算法原理

4.4 小結

第 5 章 Midjourney、SDXL 和DALL · E 3 的核心技術

5.1 推測Midjourney 的技術方案

5.1.1 Midjourney 的基本用法

5.1.2 各版本演化之路

5.1.3 技術方案推測

5.2 SDXL 的技術方案與使用

5.2.1 驚豔的繪圖能力

5.2.2 使用串聯模型提升效果

5.2.3 更新基礎模組

5.2.4 使用SDXL 模型

5.3 更「聽話」的DALL · E 3

5.3.1 體驗DALL · E 3 的功能

5.3.2 資料集重新描述

5.3.3 生成資料有效性

5.3.4 資料混合策略

5.3.5 基礎模組升級

5.3.6 擴散模型解碼器

5.3.7 演算法局限性

5.4 小結

第 6 章訓練自己的Stable Diffusion

6.1 低成本訓練神器LoRA

6.1.1 LoRA 的基本原理

6.1.2 LoRA 的程式實現

6.1.3 用於影像生成任務

6.2 Stable Diffusion WebUI 體驗影像生成

6.2.1 本地AI 影像生成模型

6.2.2 開放原始碼社區中的模型

6.2.3 體驗AI 影像生成功能

6.2.4 將多個模型進行融合

6.2.5 靈活的LoRA 模型

6.3 Stable Diffusion 程式實戰

6.3.1 訓練資料準備

6.3.2 基礎模型的選擇與使用

6.3.3 一次完整的訓練過程

6.4 小結

類似商品

87折
$365

AI 圖像生成核心技術與實戰
79折
~~$780~~ $616

圖像生成式 AI 的生存指南 -- 以 Stable Diffusion 為例
VIP 95折
~~$594~~ $564

Stable Diffusion AI繪畫全面貫通：生成參數+提示詞庫+模型訓練+插件擴展
85折
$500

Stable Diffusion AI 繪畫教學：文生圖+圖生圖+提示字+模型訓練+外掛程式應用
VIP 95折
~~$534~~ $507

AIGC 時代：遊戲美術設計與 AI 繪畫應用從入門到精通
VIP 95折
~~$528~~ $502

Midjourney AI繪畫商業案例創意與實操
VIP 95折
~~$528~~ $502

Stable Diffusion AI繪畫：商業應用案例教程
VIP 95折
~~$474~~ $450

AI繪畫精講：Stable Diffusion從入門到精通
VIP 95折
~~$594~~ $564

AIGC 重塑營銷：基於 AI 的全鏈路營銷實戰
85折
$505

Stable Diffusion AI繪畫從提示詞到模型出圖

最後瀏覽商品 (20)

79折
~~$360~~ $284

主力操作的多空訊號：用94張K線圖，辨別股市30個假形態，輕鬆賺千萬
7折
~~$780~~ $546

Python 金融市場賺大錢聖經：寫出你的專屬指標, 3/e
79折
~~$520~~ $411

資本之道：從孫子兵法到奧地利經濟學派，看透資本本質的迂迴手段。
VIP 80折
~~$709~~ $667

圖像畫質算法與底層視覺技術
VIP 95折
~~$714~~ $678

利用 Python 實現概率、統計及機器學習方法（原書第2版）
79折
~~$980~~ $774

新一代 AI 霸主：深度強化學習從基礎開始到專案開發
85折
$454

Python + Excel 職場辦公數據分析
VIP 95折
~~$708~~ $673

算法競賽入門經典 — 訓練指南 (升級版)
85折
~~$380~~ $323

OTPR 敏捷工作法：拿回績效主導權，讓工作做得更快、更好、更有價值 (隨書附：OTPR操作手冊)
~~$420~~ $378

區塊鏈技術與應用
~~$420~~ $378

圖解結構方程模式分析
~~$810~~ $794

有機化學 (McMurry : Fundamentals of Organic Chemistry)
~~$420~~ $378

漫畫大英百科【科技1】：交通工具
VIP 95折
~~$888~~ $844

Kubernetes in Action (簡體中文版)
VIP 95折
~~$2,930~~ $2,784

Loudspeaker Modelling and Design: A Practical Introduction
~~$1,750~~ $1,715

Graph Theory and Its Applications, 3/e (Hardcover)
VIP 95折
~~$850~~ $808

Kanban: Step-by-Step Guide to Kanban (Core Practices, Kanban Systems, Full Value Chain, Forecasting with Kanban)
VIP 95折
~~$1,880~~ $1,786

SOA with Java (paperback): Realizing ServiceOrientation with Java Technologies (The Prentice Hall Service Technology Series from Thomas Erl)
85折
~~$360~~ $306

設計人的江湖智慧：10年內為個人服務的設計工作即將消失，還在做偽大師的美夢嗎？
78折
~~$490~~ $382

Raspberry Pi 從入門到應用