實戰 AI 大模型

尤洋

  • 出版商: 機械工業
  • 出版日期: 2023-11-28
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 260
  • 裝訂: 平裝
  • ISBN: 7111738780
  • ISBN-13: 9787111738787
  • 相關分類: ChatGPTLangChain人工智慧
  • 立即出貨 (庫存 < 4)

買這商品的人也買了...

商品描述

本書是一本旨在填補人工智能(AI)領域(特別是AI大模型)理論與實踐之間鴻溝的實用手冊。
書中介紹了AI大模型的基礎與關鍵技術,如Transformer、BERT、ALBERT、T5、GPT系列、InstructGPT、
RLHF、ChatGPT、GPT-4、PaLM和視覺模型等,並詳細解釋了這些模型的技術原理、
實際應用以及高效能運算(HPC)技術的使用,如平行運算和內存最佳化。
同時,本書也提供了實作案例,詳細介紹如何使用Colossal-AI訓練各種模型。

作者簡介

尤洋,清華大學碩士,加州柏克萊大學博士,新加坡國立大學電腦系校長青年教授(Presidential Young Professor)。曾創造ImageNet,BERT、AlphaFold、ViT訓練速度的世界紀錄,相關技術廣泛應用於Google、微軟、英特爾、英偉達等科技公司。近三年以第一作者身份在NIPS、ICLR、SC、IPDPS、I​​CS等國際重要會議或期刊上發表論文十餘篇,曾以第一作者身份獲國際並行與分佈式處理大會(IPDPS)的Best Paper Award(0.8%獲獎率)和國際並行處理大會(ICPP)的Bests PaperAward(Award4%)獲獎率的獲獎率。學大會(ACL)的傑出論文獎(0.86%獲獎率),總計發表論文近百篇。曾獲清華大學優秀畢業生及當時清華大學計算機係數額最高的西貝爾獎學金,美國計算機協會(ACM)官網上唯一頒給在讀博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship,頒發給伯克利優秀畢業生的Lotfi A.Zadeh Prize,曾被UC Berkeley提名為ACM Doctoral Dissertation Award。曾任職於Google、微軟、英偉達、英特爾、IBM,2021年入選福布斯30歲以下精英榜(亞洲)並獲得IEEE-CS超算傑出新人獎。

目錄大綱

第1章 深度學習中的AI大模型
1.1 AI大模型在人工智能領域的興起
1.1.1 AI大模型的發展與挑戰
1.1.2 AI大模型為何難以訓練
1.2 深度學習架構入門
1.2.1 建構神經網絡
1.2.2 訓練一個文字分類器
第2章 分佈式系統:AI大模型的誕生之所
2.1 深度學習與分佈式系統
2.1.1 從分佈式計算到分佈式AI系統
2.1.2 大規模分佈式訓練平臺的關鍵技術
2.1.3 Colossal AI應用實踐
2.2 AI大模型訓練方法
2.2.1 梯度累積與梯度裁剪
2.2.2 大批量優化器LARSLAMB
2.2.3 模型精度與混合精度訓練
2.3 異構訓練
2.3.1 異構訓練的基本原理
2.3.2 異構訓練的實現策略
2.4 實戰分佈式訓練
2.4.1 Colossal AI環境搭建
2.4.2 使用Colossal AI訓練第一個模型
2.4.3 AI大模型的異構訓練
第3章 分佈式訓練:上千台機器如何共同起舞
3.1 平行策略基礎原理
3.1.1 資料並行:最基本的平行訓練範式
3.1.2 張量並行:層內模型並行
3.1.3 流水線並行的原理與實現
3.2 高階平行策略基礎原理
3.2.1 序列並行:超長序列模型訓練
3.2.2 混合並行:擴展模型到千億參數
3.2.3 自動並行:自動化的分佈式並行訓練
3.3 實戰分佈式訓練
3.3.1 應用模型平行策略的實際案例
3.3.2 結合多種平行策略的訓練實踐
第4章 AI大模型時代的奠基石Transformer模型
4.1 自然語言處理基礎
4.1.1 自然語言任務介紹
4.1.2 語言輸入的預處理
4.1.3 序列到序列模型
4.2 Transformer詳解
4.2.1 Transformer模型結構
4.2.2 註意力與自註意力機制
4.2.3 Transformer中的歸一化
4.3 Transformer的變體與擴展
4.3.1 變體模型匯總
4.3.2 Transformer序列位置資訊的編碼處理
4.3.3 Transformer訓練
第5章 AI大幅提升Google搜尋品質:BERT模型
5.1 BERT模型詳解
5.1.1 BERT模型總體架構與輸入形式
5.1.2 BERT模型預訓練任務
5.1.3 BERT模型的應用方法
5.2 高效率降低內存使用的ALBERT模型
5.2.1 基於參數共享的參數縮減方法
5.2.2 句子順序預測(SOP)預訓練任務
5.3 BERT模型實戰訓練
5.3.1 建構BERT模型
5.3.2 並行訓練BERT模型
第6章 統一自然語言處理範式的T5模型
6.1 T5模型詳解
6.1.1 T5模型架構與輸入輸出-文本到文本
6.1.2 T5模型預訓練
6.1.3 T5模型應用前景及未來發展
6.2 統一BERT和GPT的BART模型
6.2.1 從BERT、GPT到BART
6.2.2 BART模型預訓練
6.2.3 BART模型的應用
6.3 統一語言學習範式的UL2框架
6.3.1 關於語言模型預訓練的統一視角
6.3.2 結合不同預訓練範式的混合去噪聲器
6.3.3 UL2的模型性能
6.4 T5模型預訓練方法與關鍵技術
第7章 作為通用人工智能起點的GPT系列模型
7.1 GPT系列模型的起源
7.1.1 GPT的訓練方法與關鍵技術
7.1.2 GPT的模型效能評估分析
7.2 GPT 2模型詳解
7.2.1 GPT 2的核心思想
7.2.2 GPT 2的模型性能
7.3 GPT 3模型詳解
7.3.1 小樣本學習、一次學習與零次學習的異同
7.3.2 GPT 3的訓練方法與關鍵技術
7.3.3 GPT 3的模型效能與效果評估
7.4 GPT 3模型建構與訓練實戰
7.4.1 建構GPT 3模型
7.4.2 使用異質訓練降低GPT 3訓練消耗資源
第8章 興起新一代人工智能浪潮:ChatGPT模型
8.1 能與網絡互動的WebGPT
8.1.1 WebGPT的訓練方法與關鍵技術
8.1.2 WebGPT的模型效能評估分析
8.2 能與人類互動的InstructGPT模型
8.2.1 指令學習
8.2.2 近端策略優化
8.2.3 基於人類回饋的強化學習(RLHF)方法總結
8.3 ChatGPT和GPT4
8.3.1 ChatGPT模型簡介與應用
8.3.2 GPT 4模型特性與應用
8.4 建構會話系統模型
8.4.1 基於監督的指令精調與模型訓練
8.4.2 會話系統的推理與部署策略
第9章 百花齊放的自然語言模型:Switch Transfomer和PaLM
9.1 兆參數稀疏大模型Switch Transformer
9.1.1 稀疏閘控混合專家模型MoE 
9.1.2 基於MoE的萬億參數模型Switch Transformer
9.2 PaLM模型:最佳化語言模型效能
9.2.1 PaLM模型的結構、原理與關鍵特點
9.2.2 PaLM訓練策略與效果評估
9.3 PaLM實戰訓練
第10章 實現Transformer向電腦視覺進軍的ViT模型
10.1 Transformer在電腦視覺的應用
10.1.1 ViT模型在電腦視覺中的發展背景
10.1.2 ViT模型的架構、原理與關鍵要素
10.1.3 大規模ViT模型的應用場景與挑戰
10.2 視覺大模型的進一步發展:Transformer與捲積的融合
10.2.1 基於Transformer的視覺模型的改良應用
10.2.2 基於捲積的視覺模型的發展最佳化
10.3 ViT模型建構與訓練實戰
10.3.1 建構ViT模型的關鍵步驟與關鍵方法
10.3.2 多維張量並行的ViT的實戰演練
參考文獻