MindSpore大語言模型實戰
陳雷
- 出版商: 人民郵電
- 出版日期: 2024-10-01
- 售價: $359
- 貴賓價: 9.5 折 $341
- 語言: 簡體中文
- 頁數: 161
- ISBN: 7115644403
- ISBN-13: 9787115644404
-
相關分類:
數位訊號處理 Dsp、LangChain
立即出貨
買這商品的人也買了...
-
$540$459 -
$580$458 -
$580$458 -
$980$774 -
$680$537 -
$780$616 -
$680$537 -
$616大語言模型開發:用開源模型開發本地系統
相關主題
商品描述
隨著ChatGPT等大語言模型的迅速發展,大語言模型已經成為人工智能領域發展的快車道,不同領域涌現出各種強大的新模型。開發者想要獨立構建、部署符合自身需求的大語言模型,需要理解大語言模型的實現框架和基本原理。
本書梳理大語言模型的發展,首先介紹Transformer模型的基本原理、結構和模塊及在NLP任務中的應用;然後介紹由只編碼(Encoder-Only)到只解碼(Decoder-Only)的技術路線發展過程中對應的 BERT、GPT等大語言模型;接下來介紹大語言模型在部署、訓練、調優過程中涉及的各種關鍵技術,如自動並行、預訓練與微調、RLHF等,並提供相應的實踐指導;最後以開源大語言模型BLOOM和LLaMA為樣例,介紹其架構和實現過程,幫助讀者理解並構建、部署自己的大語言模型。本書還提供了基於MindSpore框架的豐富樣例代碼。
本書適合人工智能、智能科學與技術、電腦科學與技術、電子信息工程、自動化等專業的本科生和研究生閱讀,同時也為從事大語言模型相關工作的軟件開發工程師和科研人員提供翔實的參考資料。
作者簡介
陈雷
加拿大滑铁卢大学计算机博士。现担任香港科技大学(广州)信息枢纽院长,数据科学与分析学域讲座教授,广州市大数据智能重点实验室主任。研究方向包括数据驱动的人工智能、大数据分析、知识图谱、众包、区块链、图数据库、概率和不确定数据库,以及时空和时间序列数据库。曾获2020年度中国电子学会科学技术奖一等奖、2015年ACM SIGMOD时间检测奖2022 WLDB研究论文奖、2014LDB示范奖。曾担任ICDE2023和VLDB2019 PC联合主席、VLDB Journal联合主编、VLDB基金会执行委员。目前担任IEEETKDE主编、DASFAA国际会议指导委员会主席、长江讲座教授,当选IEEE会士和ACM杰出科学家,获得国家杰出青年科学基金海外青年学者合作研究项目支持。
目錄大綱
第1章 大語言模型的發展 001
1.1 人工智能的發展階段 002
1.2 從深度學習到大語言模型 004
第2章 Transformer模型 006
2.1 Transformer模型的基本原理 007
2.1.1 註意力機制 007
2.1.2 自註意力機制 010
2.1.3 多頭註意力機制 011
2.2 Transformer模型的結構和模塊 013
2.2.1 位置編碼 014
2.2.2 編碼器 016
2.2.3 解碼器 020
2.2.4 模型代碼 024
2.3 Transformer模型在NLP任務中的應用 025
2.4 使用MindSpore實現基於Transformer模型的文本機器翻譯模型 026
2.4.1 數據集準備與數據預處理 026
2.4.2 模型構建 033
2.4.3 模型訓練與評估 034
2.4.4 模型推理 037
2.5參考文獻 040
第3章 BERT實踐 041
3.1 BERT基本原理 042
3.2 BERT結構 043
3.3 BERT預訓練 045
3.4 BERT微調 046
3.5 使用MindSpore實現數據並行的BERT預訓練 047
3.6 參考文獻 050
第4章 GPT實踐 051
4.1 GPT基本原理 052
4.2 GPT訓練框架 053
4.2.1 無監督預訓練 054
4.2.2 有監督微調 054
4.2.3 GPT下游任務及模型輸入 055
4.3 使用MindSpore實現GPT的微調 056
4.3.1 數據預處理 056
4.3.2 模型定義 059
4.3.3 模型訓練 066
4.3.4 模型評估 067
4.4 參考文獻 067
第5章 GPT-2實踐 068
5.1 GPT-2的基本原理 069
5.2 GPT-2的技術創新與改進 070
5.3 GPT-2的優缺點 071
5.4 使用MindSpore實現GPT-2的微調 072
5.5 參考文獻 076
第6章 自動並行 077
6.1數據並行原理 078
6.2 算子並行原理 080
6.3 優化器並行原理 082
6.3.1 背景及意義 082
6.3.2 基本原理 083
6.4 流水線並行原理 085
6.4.1 背景及意義 085
6.4.2 基本原理 085
6.5 MoE並行原理 086
6.5.1 背景及意義 086
6.5.2 算法原理 088
6.6 自動並行策略搜索 089
6.6.1 策略搜索定位 090
6.6.2 策略搜索算法 091
6.6.3 MindSpore實踐 092
6.7 異構計算 092
6.7.1 計算流程 092
6.7.2 優化器異構 093
6.7.3 詞表異構 094
6.7.4 參數服務器異構 095
6.7.5 多層存儲 096
6.8 大語言模型性能分析 097
6.8.1 縮短單個模塊耗時 097
6.8.2 提高不同模塊任務間的並行度 097
6.9 MindFormers接口 099
6.9.1 準備工作 099
6.9.2 Trainer高階接口快速入門 099
6.9.3 Pipeline推理接口快速入門 101
6.9.4 AutoClass快速入門 101
6.9.5 Transformer接口介紹 102
6.10 參考文獻 103
第7章 大語言模型預訓練與微調 106
7.1 預訓練大語言模型代碼生成 107
7.1.1 多語言代碼生成模型CodeGeeX 107
7.1.2 多語言代碼生成基準HumanEval-X 109
7.2 提示調優 111
7.2.1 提示流程 111
7.2.2 提示模板 114
7.2.3 優缺點分析 115
7.3 指令調優 116
7.3.1 基本流程 116
7.3.2 指令模板 117
7.3.3 優缺點分析 118
7.4 參考文獻 119
第8章 基於人類反饋的強化學習 121
8.1 基本原理 122
8.2 強化學習 122
8.2.1 核心思想 122
8.2.2 關鍵元素 123
8.2.3 策略與價值函數 123
8.2.4 PPO算法 124
8.3 InstructGPT和ChatGPT中的RLHF 126
8.3.1 訓練流程 126
8.3.2 訓練任務 127
8.3.3 模型效果 128
8.4 優缺點分析 129
8.5 參考文獻 130
第9章 BLOOM和LLaMA模型實踐 131
9.1 BLOOM介紹 132
9.1.1 模型結構 132
9.1.2 預訓練數據集 134
9.2 BLOOM實現 136
9.2.1 BLOOM架構實現 136
9.2.2 BLOOM總結 142
9.3 基於BLOOM的微調 142
9.3.1 數據集準備 142
9.3.2 Checkpoint轉換 142
9.3.3 生成集群通信表 143
9.3.4 啟動預訓練或微調 143
9.3.5 微調後的對話效果 144
9.4 LLaMA模型介紹 148
9.4.1 模型結構 148
9.4.2 預訓練 152
9.4.3 SFT與RLHF 152
9.5 LLaMA模型實現 153
9.5.1 LLaMA模型模塊實現 153
9.5.2 LLaMA模型結構實現 155
9.6 基於LLaMA模型的微調 159
9.6.1 數據集準備 159
9.6.2 ckpt轉換 159
9.6.3 生成集群通信表 159
9.6.4 啟動微調 160
9.6.5 微調效果 160
9.7 參考文獻 161