LLM 原理完整回顧 - 大型語言模型整體脈絡最詳細剖析

唐亘著

預覽內頁

出版商: 深智
出版日期: 2025-01-19
定價: $1,080
售價: 7.9 折 $853
語言: 繁體中文
頁數: 512
ISBN: 6267569373
ISBN-13: 9786267569375
相關分類: LangChain
此書翻譯自: 解構大語言模型：從線性回歸到通用人工智能

立即出貨 (庫存 > 10)

買這商品的人也買了...

~~$1,000~~ $790

深度強化式學習 (Deep Reinforcement Learning in Action)
~~$1,200~~ $948

開發者傳授 PyTorch 秘笈
~~$1,200~~ $948

Keras 大神歸位：深度學習全面進化！用 Python 實作 CNN、RNN、GRU、LSTM、GAN、VAE、Transformer
~~$650~~ $514

一本精通 - LINE BOT + Python + Google Dialogflow 完整掌握 LINE BOT 的開發技巧打造全方位 AI機器人
~~$750~~ $593

最強 AI 投資分析：打造自己的股市顧問機器人，股票趨勢分析×年報解讀×選股推薦×風險管理
$556

大規模語言模型：從理論到實踐
~~$880~~ $695

跟 NVIDIA 學深度學習！從基本神經網路到 ......、GPT、BERT...，紮穩機器視覺與大型語言模型 (LLM) 的建模基礎
~~$980~~ $774

新範式來臨 - 用 PyTorch 了解 LLM 開發微調 ChatGLM 全過程
~~$880~~ $695

LLM 走進你的電腦 - 自己動手開發大型語言模型應用
~~$650~~ $507

LLM 大型語言模型的絕世祕笈：27路獨步劍法，帶你闖蕩生成式 AI 的五湖四海（iThome鐵人賽系列書）
~~$1,800~~ $1,422

演算法導論, 4/e (Introduction to Algorithms, 4/e)
~~$720~~ $569

自己開發 ChatGPT - LLM 從頭開始動手實作
~~$680~~ $537

AI 自動化流程超 Easy -- 不寫程式 No code 也能聰明幹大事
~~$880~~ $695

Python 自學聖經：從程式素人到開發強者的技術、實戰與 AI 應用大全, 3/e (附影音/範例程式)
~~$620~~ $484

全面掌握生成式 AI 與 LLM 開發實務：NLP × PyTorch × GPT 輕鬆打造專屬的大型語言模型（iThome鐵人賽系列書）
~~$880~~ $695

多 Agent 智慧體 - LangChain 大型 ReAct 系統開發
~~$834~~ $792

基於大模型的 RAG 應用開發與優化 — 構建企業級 LLM 應用
~~$720~~ $569

你的第一本智慧體 AI 書 - LangChain 開發全方位手冊
~~$680~~ $537

全面掌握 Gemini 開發實務：輕鬆駕馭 Google AI 引擎
~~$1,080~~ $853

AI PC 基礎 CPU 架構 - Arm Cortex-M4 STM32F407 HAL 開發實戰
~~$680~~ $537

讓 AI 好好說話！從頭打造 LLM (大型語言模型) 實戰秘笈
~~$790~~ $624

全民瘋 AI 系列 - 經典機器學習
~~$580~~ $458

生成式 AI 入門 – 揭開 LLM 潘朵拉的秘密 : 語言建模、訓練微調、隱私風險、合成媒體、認知作戰、社交工程、人機關係、AI Agent、OpenAI、DeepSeek (Introduction to Generative AI)
~~$880~~ $695

問 ChatGPT 也不會的 Python 量化交易聖經 - 從分析到真實交易一本全會
~~$620~~ $484

你的第一本 Git 與 GitHub 入門書：輕鬆實作本機與遠端儲存庫的版本控制

商品描述

LLM原理完整回顧 - 大型語言模型整體脈絡最詳細剖析

✴︎ 數學基礎：張量，機率，微積分

✴︎ 線性迴歸：模型之母

✴︎ 邏輯迴歸：隱藏因數

✴︎ 計量經濟學的啟示：他山之石

✴︎ 最佳化演算法：參數估計

✴︎ 反向傳播：神經網路的工程基礎

✴︎ 多層感知器：神經網路的「創世記」

✴︎ 卷積神經網路：深度學習的「出埃及記」

✴︎ 循環神經網路：嘗試理解人類語言

✴︎ 大語言模型：是通用人工智慧的開始嗎

✴︎ 強化學習：在動態互動中進化

✴︎ 其他經典模型：決策樹，隱馬可夫模型，聚類與降維，奇異值分解

作者簡介

唐亘

資料科學家，專注於人工智慧和巨量資料，積極參與Apache Spark、scikit-learn等開放原始碼項目，曾為華為、復旦大學等多家機構提供過百餘場技術培訓。曾撰寫《精通數據科學：從線性回歸到深度學習》一書，並擔任英國最大線上出版社Packt的技術審稿人。畢業於復旦大學，獲數學與電腦科學雙學士學位，後求學於巴黎綜合理工學院，獲經濟學和資料科學雙碩士學位。

目錄大綱

第1章緒論
1.1 是數位鸚鵡，還是自我意識
1.1.1 電車難題
1.1.2 任務分解
1.2 資料基礎
1.3 模型結構
1.4 關於本書

第2章數學基礎：不可或缺的知識
2.1 向量、矩陣和張量
2.1.1 純量、向量、矩陣與張量
2.1.2 數學記號與特殊矩陣
2.1.3 矩陣運算
2.1.4 向量夾角
2.1.5 矩陣的秩
2.1.6 高維張量運算
2.2 機率
2.2.1 定義機率：事件和機率空間
2.2.2 條件機率：資訊的價值
2.2.3 隨機變數
2.2.4 正態分佈：殊途同歸
2.2.5 P-value：自信的猜測
2.3 微積分
2.3.1 導數和積分
2.3.2 極限
2.3.3 連鎖律
2.3.4 偏導數與梯度
2.3.5 極值與最值
2.4 本章小結

第3章線性迴歸：模型之母
3.1 一個簡單的例子
3.1.1 機器學習的建模方式
3.1.2 統計分析的建模方式
3.2 模型實現
3.2.1 機器學習的程式實現
3.2.2 統計分析的程式實現
3.3 模型陷阱
3.3.1 過擬合：模型越複雜越好嗎
3.3.2 假設檢驗：統計分析的解決方案
3.3.3 懲罰項：機器學習的解決方案
3.3.4 比較兩種方案
3.4 未來導向的準備
3.4.1 圖形表示與數學表達
3.4.2 模型的生命週期與持久化
3.5 本章小結
3.5.1 要點回顧
3.5.2 常見面試問題

第4章邏輯迴歸：隱藏因數
4.1 二元分類問題：是與否
4.1.1 線性迴歸：為何失效
4.1.2 視窗效應：看不見的才是關鍵
4.1.3 邏輯分佈
4.1.4 似然函數：統計分析的參數估計
4.1.5 損失函數：機器學習的參數估計
4.1.6 最終預測：從機率到類別
4.2 模型實現
4.2.1 初步分析資料：直觀印象
4.2.2 架設模型
4.2.3 理解模型結果
4.3 評估模型效果
4.3.1 查準率與查全率
4.3.2 F-score85
4.3.3 ROC空間
4.3.4 ROC曲線與AUC
4.3.5 AUC的機率解釋
4.4 非均衡資料集
4.4.1 準確度悖論
4.4.2 模型效果影響
4.4.3 解決方案
4.5 多元分類問題：超越是與否
4.5.1 多元邏輯迴歸
4.5.2 One-vs.-All：從二元到多元
4.5.3 模型實現
4.6 本章小結
4.6.1 要點回顧
4.6.2 常見面試問題

第5章計量經濟學的啟示：他山之石
5.1 定量與定性：特徵的數學運算合理嗎
5.2 定性特徵的處理
5.2.1 虛擬變數
5.2.2 定性特徵轉為定量特徵
5.3 定量特徵的處理
5.3.1 定量特徵轉為定性特徵
5.3.2 基於卡方檢定的方法
5.4 多重共線性：多變數的煩惱
5.4.1 多重共線性效應
5.4.2 檢測多重共線性
5.4.3 解決方法
5.4.4 虛擬變數陷阱
5.5 本章小結
5.5.1 要點回顧
5.5.2 常見面試問題

第6章最佳化演算法：參數估計
6.1 演算法想法：模擬捲動
6.2 梯度下降法
6.2.1 演算法使用的竅門
6.2.2 演算法的局限性：局部最佳與鞍點
6.3 梯度下降法的程式實現
6.3.1 PyTorch基礎
6.3.2 利用PyTorch的封裝函數
6.4 隨機梯度下降法：更最佳化的演算法
6.4.1 演算法細節
6.4.2 程式實現
6.4.3 進一步最佳化
6.5 本章小結
6.5.1 要點回顧
6.5.2 常見面試問題

第7章反向傳播：神經網路的工程基礎
7.1 計算圖和向前傳播
7.1.1 什麼是計算圖
7.1.2 程式實現
7.2 連鎖律和反向傳播
7.2.1 拓撲排序
7.2.2 程式實現
7.2.3 梯度傳播過程
7.3 參數估計的全流程
7.3.1 隨機梯度下降法回顧
7.3.2 計算圖膨脹
7.4 動態最佳化
7.4.1 梯度累積
7.4.2 參數凍結
7.4.3 隨機失活
7.5 真實世界：針對大規模模型的最佳化技巧
7.5.1 GPU計算
7.5.2 混合精度訓練
7.5.3 梯度檢查點
7.5.4 分散式運算
7.6 本章小結
7.6.1 要點回顧
7.6.2 常見面試問題

第8章多層感知器：神經網路的「創世記」
8.1 感知器模型
8.1.1 神經元的數字孿生
8.1.2 圖示與計算圖
8.1.3 Sigmoid感知器與邏輯迴歸
8.1.4 Softmax函數
8.2 從神經網路的角度重新理解邏輯迴歸
8.2.1 回顧視窗效應
8.2.2 程式實現
8.2.3 損失函數為模型注入靈魂
8.2.4 神經網路的建模文化：搭積木
8.3 多層感知器
8.3.1 圖形表示
8.3.2 數學基礎
8.3.3 令人驚訝的通用性
8.3.4 程式實現
8.3.5 模型的聯結主義
8.4 訓練最佳化的關鍵：啟動函數
8.4.1 壞死的神經細胞
8.4.2 數學基礎
8.4.3 監控模型訓練
8.4.4 不穩定的梯度
8.4.5 啟動函數的改進
8.5 從第一步開始最佳化訓練
8.5.1 模型損失的預估
8.5.2 參數初始化的初步最佳化
8.5.3 參數初始化的進一步最佳化
8.5.4 歸一化層
8.6 本章小結
8.6.1 要點回顧
8.6.2 常見面試問題

第9章卷積神經網路：深度學習的「出埃及記」
9.1 利用多層感知器辨識數位
9.1.1 視覺物件的數字化
9.1.2 架設模型
9.1.3 程式實現
9.1.4 防止過擬合之隨機失活
9.1.5 防止過擬合之懲罰項
9.2 卷積神經網路
9.2.1 神經元的組織方式
9.2.2 卷積層的網路結構
9.2.3 卷積層的細節處理與程式實現
9.2.4 池化層
9.2.5 完整結構與實現
9.2.6 超越影像辨識
9.3 殘差網路
9.3.1 殘差連接
9.3.2 實現要點和小竅門
9.3.3 程式實現
9.4 本章小結
9.4.1 要點回顧
9.4.2 常見面試問題

第10章循環神經網路：嘗試理解人類語言
10.1 自然語言處理的基本要素
10.1.1 語言數字化
10.1.2 分詞器的語言基礎
10.1.3 英文分詞器
10.1.4 中文分詞的挑戰
10.1.5 學習框架：遷移學習
10.2 利用多層感知器學習語言
10.2.1 資料準備
10.2.2 文字嵌入
10.2.3 程式實現
10.2.4 普通神經網路的缺陷
10.3 循環神經網路
10.3.1 圖示與結構
10.3.2 模型的關鍵：隱藏狀態
10.3.3 利用循環神經網路學習語言
10.3.4 模型訓練與文字生成
10.3.5 模型的學習原理：透過時間的反向傳播
10.4 深度循環神經網路
10.4.1 更優雅的程式實現
10.4.2 批次序列資料的處理
10.4.3 從單層走向更複雜的結構
10.4.4 利用深度循環神經網路學習語言
10.5 長短期記憶網路
10.5.1 短期記憶
10.5.2 模型結構
10.5.3 程式實現
10.5.4 利用長短期記憶網路學習語言
10.6 本章小結
10.6.1 要點回顧
10.6.2 常見面試問題

第11章大語言模型：是通用人工智慧的開始嗎
11.1 注意力機制
11.1.1 設計初衷
11.1.2 改進後的注意力機制
11.1.3 數學細節與實現技巧
11.2 從零開始實現GPT-2
11.2.1 模型結構
11.2.2 多頭單向注意力
11.2.3 解碼區塊
11.2.4 GPT-2的完整結構與重現
11.2.5 Python語言學習任務
11.3 從大語言模型到智慧幫手
11.3.1 大語言模型的現狀
11.3.2 開放原始碼模型
11.3.3 從GPT到ChatGPT
11.3.4 提示工程
11.3.5 檢索增強生成
11.4 模型微調
11.4.1 模型微調的4種模式
11.4.2 高效調參概述
11.4.3 高效調參之增加模型元件
11.4.4 高效調參之LoRA
11.5 監督微調和評分建模
11.5.1 監督微調初體驗
11.5.2 更最佳化的監督微調
11.5.3 評分建模
11.5.4 如果重新建構ChatGPT
11.6 超越技術
11.6.1 智慧的哲學基礎
11.6.2 血汗工廠
11.6.3 碳足跡
11.7 本章小結
11.7.1 要點回顧
11.7.2 常見面試問題

第12章強化學習：在動態互動中進化
12.1 大語言模型的持續最佳化
12.1.1 最大化評分：直觀但錯誤的模型
12.1.2 為什麼行不通：不可微的運算
12.1.3 可行的建模方式：調整損失函數
12.2 強化學習簡介
12.2.1 核心概念
12.2.2 目標定義
12.2.3 兩種解決方法
12.3 值函數學習
12.3.1 MC學習
12.3.2 貝爾曼方程式與TD學習
12.3.3 利用神經網路進行學習
12.3.4 n步TD學習與優勢函數
12.3.5 TD Lambda學習與GAE
12.4 策略學習
12.4.1 策略梯度定理
12.4.2 Reinforce演算法
12.4.3 基準線演算法
12.4.4 A2C演算法
12.5 利用PPO最佳化大語言模型
12.5.1 損失函數與參數更新
12.5.2 從A2C到PPO
12.5.3 微調遊戲獎勵
12.5.4 程式實現
12.6 本章小結
12.6.1 要點回顧
12.6.2 常見面試問題

第13章其他經典模型：擴充視野
13.1 決策樹
13.1.1 決策規則
13.1.2 評判標準
13.1.3 決策樹的預測與模型的聯結
13.1.4 剪枝
13.2 樹的整合
13.2.1 隨機森林
13.2.2 梯度提升決策樹
13.3 隱馬可夫模型
13.3.1 一個簡單的例子
13.3.2 馬可夫鏈
13.3.3 模型架構
13.3.4 股票市場的應用
13.4 聚類與降維
13.4.1 經典聚類模型K-Means
13.4.2 如何選擇聚類個數
13.4.3 經典降維模型主成分分析
13.5 奇異值分解
13.5.1 數學定義
13.5.2 截斷奇異值分解
13.5.3 潛在語義分析
13.5.4 大型推薦系統
13.6 本章小結
13.6.1 要點回顧
13.6.2 常見面試問題