可信機器學習 Trustworthy Machine Learning

(美)庫什·R.瓦什尼(Kush R. Varshney)著 趙正,謝鑫,趙奇,範曉婭,毛倩 譯

  • 可信機器學習-preview-1
  • 可信機器學習-preview-2
  • 可信機器學習-preview-3
可信機器學習-preview-1

商品描述

可信機器學習是機器學習的重要部分,是一門研究機器學習可信屬性的學科。本書將可信機器學習的屬性貫穿始終,全面系統地介紹可信機器學習的概念原則和技術方法。本書內容分六部分。第一部分詳細闡述可信機器學習的框架、機器學習生命周期以及安全性相關概念;第二部分針對機器學習中的數據介紹數據偏差、數據隱私等相關概念和解決方法;第三部分圍繞建模過程介紹檢測理論、監督學習和因果建模的理論及方法;第四部分針對機器學習的可靠性,講解分佈偏移的概念和緩解方法,以及機器學習公平性和安全性方法;第五部分圍繞人與機器的交互,闡述機器學習的可解釋性、透明性和價值對齊;第六部分針對機器學習的目標,介紹倫理原則、社會公益以及過濾氣泡等問題。

目錄大綱

目錄

 

 

第 一 部 分

第1章建立信任3

1.1定義信任4

1.1.1可信與值得信任5

1.1.2可信性屬性5

1.1.3將可信屬性映射到機器學習6

1.2本書組織結構7

1.3限制8

1.4立場聲明9

1.4.1勝任力和信譽9

1.4.2可靠性和偏見10

1.4.3互動11

1.4.4動機和價值觀11

1.5總結12

 

第2章機器學習生命周期13

2.1機器學習生命周期的心智模型13

2.2問題描述15

2.3數據理解16

2.4數據準備17

2.5建模17

2.6評估19

2.7部署和監測19

2.8總結20

 

第3章安全性21

3.1理解安全性21

3.2用不同類型的不確定性量化安全性23

3.2.1樣本空間、結果、事件和成本23

3.2.2偶然不確定性和概率23

3.2.3認知不確定性和可能性26

3.3不確定性的概括統計量27

3.3.1期望值和方差27

3.3.2信息與熵28

3.3.3KL散度和交叉熵28

3.3.4互信息29

3.4條件概率29

3.5獨立性和貝葉斯網絡30

3.5.1統計獨立性30

3.5.2貝葉斯網絡31

3.5.3結論33

3.6總結33

第 二 部 分

第4章數據來源與偏差37

4.1數據模態38

4.2數據來源40

4.2.1有目的收集的數據40

4.2.2行政數據40

4.2.3社交數據41

4.2.4眾包41

4.2.5數據增強41

4.2.6結論42

4.3偏差類型42

4.3.1社會偏差43

4.3.2代表性偏差43

4.3.3時間偏差44

4.3.4數據準備偏差44

4.3.5數據投毒44

4.3.6結論45

4.4總結45

 

第5章隱私和知情同意46

5.1知情同意、權利和隱私46

5.2實現隱私保護的數據匿名化48

5.2.1數據發布和句法匿名化50

5.2.2數據挖掘和差分隱私51

5.2.3結論52

5.3其他隱私保護方法53

5.4總結53

第 三 部 分

第6章檢測理論57

6.1選擇決策函數的指標58

6.1.1量化可能出現的事件58

6.1.2概括性能指標59

6.1.3考慮不同操作點的問題61

6.2努力實現最佳表現62

6.3風險評估和校準64

6.4總結65

 

第7章監督學習66

7.1能力域67

7.2兩種監督學習方法68

7.3插值法69

7.3.1判別分析69

7.3.2非參數密度估計70

7.4風險最小化原理71

7.4.1經驗風險最小化71

7.4.2結構風險最小化71

7.5風險最小化算法72

7.5.1決策樹與森林73

7.5.2基於邊際的方法74

7.5.3神經網絡76

7.5.4結論79

7.6總結79

 

第8章因果建模80

8.1因果建模和預測建模的對比80

8.1.1結構因果模型81

8.1.2因果模型與預測模型82

8.1.3兩個問題表述82

8.2量化因果效應83

8.2.1後門路徑和混雜因素84

8.2.2示例85

8.3乾預數據和觀測數據87

8.4因果發現方法88

8.4.1基於條件獨立性檢驗的方法示例89

8.4.2基於函數模型的方法示例91

8.5因果推斷方法92

8.5.1乾預模型93

8.5.2結果模型95

8.5.3結論96

8.6總結96

第 四 部 分

第9章分佈偏移99

9.1機器學習中的認知不確定性100

9.2分佈偏移: 認知不確定性的形式102

9.2.1分佈偏移的類型102

9.2.2分佈偏移的檢測104

9.2.3緩解分佈偏移105

9.3適應性105

9.3.1先驗概率偏移105

9.3.2協變量偏移106

9.3.3概念偏移107

9.4魯棒性107

9.4.1先驗概率偏移107

9.4.2協變量偏移108

9.4.3概念偏移和其他分佈偏移109

9.5總結110

 

第10章公平性112

10.1公平的多重定義112

10.2不公平從何而來113

10.3定義群體公平性115

10.3.1統計均等差異與差異性影響比116

10.3.2平均概率差異117

10.3.3在統計均等和平均概率差異之間選擇118

10.3.4平均預測值差異119

10.3.5在平均概率差異和平均預測值差異之間選擇119

10.3.6結論120

10.4定義個體和反事實公平性121

10.4.1一致性121

10.4.2反事實公平性121

10.4.3泰爾指數122

10.4.4結論122

10.5減少不必要的偏差123

10.5.1預處理124

10.5.2過程中處理125

10.5.3後處理126

10.5.4結論126

10.6其他註意事項127

10.7總結128

 

第11章對抗魯棒性129

11.1不同類型的對抗性攻擊130

11.1.1目標130

11.1.2能力131

11.1.3目的132

11.2防禦投毒攻擊132

11.2.1數據清洗133

11.2.2平滑133

11.2.3補丁134

11.3防禦逃避攻擊134

11.3.1輸入數據去噪134

11.3.2對抗性訓練135

11.3.3逃避攻擊的魯棒性評估與認證135

11.4總結136

第 五 部 分

第12章可解釋性和可說明性139

12.1不同類型的解釋140

12.1.1解釋用戶角色140

12.1.2解釋方法的對立概念141

12.1.3結論143

12.2解耦表示143

12.3針對監管者的解釋144

12.3.1k最近鄰分類器144

12.3.2決策樹和布爾規則集144

12.3.3邏輯回歸145

12.3.4廣義加法模型145

12.3.5廣義線性規則模型146

12.3.6刪除診斷和影響函數148

12.4決策者說明148

12.4.1全局模型近似149

12.4.2LIME150

12.4.3部分依賴圖150

12.4.4SHAP151

12.4.5顯著性圖151

12.4.6原型152

12.5對受影響用戶的解釋154

12.6量化可解釋性156

12.7總結157

 

第13章透明性158

13.1事實表159

13.2定量事實檢驗161

13.2.1測試可信性維度162

13.2.2生成和測試邊緣案例163

13.2.3不確定性量化163

13.3傳達測試結果和不確定性166

13.3.1可視化測試結果166

13.3.2傳達不確定性168

13.4保持溯源性170

13.5總結171

 

第14章價值對齊172

14.1可信機器學習中的4個價值層次174

14.2價值觀的表示和導出175

14.2.1你是否應該解決這個問題175

14.2.2值得關註的可信性要素177

14.2.3合適的度量指標177

14.2.4指標值的可接受範圍179

14.3群體偏好整合181

14.4治理182

14.5總結183

第 六 部 分

第15章倫理原則187

15.1原則概述188

15.2政府189

15.3私營企業190

15.4非政府組織191

15.5從原則到實踐192

15.6總結193第16章生活經驗194

16.1生命周期不同階段的生活經驗196

16.2包容性生命周期架構198

16.3總結200

 

第17章社會公益201

17.1評估數據科學服務社會公益項目202

17.1.1數據科學服務社會公益203

17.1.2數據科學如何服務於社會公益204

17.2數據科學服務社會公益項目的生命周期204

17.3數據科學服務社會公益平臺206

17.4總結209

 

第18章過濾氣泡和虛假信息210

18.1認知依賴和機構信任211

18.2是否最大化用戶參與度212

18.2.1過濾氣泡和回音室212

18.2.2錯誤信息和虛假信息212

18.2.3仇恨言論和煽動暴力213

18.2.4替代方案214

18.3稅收和法規214

18.4總結215

捷徑216