智能數據工程
岳昆、段亮、武浩、吳鑫然
商品描述
目錄大綱
目錄
第1篇數據管理篇
第1章關系數據庫查詢優化3
1.1關系數據庫查詢優化概述3
1.2基數估計4
1.2.1基數估計概述4
1.2.2傳統基數估計5
1.2.3基於機器學習的基數估計12
1.3思考題22
第2章信息檢索24
2.1信息檢索概述24
2.1.1信息檢索的概念24
2.1.2信息檢索的基本原理25
2.1.3信息檢索相關學科和研究內容26
2.2信息檢索模型28
2.2.1信息檢索系統的形式表示28
2.2.2布爾模型29
2.2.3向量空間模型29
2.3文本信息檢索33
2.3.1詞匯的頻率與數量分佈規律33
2.3.2文本信息預處理34
2.3.3文本信息的倒排索引35
2.4Web信息檢索39
2.4.1Web信息搜索的概念和工作原理39
2.4.2搜索引擎中的網頁去重技術41
2.4.3搜索引擎中的結果排序技術43
2.5信息檢索評價指標49
2.5.1單個查詢的評價指標49
2.5.2多個查詢的評價指標51
2.5.3面向用戶的評價指標52
2.6思考題53
第3章數據組織和架構55
3.1數據組織概述55
3.2數據倉庫56
3.2.1數據倉庫的基本特徵56
3.2.2從操作型系統到信息型系統57
3.2.3數據倉庫體系結構57
3.3數據湖63
3.3.1數據湖概述63
3.3.2數據湖與數據中台64
3.3.3數據湖體系結構65
3.3.4Apache Hudi簡介68
3.4向量數據庫71
3.4.1向量數據庫概述71
3.4.2向量數據庫的索引技術72
3.4.3向量數據庫的搜索技術74
3.4.4向量數據庫產品介紹75
3.5思考題77
第2篇數據挖掘和智能分析篇
第4章高維數據挖掘81
4.1高維數據挖掘概述81
4.2數據降維82
4.2.1自編碼器82
4.2.2變分自編碼器85
4.3數據分類88
4.3.1樸素貝葉斯分類88
4.3.2支持向量機91
4.4數據聚類95
4.4.1k均值聚類95
4.4.2CLIQUE聚類97
4.4.3譜聚類101
4.5思考題104
第5章視覺數據分析106
5.1視覺數據分析概述106
5.2目標檢測107
5.2.1目標檢測概述107
5.2.2捲積神經網絡108
5.2.3YOLO算法110
5.3圖像分割113
5.3.1圖像分割概述113
5.3.2Mask RCNN算法114
5.4視頻目標跟蹤119
5.4.1視頻目標跟蹤概述119
5.4.2Siamese FC算法120
5.5思考題123
第6章文本數據分析125
6.1文本數據分析概述125
6.2語言模型126
6.2.1語言模型概述126
6.2.2傳統語言模型126
6.2.3BERT預訓練語言模型127
6.3情感分析131
6.3.1情感分析概述131
6.3.2基於情感詞典的情感分析132
6.3.3基於BERT的情感分析133
6.4機器翻譯135
6.4.1機器翻譯概述135
6.4.2基於LSTM的神經機器翻譯136
6.4.3基於BERT的機器翻譯模型140
6.5思考題144
第7章圖數據分析146
7.1圖數據分析概述146
7.2圖神經網絡147
7.3節點分類149
7.3.1節點分類概述149
7.3.2基於GCN的節點分類150
7.4鏈接預測154
7.4.1鏈接預測概述154
7.4.2基於GCN的鏈接預測154
7.5社區發現158
7.5.1社區發現概述158
7.5.2基於GCN的社區發現159
7.6評價指標162
7.7思考題164
第3篇知識表示和知識推理篇
第8章知識圖譜169
8.1知識圖譜概述169
8.2知識圖譜構建170
8.2.1命名實體識別171
8.2.2關系抽取174
8.2.3實體關系聯合抽取177
8.3知識圖譜嵌入179
8.3.1距離模型179
8.3.2雙線性模型182
8.4知識圖譜推理183
8.4.1基於規則的推理184
8.4.2基於神經網絡的推理186
8.5思考題191
第9章貝葉斯網192
9.1貝葉斯網概述192
9.2貝葉斯網構建193
9.2.1基本概念193
9.2.2學習算法193
9.3基於貝葉斯網的概率推理198
9.3.1精確推理算法198
9.3.2近似推理算法200
9.4思考題202
參考文獻204