數據科學與工程算法基礎
徐明華、陳志剛、羅俊如、官威、郝亞東
- 出版商: 清華大學
- 出版日期: 2025-01-01
- 定價: $294
- 售價: 8.5 折 $250
- 語言: 簡體中文
- 頁數: 149
- ISBN: 7302680167
- ISBN-13: 9787302680161
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
商品描述
"本書對數據科學與工程中的算法基礎進行了全面的論述,把讀者引入數據科學的大門,為進一步學習和掌握大數據分析算法提供有力的支撐。本書介紹的數據科學與工程中的算法基礎包括特徵工程、數據表徵、數據抽樣、隨機優化算法和關聯性分析等,側重內容的科學性、實用性和前沿性。本書結構上註重理論與實踐並重,各章通過案例引出問題,並深入介紹回答類似問題需要的知識,最後通過實際案例串聯本章知識點,可以使讀者感受到算法的價值及其在解決實際問題中的實用性。 本書可以作為高等學校大數據、電腦等相關專業的教學用書,對科研機構的研究人員、工程技術人員也有一定的參考價值。 "
目錄大綱
目錄
第1章緒論
1.1概況
1.2數據分析
1.2.1流程
1.2.2算法分類
1.2.3基本原則
1.3算法基礎
1.4本章小結
習題
第2章特徵工程
2.1問題導入
2.2特徵提取
2.3特徵探索性分析
2.3.1單變量分析
2.3.2多變量分析
2.4特徵預處理
2.4.1缺失值處理
2.4.2異常值處理
2.4.3特徵變換
2.5特徵選擇
2.5.1過濾法
2.5.2封裝法
2.5.3嵌入法
2.6案例: 工業設備信號特徵工程
2.7本章小結
習題
第3章多類型數據表徵
3.1問題導入
3.2時序數據表徵
3.2.1頻域特徵
3.2.2時頻域特徵
3.3文本數據表徵
3.3.1詞袋模型
3.3.2TFIDF特徵
3.3.3詞向量嵌入
3.4圖像數據表徵
3.4.1圖像處理基礎
3.4.2SIFT
3.4.3HOG
3.4.4深度特徵表示
3.4.5多模態特徵融合
3.5案例: 農作物病蟲害圖像表徵
3.6本章小結
習題
第4章數據抽樣
4.1問題導入
4.2概率抽樣
4.3非均衡抽樣
4.3.1樣本分佈不均衡問題
4.3.2過採樣
4.3.3欠採樣
4.4數據流抽樣
4.4.1數據流抽樣問題
4.4.2蓄水池抽樣
4.5蒙特卡洛抽樣
4.5.1直接採樣
4.5.2接受拒絕採樣
4.5.3重要性採樣
4.6案例: 基於SMOTE的信用卡交易欺詐數據採樣
4.7本章小結
習題
第5章圖計算
5.1問題導入
5.2圖網絡
5.2.1圖網絡表示
5.2.2網絡結構分類
5.2.3網絡描述性統計
5.3圖基礎算法
5.3.1圖遍歷
5.3.2圖分割
5.4社區發現
5.4.1模塊度
5.4.2GN算法
5.4.3譜方法
5.5GraphScope簡介
5.6案例: 基於譜聚類的圖像分割
5.7本章小結
習題
第6章隨機優化算法
6.1問題導入
6.2梯度下降算法
6.3隨機梯度下降算法
6.4梯度加速方法
6.4.1動量法
6.4.2Nesterov梯度加速
6.4.3自適學習率加速方法
6.5方差縮減
6.5.1方差縮減技術
6.5.2方差縮減算法
6.6案例: 邏輯回歸模型優化算法
6.7本章小結
習題
第7章相似性度量
7.1問題導入
7.2相關系數
7.2.1皮爾遜相關系數
7.2.2餘弦相似度
7.2.3Jaccard相似系數
7.3距離度量
7.3.1歐氏空間的距離度量
7.3.2流形空間的距離度量
7.3.3時間序列的距離度量
7.4概率散度
7.4.1f散度
7.4.2積分概率度量
7.5案例: 金融時間序列數據分析
7.6本章小結
習題
第8章關聯性分析
8.1問題導入
8.2非線性相關性分析
8.3典型關聯分析
8.4關聯規則
8.4.1關聯規則描述
8.4.2關聯規則挖掘
8.4.3數值型關聯規則挖掘
8.5因果分析
8.5.1結構因果模型與圖模型
8.5.2因果效應評估
8.6案例: 購物車數據挖掘
8.7本章小結
習題
參考文獻