大數據分析與計算
湯羽林迪範愛華吳薇薇
- 出版商: 清華大學
- 出版日期: 2018-03-01
- 定價: $534
- 售價: 8.5 折 $454
- 語言: 簡體中文
- 裝訂: 平裝
- ISBN: 7302485860
- ISBN-13: 9787302485865
-
相關分類:
大數據 Big-data、Data Science
下單後立即進貨 (約4週~6週)
商品描述
1)對大數據計算的標準、模型、計算架構、開發技術體係做了一個較完整的論述和總結,適宜於作為計算機和軟件工程專業高年級課程或研究生課程的教材
2)本書也對大數據計算架構和開發平臺及技術進行了論述,給出了相關領域的工程案例,也可作為IT技術人士的專業參考書。
作者簡介
湯羽,博士/教授,上海交通大學工學學士,重慶大學工學碩士,美國Bowie State University計算機科學碩士,美國The George Washington University計算機科學博士。現任電子科技大學信息與軟件工程學院專業首席教授、校學術委員會委員、學院教學指導委員會主任、lnt.J.Computer and Management Sys.雜誌編輯、中國衛生信息學會電子健康檔案與區域衛生信息化專業委員會委員、教育部留學回國科研啟動基金評審專家、中國博士後科研基金評審專家、教育部學位與研究生教育質量評審專家。曾任職美國雷神公司(Raytheon)高級軟件架構師,長期從事大數據計算技術、雲計算架構。移動互聯應用等方面的研究與開發工作,在國內外雜誌及國際會議上發表論文30篇,獲軟件著作權2項。主講研究生課程《軟件架構模型與設計》、本科生課程《大數據計算技術》、《信息科學前沿講座》等。林迪,博士/副教授,哈爾濱工業大學通信工程學士、碩士,加拿大McGill大學計算機工程博士。現任電子科技大學信息與軟件工程學院副教授。主要從事大數據挖掘、物聯網、移動醫療等方面的教學與科研工作,主持國家自然基金青年項目,以第一作者發表SCI檢索論文8篇,EI檢索論文10餘篇。範愛華,碩士/副教授,陝西師範大學理學學士。北京師範大學理學碩士。現任西安工程大學計算機科學學院副教授。主要從事教育技術、數字媒體技術、大數據分析應用等方面的教學與科研工作,在國內外雜誌和學術會議上已發表論文15篇,獲技術專利2項。吳薇薇,碩士/分析師,中國地質大學(北京)管理科學與工程碩士,加拿大渥太華大學理學碩士。曾就職於IBM、亞馬遜、及澳新銀行。主要從事數據處理、數據分析、數學建模、及其他大數據分析應用方面的實踐工作。在國內外雜誌和學術會議上發表論文5篇。
目錄大綱
第1章緒論
1.1數據與數據科學
1.2大數據概念
1.3大數據技術特徵
參考文獻
習題
第2章大數據計算體系
2.1大數據計算架構
2.2數據存儲系統
2.2.1數據清洗與建模
2.2.2分佈式文件系統
2.2.3NoSQL數據庫
2.2.4統一數據訪問接口
2.3數據處理平臺
2.3.1數據分析算法
2.3.2計算處理模型
2.3.3計算平臺與引擎
2.4數據應用系統
2.4.1大數據應用領域
2.4. 2大數據解決方案
參考文獻
習題
第3章大數據標準與模式
3.1大數據標準體系
3.2大數據計算模式
參考文獻
習題
第4章數據採集方法
4.1系統日誌採集
4.1.1日誌採集的目的
4.1.2日誌採集過程
4.2網絡數據採集
4.2.1網絡爬蟲工作原理
4.2.2網頁搜索策略
4.2.3網頁分析算法
4.2.4網絡爬蟲框架
4.3數據採集接口
參考文獻
習題
第5章數據清洗與規約方法
5.1數據預處理研究現狀
5.1.1數據清洗的研究現狀
5.1.2數據規約的研究現狀
5.2數據質量問題分類
5.2.1單數據源的問題
5.2.2多數據源的問題
5.3數據清洗技術
5.3.1重復記錄清洗
5.3.2消除噪聲數據
5.3.3缺失值清洗
5.4數據歸約
5.4.1維歸約
5.4.2屬性選擇
5.4.3離散化方法
5.5數據清洗工具
參考文獻
習題
第6章數據分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2屬性選擇度量
6.1.3其他特徵
6.2k均值算法
6.3支持向量機
6.4Apriori算法
6.5EM算法
6.5.1案例: 估計k個高斯分佈的均值
6.5.2EM算法步驟
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的計算過程
6.7AdaBoost算法
6.7.1Boosting算法的發展歷史
6.7.2AdaBoost算法及其分析
6.8k鄰近算法
6.9樸素貝葉斯
6.9.1樸素貝葉斯分類器
6.9.2貝葉斯網絡
6.10分類回歸樹算法
6.10.1建立回歸樹
6.10.2剪枝過程
參考文獻
習題
第7章文本讀寫技術
7.1讀取文本文件
7.1.1讀取txt文件
7.1.2讀取csv文件
7.2寫入文本文件
7.3處理二進制數據
7.4數據庫的使用
7.4.1數據庫的連接
7.4.2執行SQL語句
7.4.3選擇和打印
7.4.4動態插入
7.4.5update操作
參考文獻
習題
第8章數據處理技術
8.1合併數據集
8.1.1索引上的合並
8.1.2軸向連接
8.1.3合並重疊數據
8.2數據轉換
8.2.1移除重復數據
8.2.2利用函數進行數據轉換
8.2.3替換值
8.2.4重命名軸索引
8.2.5離散化數據
8.2.6檢測異常值
8.2.7排列和隨機採樣
8.2.8啞變量
8.3字符串操作
8.3.1內置字符串方法
8.3.2正則表達式
8.3.3Pandas中矢量化的字符串函數
參考文獻
習題
第9章數據分析技術
9.1NumPy工具包
9.1.1創建數組
9.1.2打印數組
9.1.3基本運算
9.1.4索引、切片和迭代
9.1.5形狀操作
9.1.6復制和視圖
9.1.7NumPy實用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3ScikitLearn工具包
9.3.1邏輯回歸
9.3.2樸素貝葉斯
9.3.3k最近鄰
9.3.4決策樹
9.3.5支持向量機
9.3.6優化算法參數
參考文獻
習題
第10章數據可視化技術
10.1Matplotlib繪圖
10.1.1Matplotlib API入門
10.1.2Figure和Subplot的畫圖方法
10.1.3調整Subplot周圍的間距
10.1.4顏色、標記和線型的設置
10.1.5刻度、標簽和圖例
10.2Mayavi2繪圖
10.2.1使用mlab快速繪圖
10.2.2Mayavi嵌入到界面中
10.3其他圖形化工具
參考文獻
習題
第11章Hadoop生態系統
11.1Hadoop系統架構
11.2HDFS分佈式文件系統
11.2.1HDFS體系結構
11.2.2HDFS存儲結構
11.2.3數據容錯與恢復
11.2.4Hadoop/HDFS安裝
11.3分佈式存儲架構
11.3.1HBase系統架構
11.3.2數據模型與存儲模式
11.3.3HBase數據讀寫
11.3.4數據倉庫工具Hive
11.3.5HBase安裝與配置
11.4HBase索引與檢索
11.4.1二次索引表機制
11.4.2二次索引技術方案
11.5資源管理與作業調度
11.5.1分佈式協同管理組件ZooKeeper
11.5.2作業調度與工作流引擎Oozie
11.5.3集群資源管理框架YARN
參考文獻
習題
第12章MapReduce計算模型
12.1分佈式並行計算系統
12.2MapReduce計算架構
12.3鍵值對與輸入格式
12.4映射與化簡
12.5應用編程接口
參考文獻
習題
第13章圖並行計算框架
13.1圖基本概念
13.2BSP模型
13.3Pregel圖計算引擎
13.4Hama開源框架
13.5應用編程接口
參考文獻
習題
第14章交互式計算模式
14.1數據模型
14.2存儲結構
14.3並行查詢
14.4開源實現
參考文獻
習題
第15章流計算系統
15.1流計算模型
15.2Storm計算架構
15.3工作機制實現
15.4Storm編程接口
參考文獻
習題
第16章內存計算模式
16.1分佈式緩存體系
16.2內存數據庫
16.3內存雲MemCloud
16.4Spark內存計算
參考文獻
習題
第17章基於醫療數據的臨床決策分析應用
17.1國內外研究現狀及發展動態分析
17.2技術路線和方案
參考文獻
習題
第18章基於醫保數據的預測分析應用
18.1數據準備階段
18.2模型變量選擇和轉換
18.2.1模型變量的選擇
18.2.2模型變量的轉換
18.2.3篩選模型變量
18.3建模過程
18.4模型效果
參考文獻
習題
第19章因特網電商數據的分析應用
19.1電商流程管理分析
19.1.1行業背景與業務問題
19.1.2分析方法與過程
19.2用戶消費行為分析
19.2.1業務問題
19.2.2分析方法與過程
19.3送貨速度相關性分析
19.3.1業務問題
19.3.2分析方法與過程
19.4總結
參考文獻
習題
第20章金融和經濟數據的分析應用
20.1企業對創新經濟活動推動的影響分析
20.1.1案例背景
20.1.2分析方法與過程
20.2信貸風險模型評估
20.3中小能源型企業的信用評價分析
20.3.1案例背景
20.3.2分析方法與過程
20.3.3分析結果
參考文獻
習題