精通數據科學算法 (Data Science Algorithms in a Week)

[英]戴維·納蒂加(David Natingga)

  • 精通數據科學算法 (Data Science Algorithms in a Week)-preview-1
  • 精通數據科學算法 (Data Science Algorithms in a Week)-preview-2
精通數據科學算法 (Data Science Algorithms in a Week)-preview-1

買這商品的人也買了...

相關主題

商品描述

數據科學(Data Science)是從數據中提取知識的技術,是一門有關機器學習、統計學與數據挖掘的交叉學科。數據科學包含了多種領域的不同元素,包括信號處理、數學、概率模型技術和理論、電腦編程、統計學等。

本書講解了7種重要的數據分析方法,它們分別是k最近鄰算法、樸素貝葉斯算法、決策樹、隨機森林、k-means聚類、回歸分析以及時間序列分析。全書共7章,每一章都以一個簡單的例子開始,先講解算法的基本概念與知識,然後通過對案例進行擴展以講解一些特殊的分析算法。這種方式有益於讀者深刻理解算法。

本書適合數據分析人員、機器學習領域的從業人員以及對算法感興趣的讀者閱讀。

作者簡介

Dávid Natingga於2014年畢業於倫敦帝國理工學院的計算與人工智能專業,並獲工程碩士學位。
2011年,他在印度班加羅爾的Infosys實驗室工作,研究機器學習算法的優化。
2012~2013年,他在美國帕羅奧圖的Palantir技術公司從事大數據算法的開發工作。
2014年,作為英國倫敦Pact Coffee公司的數據科學家,他設計了一種基於顧客口味偏好和咖啡結構的推薦算法。
2017年,他在荷蘭阿姆斯特丹的TomTom工作,處理導航平台的地圖數據。
他是英國利茲大學計算理論專業的博士研究生,研究純數學如何推進人工智能。
2016年,他在日本高等科學技術學院當了8個月的訪問學者。

目錄大綱

第1章用k最近鄰算法解決分類問題
1.1 Mary對溫度的感覺
1.2實現k最近鄰算法
1.3意大利地區的示例——選擇k值
1.4房屋所有權——數據轉換
1.5文本分類——使用非歐幾里德距離
1.6文本分類——更高維度的k-NN 
1.7小結
1.8習題

第2章樸素貝葉斯
2.1醫療檢查——貝葉斯定理的基本應用
2.2貝葉斯定理的證明及其擴展
2.3西洋棋遊戲——獨立事件
2.4樸素貝葉斯分類器的實現
2.5西洋棋遊戲——相關事件
2.6性別分類——基於連續隨機變量的貝葉斯定理
2.7小結
2.8習題

第3章決策樹
3.1游泳偏好——用決策樹表示數據
3.2信息論044 
3.3 ID3算法——構造決策樹047 
3.4用決策樹進行分類054 
3.5小結060 
3.6習題060 

第4章隨機森林064 
4.1隨機森林算法概述064 
4.2游泳偏好——隨機森林分析法065 
4.3隨機森林算法的實現071 
4.4下棋實例075
4.5購物分析——克服隨機數據的不一致性以及
 度量置信水平082 
4.6小結084 
4.7習題084 

第5章k-means聚類089 
5.1家庭收入——聚類為k個簇089 
5.2性別分類——聚類分類092 
5.3 k-means聚類算法的實現095 
5.4房產所有權示例——選擇簇的數量099 
5.5小結105 
5.6習題105 

第6章回歸分析114 
6.1華氏溫度和攝氏溫度的轉換——基於完整數據的線性回歸114 
6.2根據身高預測體重——基於實際數據的線性回歸117 
6.3梯度下降算法及實現118 
6.4根據距離預測飛行時長122 
6.5彈道飛行分析——非線性模型123 
6.6小結125 
6.7習題125 

第7章時間序列分析130 
7.1商業利潤——趨勢分析130 
7.2電子商店的銷售額——季節性分析132 
7.3小結140 
7.4習題140 
附錄A統計145 
A.1基本概念145 
A.2貝葉斯推理146 
A.3分佈146 
A.4交叉驗證147
A.5 A/B測試148 
附錄BR參考149 
B.1介紹149 
B.2數據類型150 
B.3線性回歸152 
附錄C Python參考154 
C.1介紹154 
C.2數據類型155 
C.3控制流159 
附錄D數據科學中的算法和方法術語163