算法與數據中台:基於 Google、Facebook 與微博實踐

詹盈

  • 出版商: 電子工業
  • 出版日期: 2020-08-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 328
  • 裝訂: 平裝
  • ISBN: 7121392887
  • ISBN-13: 9787121392887
  • 已絕版

買這商品的人也買了...

相關主題

商品描述

本書作者依據在Google、Facebook、新浪微博及滴滴出行等中美一流互聯網公司的實際工作經歷,
對算法技術、數據技術,以及圍繞它們進行的技術中台建設實踐進行了全面的探討,
並在此基礎上對信息流推薦、計算廣告及智能出行等核心互聯網業務進行了案例剖析。
本書具有廣闊的技術視野,內容頗具深度,既適合互聯網行業的技術從業者閱讀,也適合電腦相關專業的高年級本科生、研究生閱讀。
通過閱讀本書,讀者能加深對機器學習、深度學習、大數據、
分佈式系統及技術中台等相關領域的認知與理解,並從中獲得一定的啟發和可借鑒的經驗。

作者簡介

詹盈

本科畢業於南京大學,後赴美攻讀計算機博士學位。
先後就職於Google、Facebook以及新浪微博,歷任主任架構師、算法總監等職位。
長期致力於機器學習算法、算法工程平台和大規模個性化系統等方向的技術研究以及團隊管理工作,
對推薦系統、計算廣告、大數據和雲計算等相關業務領域有著長期深入的工作經驗和成功實踐。

鄭旭飛

先後就職於360搜索、滴滴出行以及新浪微博,歷任算法專家和資深工程師等職位,
對搜索、推薦、廣告等個性化系統以及機器學習平台有著豐富的實踐經驗。

劉暢宇

美國哥倫比亞大學計算機碩士學位,先後就職於彭博社和新浪微博並擔任資深架構師等職位,
對金融交易系統、計算廣告平台以及大規模分佈式系統有著深刻理解和成功經驗。

郝忠秀

新浪微博廣告基礎架構負責人,對大規模分佈式系統、海量數據存儲系統、
大數據平台以及計算廣告等相關領域有著長期工作經驗和諸多成功實踐。

目錄大綱

第1章算法與數據中台概述 1
1.1 中台的背景和意義 1
1.2 算法與數據中台的功能價值 3
1.3 算法與數據中台的技術體系 4
1.4 算法與數據中台的實踐場景 6
1.5 算法與數據中台的應用前景 7
1.6 本章總結 8

第2章中台技術之基礎設施10
2.1 研發效率系統10
2.1.1 代碼組織和構建11
2.1.2 代碼審查和任務管理13
2.1.3 持續集成15
2.1.4 通用壓測平台17
2.2 服務通信系統19
2.2.1 跨進程通信框架20
2.2.2 服務註冊與發現21
2.2.3 服務治理24
2.3 監控報警系統25
2.3.1 通用系統架構25
2.3.2 指標計算模型26
2.3.3 開源解決方案27
2.4 鏈路跟踪系統29
2.4.1 應用場景與設計目標30
2.4.2 系統架構30
2.5 本章總結32

第3章中台技術之在線算法系統33
3.1 物料檢索系統34
3.1.1 倒排檢索35
3.1.2 倒排索引實例37
3.1.3 相似檢索38
3.1.4 相似檢索實例40
3.1.5 模型粗排40
3.2 模型預估服務41
3.2.1 整體架構42
3.2.2 多框架支持43
3.2.3 模型上線44
3.2.4 在線預估45
3.2.5 異構設備46
3.2.6 性能優化47
3.2.7 效果監控49
3.3 策略機制引擎50
3.3.1 整體架構50
3.3.2 計算流解釋器51
3.3.3 Lua 解釋器52
3.4 集群管理平台53
3.4.1 多租戶架構53
3.4.2 集群動態管理54
3.4.3 集群性能監控57
3.4.4 配置動態分發59
3.5 效果評估系統60
3.5.1 背景介紹61
3.5.2 設計模式61
3.5.3 系統架構62
3.5.4 指標計算64
3.6 本章總結65

第4章中台技術之機器學習平台66
4.1 機器學習平台簡介66
4.1.1 機器學習的研發流程67
4.1.2 機器學習的研發挑戰69
4.1.3 機器學習的研發技術69
4.2 傳統機器學習算法73
4.2.1 線性算法73
4.2.2 因子分解機算法77
4.2.3 決策樹算法81
4.3 深度學習算法84
4.3.1 發展簡史85
4.3.2 神經元模型86
4.3.3 神經網絡模型87
4.3.4 神經網絡的算法原理88
4.4 模型框架基本原理94
4.4.1 分佈式計算架構94
4.4.2 並行計算的同步機制99
4.4.3 梯度更新算法102
4.5 層結構的模型框架108
4.5.1 Caffe 109
4.5.2 DistBelief 110
4.5.3 WBLEngine 112
4.5.4 小結116
4.6 數據流結構的模型框架116
4.6.1 TensorFlow 116
4.6.2 PyTorch 122
4.6.3 小結126
4.7 複合結構的模型框架126
4.7.1 場景特點126
4.7.2 設計思路127
4.7.3 架構與實現128
4.7.4 性能優化131
4.7.5 小結132
4.8 機器學習平台簡介132
4.8.1 單業務線開發階段132
4.8.2 平台化建設階段133
4.8.3 業界知名產品134
4.9 新浪微博WBL 機器學習平台135
4.9.1 用戶操作界面136
4.9.2 管理中心138
4.9.3 數據中心140
4.9.4 調度中心141
4.9.5 智能中心144
4.9.6 模型中心145
4.10 本章總結147

第5章中台技術之分佈式數據庫148
5.1 分佈式數據庫概述148
5.1.1 SQL 數據庫148
5.1.2 NoSQL 數據庫149
5.1.3 NewSQL 數據庫150
5.2 分佈式數據庫技術150
5.2.1 ACID 理論151
5.2.2 CAP 理論151
5.2.3 BASE 理論153
5.2.4 數據分片策略154
5.2.5 數據複製策略157
5.2.6 Gossip 協議158
5.2.7 分佈式一致性協議160
5.2.8 分佈式事務協議167
5.3 分佈式數據庫產品170
5.3.1 Redis 170
5.3.2 Google BigTable 170
5.3.3 Google Spanner 173
5.4 LaserDB 分佈式數據庫177
5.4.1 系統架構178
5.4.2 數據模型179
5.4.3 分片策略180
5.4.4 批量加載181
5.4.5 同步機制182
5.4.6 高可用架構184
5.4.7 高性能方案185
5.5 LaserDB 應用案例分析188
5.5.1 數據緩存188
5.5.2 特征服務189
5.5.3 向量存儲190
5.5.4 樣本拼接190
5.6 本章總結191

第6章中台技術之大數據平台192
6.1 大數據平台概述192
6.1.1 大數據的特點192
6.1.2 大數據平台的技術棧193
6.2 分佈式協調系統194
6.2.1 Google Chubby 195
6.2.2 Apache ZooKeeper 196
6.2.3 Consul 197
6.3 集群管理系統199
6.3.1 Google Borg 200
6.3.2 Kubernetes 202
6.3.3 Apache YARN 203
6.4 分佈式文件系統205
6.4.1 Google GFS 205
6.4.2 Apache HDFS 207
6.4.3 Dropbox MagicPocket 209
6.5 消息管道系統210
6.5.1 Google PubSub 211
6.5.2 Apache Kafka 213
6.6 分佈式計算系統214
6.6.1 MapReduce 214
6.6.2 Apache Spark 216
6.6.3 Apache Flink 218
6.6.4 Apache Beam 220
6.7 數據倉庫與分佈式查詢系統221
6.7.1 Google BigQuery 222
6.7.2 Apache Hive 223
6.7.3 Facebook Presto 224
6.7.4 Facebook Scuba 226
6.8 本章總結227

第7章中台實踐之推薦系統228
7.1 推薦系統的背景簡介228
7.1.1 場景概況229
7.1.2 整體架構230
7.1.3 推薦思路233
7.2 推薦系統的算法模型235
7.2.1 GBDT-LR 融合模型235
7.2.2 Wide & Deep 模型237
7.2.3 DeepFM 模型238
7.2.4 雙塔模型238
7.2.5 多任務模型239
7.2.6 算法的發展趨勢241
7.3 推薦系統的效果度量244
7.3.1 體驗指標244
7.3.2 算法指標245
7.4 Facebook 信息流推薦簡介250
7.4.1 數據分發系統251
7.4.2 特征服務252
7.4.3 索引系統254
7.4.4 預估與排序服務255
7.4.5 實時樣本拼接服務256
7.4.6 模型訓練平台257
7.5 本章總結258

第8章中台實踐之數字廣告259
8.1 數字廣告的背景簡介259
8.1.1 核心概念260
8.1.2 合約廣告261
8.1.3 競價廣告262
8.1.4 程序化交易廣告263
8.2 數字廣告系統架構264
8.2.1 業務平台265
8.2.2 算法與數據中台265
8.3 數字廣告系統中的數據管理266
8.3.1 站內數據267
8.3.2 站外數據267
8.4 數字廣告系統中的受眾定向268
8.4.1 內容定向268
8.4.2 用戶標籤定向269
8.4.3 定制化標籤定向269
8.4.4 社交關係定向270
8.4.5 智能定向270
8.5 數字廣告系統中的策略機制270
8.5.1 流量預測271
8.5.2 在線分配271
8.5.3 頻次控制272
8.5.4 平滑投放272
8.5.5 探索策略273
8.5.6 智能出價274
8.5.7 廣告競價276
8.5.8 反作弊機制277
8.6 本章總結277

第9章中台實踐之網約車平台278
9.1 業務簡介279
9.1.1 業務背景279
9.1.2 運作流程281
9.1.3 用戶體驗281
9.2 技術架構282
9.2.1 分層系統架構282
9.2.2 業務中台283
9.2.3 算法與數據中台285
9.3 打車定價場景286
9.3.1 場景描述286
9.3.2 價格動態下浮策略287
9.3.3 價格動態上浮策略289
9.3.4 小結290
9.4 打車排隊場景290
9.4.1 場景描述290
9.4.2 排隊時間預估策略291
9.4.3 小結292
9.5 打車安全場景292
9.5.1 場景描述292
9.5.2 安全策略293
9.5.3 小結294
9.6 本章總結294
參考文獻295