數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow

謝梁等著

  • 出版商: 機械工業
  • 出版日期: 2021-06-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 280
  • 裝訂: 平裝
  • ISBN: 7111682548
  • ISBN-13: 9787111682547
  • 相關分類: SQLData Science
  • 立即出貨

買這商品的人也買了...

相關主題

商品描述

這是一本將數據科學三要素——商業理解、量化模型、數據技術全面打通的實戰性著作,是來自騰訊、滴滴、快手等一線互聯網企業的數據科學家、數據分析師和算法工程師的經驗總結,得到了SQLFlow創始人以及騰訊、網易、快手、貝殼找房、谷歌等企業的專家一致好評和推薦。
全書三個部分,內容相對獨立,既能幫助初學者建立知識體系,又能幫助從業者解決商業中的實際問題,還能幫助有經驗的專家快速掌握數據科學的Z新技術和發展動向。內容圍繞非實驗環境下的觀測數據的分析、實驗的設計和分析、自助式數據科學平臺3大主題展開,涉及統計學、經濟學、機器學習、實驗科學等多個領域,包含大量常用的數據科學方法、簡潔的代碼實現和經典的實戰案例。
第1部分(第 1~6 章) 觀測數據的分析技術
講解了非實驗環境下不同觀測數據分析場景所對應的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基於機器學習的用戶生命周期價值預測、基於可解釋模型技術的商業場景挖掘、基於矩陣分解技術的用戶行為規律發現與挖掘,以及在不能進行實驗分析時如何更科學地進行全量評估等內容。
第二部分(第7~9章)實驗設計和分析技術
從 A/B 實驗的基本原理出發,深入淺出地介紹了各種商業場景下進行實驗設計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業場景限制導致的非傳統實驗設計。
第三部分(第10~12章) 自助式數據科學平臺SQLFlow
針對性的講解了開源的工程化的自助式數據科學平臺SQLFlow,並通過系統配置、黑盒模型的解讀器應用、聚類分析場景等案例幫助讀者快速瞭解這一面向未來的數據科學技術。

作者簡介

謝梁
經濟學博士
騰訊QQ瀏覽器副總經理、QQ瀏覽器數據負責人。
CCF數據科學專委會創始委員,入選第1財經數據科學50人。
曾任滴滴傑出數據科學家、美國微軟雲存儲核心工程部首席數據科學家。

繆瑩瑩
浙江大學碩士,滴滴首席數據科學家,CCF數據科學專委會委員。
發表十餘項國家發明專利及國際發明專利,具有豐富的數據倉庫建設、數據挖掘建模、實驗科學與戰略分析的經驗。
帶領團隊用數據的方式驅動從0到1的初創形態的業務和成熟形態業務的增長,善於發現業務機會和風險,給業務帶來巨大價值。

高梓堯
快手數據分析總監,長期在美國矽谷和中國多家互聯網科技公司從事用戶分析、實驗設計等相關工作。
曾帶領滴滴數據科學團隊與螞蟻金服聯合開源共建一站式機器學習工具SQLFlow。
擁有多項國家發明專利。清華大學–哥倫比亞大學商業分析碩士項目指導嘉賓、泛華統計協會演講嘉賓。

王子玲
上海交通大學計算數學碩士,曾任滴滴高級數據科學家、高級模型專家、高級風控專家。
先後任職於日企MTI、人人網、滴滴出行、愛奇藝等知名互聯網企業,在網約車出行、互聯網金融、
在線音樂、短視頻、網游等領域積累了豐富的大數據分析、策略、挖掘、建模、研究、應用經驗。
負責過兩段公司級重點項目從0到1增長的整體數據驅動體系設計及落地。
申請平台智能定價及優化算法系統等十餘項國家發明專利及國際發明專利。

目錄大綱

作者簡介
序一
序二
前言

第一部分 觀測數據的分析技術
第1章 如何分析用戶的選擇 2
1.1 深入理解選擇行為 2
1.1.1 選擇無處不在 2
1.1.2 選擇行為的經濟學理論 4
1.1.3 離散選擇模型 5
1.2 DCM詳述 6
1.2.1 從經濟模型到計量模型 6
1.2.2 DCM的應用場景 9
1.2.3 DCM的重要數學知識 10
1.3 DCM模型的Python實踐 13
1.3.1 軟件包和數據格式 13
1.3.2 使用邏輯回歸分析自駕選擇問題 16
1.3.3 使用多項Logit模型分析多種交通方式選擇問題 21
1.3.4 使用嵌套Logit模型分析多種交通方式選擇問題 24
1.4 本章小結 26

第2章 與時間相關的行為分析 27
2.1 生存分析與二手車定價案例 27
2.1.1 二手車定價背景 27
2.1.2 為什麽不選擇一般回歸模型 28
2.1.3 為什麽選擇生存分析 29
2.2 生存分析的理論框架 29
2.2.1 生存分析基本概念界定 30
2.2.2 生存函數刻畫及簡單對比 34
2.2.3 生存函數回歸及個體生存概率的預測 36
2.3 生存分析在二手車定價案例中的應用 37
2.3.1 軟件包、數據格式和數據讀入 38
2.3.2 繪制二手車銷售生存曲線及差異對比 40
2.3.3 二手車銷售生存概率影響因素分析及個體預測 43
2.3.4 基於Cox風險比例模型的最優價格求解 44
2.4 本章小結 46

第3章 洞察用戶長期價值:基於神經網絡的LTV建模 47
3.1 用戶長期價值的概念和商業應用 47
3.1.1 用戶長期價值 47
3.1.2 用戶生命周期和用戶長期價值 48
3.1.3 LTV的特點 49
3.1.4 LTV分析能解決的問題 50
3.1.5 LTV的計算方法 50
3.2 基於Keras的LTV模型實踐 52
3.2.1 Keras介紹 52
3.2.2 數據的加載和預處理 52
3.2.3 輸入數據的準備 56
3.2.4 模型搭建和訓練 61
3.2.5 模型分析 65
3.3 本章小結 66

第4章 使用體系化分析方法進行場景挖掘 67
4.1 經驗化分析與體系化分析 67
4.1.1 經驗化分析的局限性 67
4.1.2 體系化分析的優勢 68
4.2 體系化分析常用工具 69
4.2.1 黑盒模型與白盒模型 69
4.2.2 可解釋模型—決策樹 69
4.2.3 全局代理模型 73
4.2.4 場景挖掘模型分析方法框架 75
4.3 場景挖掘分析的應用與實現 75
4.3.1 數據背景及數據處理 76
4.3.2 經驗化分析方法應用 76
4.3.3 場景挖掘模型的Python實現與模型解讀 79
4.4 本章小結 86

第5章 行為規律的發現與挖掘 87
5.1 對有序數據的規律分析 88
5.1.1 有序數據及SVD方法概述 88
5.1.2 SVD原理及推導 88
5.2 SVD聚類建模Python實戰 93
5.3 對無序稀疏數據的規律分析 101
5.3.1 稀疏數據及NMF方法概述 101
5.3.2 NMF原理及推導 102
5.3.3 NMF聚類建模Python實戰 103
5.4 本章小結 109

第6章 對觀測到的事件進行因果推斷 110
6.1 使用全量評估分析已發生的事件 110
6.2 全量評估的主要方法 111
6.2.1 回歸分析 111
6.2.2 DID方法 118
6.2.3 合成控制 120
6.2.4 Causal Impact方法 122
6.3 全量評估方法的應用 124
6.3.1 使用回歸建模方法對物流單量變化進行全量評估 125
6.3.2 使用DID方法評估恐怖主義對經濟的影響 131
6.3.3 用合成控製法評估恐怖主義對經濟的影響 134
6.3.4 用Causal Impact方法評估天氣情況 136
6.4 本章小結 146

第二部分 實驗設計和分析技術
第7章 如何比較兩個策略的效果 148
7.1 正確推斷因果關系 148
7.1.1 相關性謬誤 148
7.1.2 潛在結果和因果效果 149
7.2 運用A/B實驗進行策略比較 150
7.2.1 什麽是A/B實驗 151
7.2.2 為什麽應用A/B實驗 151
7.2.3 A/B實驗的基本原理 151
7.3 A/B實驗應用步驟 152
7.3.1 明確實驗要素 152
7.3.2 實驗設計 154
7.3.3 實驗過程監控 155
7.4 A/B實驗案例 156
7.4.1 實驗場景介紹 156
7.4.2 實驗方法設計 157
7.4.3 實驗效果評估 157
7.5 本章小結 159

第8章 提高實驗效能 160
8.1 控制實驗指標方差的必要性和手段 160
8.2 用隨機區組設計控制實驗指標方差 161
8.2.1 利用隨機區組實驗降低方差 161
8.2.2 隨機區組實驗的特徵選擇 162
8.3 隨機區組實驗應用步驟 163
8.4 隨機區組實驗案例介紹 167
8.4.1 背景介紹 168
8.4.2 基本設計 168
8.4.3 隨機區組實驗相關的設計 168
8.4.4 效果評估 169
8.5 隨機區組實驗的常見問題 170
8.6 本章小結 171

第9章 特殊場景下的實驗設計和分析方法 172
9.1 解決分流實驗對象之間的乾擾 172
9.1.1 使用隨機飽和度實驗減少實驗對象之間的影響 173
9.1.2 隨機濃度實驗的設計流程 174
9.1.3 隨機濃度實驗評估方法及案例 175
9.2 Switchback實驗和評估方法 178
9.2.1 不能使用隨機分流策略的情況 178
9.2.2 Switchback實驗的基本原理 178
9.2.3 Switchback實驗中關於時空切片的聚類方法 179
9.2.4 Switchback實驗的評估方法 180
9.3 交叉實驗 182
9.3.1 交叉實驗的基本概念 183
9.3.2 常見的交叉實驗設計矩陣 183
9.3.3 交叉實驗評估及矩陣誤差說明 185
9.3.4 交叉實驗評估案例 186
9.4 強約束條件下的實驗方法 189
9.4.1 強約束條件場景 189
9.4.2 多基線實驗設計的解決思路 189
9.4.3 多基線實驗的設計流程 190
9.4.4 多基線實驗的評估方法和案例 192
9.5 本章小結 195

第三部分 自助式數據科學平臺SQLFlow
第10章 SQLFlow 198
10.1 SQLFlow簡介 198
10.1.1 什麽是SQLFlow 198
10.1.2 SQLFlow的定位和目標 199
10.1.3 SQLFlow的工作原理 200
10.2 設置SQLFlow運行環境 201
10.2.1 通過Docker使用SQLFlow 201
10.2.2 環境配置 205
10.2.3 交互 210
10.2.4 Jupyter Notebook 210
10.2.5 REPL 211
10.3 向SQLFlow提交分析模型 211
10.4 本章小結 214

第11章 機器學習模型可解釋性 215
11.1 模型的可解釋性 215
11.1.1 模型可解釋的重要性 215
11.1.2 模型可解釋的必要性 216
11.2 常見的可解釋模型 216
11.2.1 線性回歸 216
11.2.2 邏輯回歸 219
11.2.3 決策樹 224
11.2.4 KNN算法 225
11.2.5 樸素貝葉斯分類器 228
11.2.6 模型比較 229
11.3 黑盒模型的解釋性 230
11.3.1 黑盒模型解釋方法 230
11.3.2 SQLFlow中的黑盒模型解釋應用 233
11.4 本章小結 237

第12章 基於LSTM-Autoencoder的無監督聚類模型 238
12.1 聚類分析的廣泛應用 238
12.2 聚類模型的應用案例 239
12.2.1 K均值聚類 239
12.2.2 層次聚類 245
12.3 SQLFlow中基於深度學習的聚類模型 250
12.3.1 基於深度學習的聚類算法原理 250
12.3.2 城市道路交通狀況的模式識別與聚類 256
12.4 本章小結 259