數據分析思維通識課 帶你看透數據真相

郭煒 周瑤

  • 出版商: 人民郵電
  • 出版日期: 2025-01-01
  • 定價: $539
  • 售價: 8.5$458
  • 語言: 簡體中文
  • 頁數: 266
  • ISBN: 7115655111
  • ISBN-13: 9787115655110
  • 相關分類: Data Science
  • 下單後立即進貨 (約4週~6週)

  • 數據分析思維通識課 帶你看透數據真相-preview-1
  • 數據分析思維通識課 帶你看透數據真相-preview-2
數據分析思維通識課 帶你看透數據真相-preview-1

相關主題

商品描述

數據分析的智慧其實就潛藏在我們的日常生活與職業生涯中,它無處不在。設想當你

審視報告中的數字時,是否洞悉了那些數字背後隱藏的故事?它們的增長或減少,又向我們透露了怎樣的信息?購房選址的策略,購車時機的選擇,這些看似尋常的決策,實則都能在數據的指引下變得更為明智。本書巧妙地從糾正基本的數據認知誤區啟程,逐步深入至統計學的奧秘、人工智能的前沿,並巧妙融合數據敘事與思維工具的運用,旨在將抽象的數據理論轉化為生活中觸手可及、工作中行之有效的智慧寶典,讓“冷冰冰”的數據知識躍然成為解決實際問題的“金鑰匙”。

本書面向的讀者群廣泛,它適合具有數據分析需求的技術高管、首席數據官、數據分析師、產品經理,以及軟件研發人員和運營人員閱讀,同時也適合作為高等院校相關課程

的參考書,可為學生提供一扇深入瞭解數據分析世界的窗,助力他們在未來的職業道路上穩健前行。

作者簡介

郭煒,畢業於北京大學,白鯨開源CEO,Apache軟件基金會成員,曾擔任IBM和Teradata資深數據架構師、聯想研究院大數據總監、萬達電商數據部總經理、易觀CTO。他堅信“數據是有靈魂的”,並以此為座右銘,投身大數據、算法、大模型、數據分析行業20餘年。他是DataOps數據分析領域專家,推動了ClickHouse、Apache DolphinScheduler、Apache SeaTunnel等大數據開源項目在中國的發展,連續多年擔任ApacheCon Asia DataOps論壇主席,頻繁亮相國際數據技術峰會。他榮獲2024中國因特網發展創新與投資大賽一等獎、2023大數據產業年度趨勢人物獎、虎嘯中國數字營銷十年傑出數字技術人物獎、2021中國開源優秀人物等獎項,為中國數據領域的發展做出了卓越貢獻。

目錄大綱

目錄

 

第0章 數據思維 ——— 001

0.1|數據洞察萬物規律 ——— 002

0.2|數據背後的規律是算法 ——— 003

0.3|對數據最重要的是分析和表達 ——— 004

小結 ——— 005

思考 ——— 005

第1章 瞭解數據背後的真相 ——— 006

1.1|平均值:不要被平均值騙了,它不能

代表整體水平 ——— 007

1.1.1 平均值在什麽情況下才有價值 ——— 007

1.1.2 分組結論和整體平均值不是

一回事 ——— 009

1.1.3 辛普森悖論的啟示 ——— 010

小結 ——— 012

思考 ——— 012

1.2|大數定律與小數陷阱:生活是隨機的

還是有定數的 ——— 013

1.2.1 什麽是大數定律 ——— 013

1.2.2 什麽是小數陷阱 ——— 015

1.2.3 大數定律和小數陷阱給我們的

啟示 ——— 016

小結 ——— 017

思考 ——— 018

1.3|數據的期望值:為什麽你坐的飛機總是

晚點 ——— 018

1.3.1 墨菲的一個玩笑 ——— 018

1.3.2 背後的數學原理 ——— 019

1.3.3 解釋墨菲定律. ——— 020

1.3.4 如何規避墨菲定律 ——— 022

小結 ——— 023

思考 ——— 023

1.4|隨機對照試驗:章魚保羅真的是

“預言帝”嗎 ——— 024

1.4.1 你認為的隨機其實都是“偽隨機” ——— 024

1.4.2 隨機對照試驗幫助你去偽存真 ——— 025

1.4.3 幸存者偏差並不是隨機對照試驗 ——— 027

小結 ——— 029

思考 ——— 030

1.5|指數和KPI:智商是怎麽計算出來的 ——— 030

1.5.1 簡單的指數:上證指數 ——— 031

1.5.2 較復雜的指數:用戶忠誠度指數 ——— 032

1.5.3 復雜的指數:智商 ——— 033

小結 ——— 036

思考 ——— 036

1.6|因果陷阱:星座真的可以判定你的

性格嗎 ——— 037

1.6.1 因果倒置——雞叫導致天明 ——— 037

1.6.2 相關性而非因果關系——吸煙真的

致癌嗎 ——— 038

1.6.3 遺漏X變量——找到背後真實

原因 ——— 040

1.6.4 以偏概全——伯克森悖論 ——— 041

1.6.5 控制數據範圍——神槍手謬誤 ——— 042

1.6.6 時間長度不足——替代終點問題 ——— 043

小結 ——— 043

思考 ——— 044

第2章 從數據中快速發現規律 ——— 045

2.1|直方圖與冪律分佈:為什麽全世界1%的人

掌握著50%的財富 ——— 046

2.1.1 直方圖與柱狀圖 ——— 047

2.1.2 神奇的直方圖 ——— 048

2.1.3 冪律分佈與帕累托法則 ——— 050

小結 ——— 053

思考 ——— 053

2.2|數據分佈:房子應該買貴的還是

買便宜的 ——— 054

2.2.1 正態分佈 ——— 054

2.2.2 拉普拉斯分佈 ——— 057

小結 ——— 059

思考 ——— 060

2.3|散點圖和相關性:如何從大量事實中

快速發現規律 ——— 060

2.3.1 散點圖的歷史 ——— 060

2.3.2 散點圖的製作原則 ——— 061

2.3.3 通過散點圖尋找規律 ——— 063

2.3.4 散點圖的易錯點 ——— 065

小結 ——— 068

思考 ——— 069

2.4|標準差:“靠不靠譜”其實看標準差 ——— 069

2.4.1 標準差 ——— 070

2.4.2 標準差的具體使用 ——— 071

2.4.3 標準誤差 ——— 073

2.4.4 標準誤差的具體使用 ——— 073

小結 ——— 075

思考 ——— 076

2.5|數據抽樣:大數據來了還需要抽樣嗎 ——— 076

2.5.1 小數據抽樣 ——— 076

2.5.2 大數據時代是否還要抽樣 ——— 079

2.5.3 大數據環境下的抽樣算法 ——— 080

小結 ——— 082

思考 ——— 083

2.6|卡方檢驗和P值:不吃晚餐可不可以

減肥 ——— 083

2.6.1 什麽是卡方檢驗 ——— 084

2.6.2 如何進行卡方檢驗 ——— 084

2.6.3 最常見的卡方檢驗套路 ——— 086

2.6.4 卡方檢驗不適用的場景 ——— 088

小結 ——— 089

2.7|精確率與置信區間:兩種預測,究竟應該相信

哪一個 ——— 089

2.7.1 準確率、精確率和召回率 ——— 090

2.7.2 置信區間 ——— 092

2.7.3 取捨的藝術 ——— 093

小結 ——— 094

思考 ——— 094

第3章 深入淺出大數據算法 ——— 095

3.1|趨勢分析與回歸:怎樣才能培育出天才的

下一代 ——— 096

3.1.1 回歸的種類與使用 ——— 096

3.1.2 均值回歸 ——— 100

小結 ——— 102

思考 ——— 103

3.2|初識聚類算法:物以類聚,讓復雜事物

簡單化 ——— 103

3.2.1 聚類問題與場景 ——— 104

3.2.2 聚類算法初探 ——— 105

3.2.3 應用場景的展望 ——— 107

小結 ——— 109

思考 ——— 109

3.3|初識分類算法:分而治之,不斷進化 ——— 110

3.3.1 分類算法的定義與使用場景 ——— 110

3.3.2 分類算法初探 ——— 111

3.3.3 應用場景的展望 ——— 114

小結 ——— 116

思考 ——— 117

3.4|關聯規則:為什麽啤酒和尿布要放在

一起賣 ——— 117

3.4.1 關聯規則的定義和使用場景 ——— 117

3.4.2 關聯規則算法初探 ——— 118

3.4.3 應用場景的展望 ——— 121

小結 ——— 123

思考 ——— 124

3.5|蒙特卡洛算法與拉斯維加斯算法:有限時間內

如何獲得最優解 ——— 124

3.5.1 算法定義和使用場景 ——— 124

3.5.2 蒙特卡洛算法與拉斯維加斯算法

舉例 ——— 126

3.5.3 應用場景的展望 ——— 129

小結 ——— 130

思考 ——— 131

3.6|馬爾可夫鏈:你的未來只取決於你當下

做了什麽 ——— 131

3.6.1 算法定義與使用場景 ——— 131

3.6.2 馬爾可夫鏈舉例 ——— 132

3.6.3 應用場景的展望 ——— 135

小結 ——— 136

思考 ——— 137

3.7|協同過濾:你看到的短視頻都是集體智慧的

結晶 ——— 137

3.7.1 算法定義與使用場景 ——— 137

3.7.2 協同過濾算法初探 ——— 139

3.7.3 協同過濾算法的應用與缺陷 ——— 143

小結 ——— 145

思考 ——— 146

3.8|人工智能算法初探:阿爾法狗是怎樣的

一隻“狗” ——— 146

3.8.1 人工智能算法歷史與深度學習

算法 ——— 146

3.8.2 CNN和RNN ——— 149

3.8.3 深度學習算法使用舉例——

AlphaGo ——— 151

3.8.4 深度學習算法最新案例與未來 ——— 153

小結 ——— 155

思考 ——— 155

第4章 有效地用數據說話 ——— 156

4.1|確定問題:與利益無關的問題都不值得做

數據分析 ——— 157

4.1.1 如何確保數據分析有價值 ——— 157

4.1.2 具體場景 ——— 160

小結 ——— 163

思考 ——— 164

4.2|採集數據:用好一手數據和二手數據 ——— 164

4.2.1 一手數據和二手數據 ——— 164

4.2.2 數據探索 ——— 166

4.2.3 具體示例 ——— 168

小結 ——— 171

思考 ——— 171

4.3|寫好故事線:你能利用數字推翻眾人的

理解嗎 ——— 172

4.3.1 回顧之前的發現 ——— 172

4.3.2 設計故事線 ——— 174

4.3.3 一圖解千愁 ——— 177

小結 ——— 178

思考 ——— 179

4.4|實踐你的理論:數據驅動最終就是用結果

說話 ——— 179

4.4.1 何為精益的方法 ——— 180

4.4.2 創新擴散模型 ——— 180

4.4.3 實戰練習 ——— 183

小結 ——— 185

思考 ——— 186

4.5|數據分析:15種數據思維圖(上) ——— 186

4.5.1 VRIO分析 ——— 186

4.5.2 五力分析 ——— 188

4.5.3 SWOT分析 ——— 189

4.5.4 同理心地圖 ——— 190

4.5.5 4P競爭分析 ——— 191

4.5.6 奧斯本檢驗表 ——— 192

4.5.7 SUCCESs ——— 193

4.5.8 產品組合矩陣 ——— 194

小結 ——— 195

思考 ——— 196

4.6|數據分析:15種數據思維圖(下) ——— 196

4.6.1 商業模式畫布 ——— 196

4.6.2 AIDMA ——— 197

4.6.3 AARRR ——— 198

4.6.4 SMART ——— 199

4.6.5 PDCA ——— 200

4.6.6 RACI ——— 201

4.6.7 Will, Can, Must ——— 202

小結 ——— 203

思考 ——— 203

第5章 如何利用大模型進行數據分析 ——— 204

5.1|大模型的威力 ——— 205

5.1.1 什麽是大模型 ——— 205

5.1.2 大模型能幫我們做什麽 ——— 206

小結 ——— 212

思考 ——— 212

5.2|使用大模型做數據分析 ——— 212

5.2.1 如何讓大模型的回答更專業和

有效 ——— 212

5.2.2 如何使用大模型探查分析數據 ——— 215

小結 ——— 228

思考 ——— 228

5.3|利用大模型生成專業的數據分析報告 ——— 228

5.3.1 確定問題 ——— 229

5.3.2 輔助數據探索 ——— 234

5.3.3 輔助總結討論 ——— 235

小結 ——— 239

思考 ——— 239

5.4|數據分析工具展望 ——— 240

5.4.1 數據存儲與分析引擎——

ClickHouse ——— 240

5.4.2 數據同步工具——

Apache SeaTunnel ——— 243

5.4.3 數據處理與調度平臺——

Apache DolphinScheduler ——— 244

5.4.4 數據展示工具——

Apache.ECharts ——— 246

小結 ——— 247

思考 ——— 248

附錄A A/B測試需要多少個樣本才有效果 ——— 249

附錄B 哈勃定律 ——— 251

附錄C 標準差和標準誤差公式 ——— 252

附錄D 蓄水池算法明細 ——— 253

附錄E 置信區間的計算過程 ——— 254

附錄F 用多邊形推導圓周率 ——— 255

附錄G 文科生也可以看懂的AlphaGo算法 ——— 256

附錄H 數據分析行業個人職業發展方向 ——— 261

附錄I 常用的一些網站和信息渠道 ——— 262

後記 ——— 264