數據分析思維通識課 帶你看透數據真相
郭煒 周瑤
- 出版商: 人民郵電
- 出版日期: 2025-01-01
- 定價: $539
- 售價: 8.5 折 $458
- 語言: 簡體中文
- 頁數: 266
- ISBN: 7115655111
- ISBN-13: 9787115655110
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
相關主題
商品描述
數據分析的智慧其實就潛藏在我們的日常生活與職業生涯中,它無處不在。設想當你
審視報告中的數字時,是否洞悉了那些數字背後隱藏的故事?它們的增長或減少,又向我們透露了怎樣的信息?購房選址的策略,購車時機的選擇,這些看似尋常的決策,實則都能在數據的指引下變得更為明智。本書巧妙地從糾正基本的數據認知誤區啟程,逐步深入至統計學的奧秘、人工智能的前沿,並巧妙融合數據敘事與思維工具的運用,旨在將抽象的數據理論轉化為生活中觸手可及、工作中行之有效的智慧寶典,讓“冷冰冰”的數據知識躍然成為解決實際問題的“金鑰匙”。
本書面向的讀者群廣泛,它適合具有數據分析需求的技術高管、首席數據官、數據分析師、產品經理,以及軟件研發人員和運營人員閱讀,同時也適合作為高等院校相關課程
的參考書,可為學生提供一扇深入瞭解數據分析世界的窗,助力他們在未來的職業道路上穩健前行。
作者簡介
郭煒,畢業於北京大學,白鯨開源CEO,Apache軟件基金會成員,曾擔任IBM和Teradata資深數據架構師、聯想研究院大數據總監、萬達電商數據部總經理、易觀CTO。他堅信“數據是有靈魂的”,並以此為座右銘,投身大數據、算法、大模型、數據分析行業20餘年。他是DataOps數據分析領域專家,推動了ClickHouse、Apache DolphinScheduler、Apache SeaTunnel等大數據開源項目在中國的發展,連續多年擔任ApacheCon Asia DataOps論壇主席,頻繁亮相國際數據技術峰會。他榮獲2024中國因特網發展創新與投資大賽一等獎、2023大數據產業年度趨勢人物獎、虎嘯中國數字營銷十年傑出數字技術人物獎、2021中國開源優秀人物等獎項,為中國數據領域的發展做出了卓越貢獻。
目錄大綱
目錄
第0章 數據思維 ——— 001
0.1|數據洞察萬物規律 ——— 002
0.2|數據背後的規律是算法 ——— 003
0.3|對數據最重要的是分析和表達 ——— 004
小結 ——— 005
思考 ——— 005
第1章 瞭解數據背後的真相 ——— 006
1.1|平均值:不要被平均值騙了,它不能
代表整體水平 ——— 007
1.1.1 平均值在什麽情況下才有價值 ——— 007
1.1.2 分組結論和整體平均值不是
一回事 ——— 009
1.1.3 辛普森悖論的啟示 ——— 010
小結 ——— 012
思考 ——— 012
1.2|大數定律與小數陷阱:生活是隨機的
還是有定數的 ——— 013
1.2.1 什麽是大數定律 ——— 013
1.2.2 什麽是小數陷阱 ——— 015
1.2.3 大數定律和小數陷阱給我們的
啟示 ——— 016
小結 ——— 017
思考 ——— 018
1.3|數據的期望值:為什麽你坐的飛機總是
晚點 ——— 018
1.3.1 墨菲的一個玩笑 ——— 018
1.3.2 背後的數學原理 ——— 019
1.3.3 解釋墨菲定律. ——— 020
1.3.4 如何規避墨菲定律 ——— 022
小結 ——— 023
思考 ——— 023
1.4|隨機對照試驗:章魚保羅真的是
“預言帝”嗎 ——— 024
1.4.1 你認為的隨機其實都是“偽隨機” ——— 024
1.4.2 隨機對照試驗幫助你去偽存真 ——— 025
1.4.3 幸存者偏差並不是隨機對照試驗 ——— 027
小結 ——— 029
思考 ——— 030
1.5|指數和KPI:智商是怎麽計算出來的 ——— 030
1.5.1 簡單的指數:上證指數 ——— 031
1.5.2 較復雜的指數:用戶忠誠度指數 ——— 032
1.5.3 復雜的指數:智商 ——— 033
小結 ——— 036
思考 ——— 036
1.6|因果陷阱:星座真的可以判定你的
性格嗎 ——— 037
1.6.1 因果倒置——雞叫導致天明 ——— 037
1.6.2 相關性而非因果關系——吸煙真的
致癌嗎 ——— 038
1.6.3 遺漏X變量——找到背後真實
原因 ——— 040
1.6.4 以偏概全——伯克森悖論 ——— 041
1.6.5 控制數據範圍——神槍手謬誤 ——— 042
1.6.6 時間長度不足——替代終點問題 ——— 043
小結 ——— 043
思考 ——— 044
第2章 從數據中快速發現規律 ——— 045
2.1|直方圖與冪律分佈:為什麽全世界1%的人
掌握著50%的財富 ——— 046
2.1.1 直方圖與柱狀圖 ——— 047
2.1.2 神奇的直方圖 ——— 048
2.1.3 冪律分佈與帕累托法則 ——— 050
小結 ——— 053
思考 ——— 053
2.2|數據分佈:房子應該買貴的還是
買便宜的 ——— 054
2.2.1 正態分佈 ——— 054
2.2.2 拉普拉斯分佈 ——— 057
小結 ——— 059
思考 ——— 060
2.3|散點圖和相關性:如何從大量事實中
快速發現規律 ——— 060
2.3.1 散點圖的歷史 ——— 060
2.3.2 散點圖的製作原則 ——— 061
2.3.3 通過散點圖尋找規律 ——— 063
2.3.4 散點圖的易錯點 ——— 065
小結 ——— 068
思考 ——— 069
2.4|標準差:“靠不靠譜”其實看標準差 ——— 069
2.4.1 標準差 ——— 070
2.4.2 標準差的具體使用 ——— 071
2.4.3 標準誤差 ——— 073
2.4.4 標準誤差的具體使用 ——— 073
小結 ——— 075
思考 ——— 076
2.5|數據抽樣:大數據來了還需要抽樣嗎 ——— 076
2.5.1 小數據抽樣 ——— 076
2.5.2 大數據時代是否還要抽樣 ——— 079
2.5.3 大數據環境下的抽樣算法 ——— 080
小結 ——— 082
思考 ——— 083
2.6|卡方檢驗和P值:不吃晚餐可不可以
減肥 ——— 083
2.6.1 什麽是卡方檢驗 ——— 084
2.6.2 如何進行卡方檢驗 ——— 084
2.6.3 最常見的卡方檢驗套路 ——— 086
2.6.4 卡方檢驗不適用的場景 ——— 088
小結 ——— 089
2.7|精確率與置信區間:兩種預測,究竟應該相信
哪一個 ——— 089
2.7.1 準確率、精確率和召回率 ——— 090
2.7.2 置信區間 ——— 092
2.7.3 取捨的藝術 ——— 093
小結 ——— 094
思考 ——— 094
第3章 深入淺出大數據算法 ——— 095
3.1|趨勢分析與回歸:怎樣才能培育出天才的
下一代 ——— 096
3.1.1 回歸的種類與使用 ——— 096
3.1.2 均值回歸 ——— 100
小結 ——— 102
思考 ——— 103
3.2|初識聚類算法:物以類聚,讓復雜事物
簡單化 ——— 103
3.2.1 聚類問題與場景 ——— 104
3.2.2 聚類算法初探 ——— 105
3.2.3 應用場景的展望 ——— 107
小結 ——— 109
思考 ——— 109
3.3|初識分類算法:分而治之,不斷進化 ——— 110
3.3.1 分類算法的定義與使用場景 ——— 110
3.3.2 分類算法初探 ——— 111
3.3.3 應用場景的展望 ——— 114
小結 ——— 116
思考 ——— 117
3.4|關聯規則:為什麽啤酒和尿布要放在
一起賣 ——— 117
3.4.1 關聯規則的定義和使用場景 ——— 117
3.4.2 關聯規則算法初探 ——— 118
3.4.3 應用場景的展望 ——— 121
小結 ——— 123
思考 ——— 124
3.5|蒙特卡洛算法與拉斯維加斯算法:有限時間內
如何獲得最優解 ——— 124
3.5.1 算法定義和使用場景 ——— 124
3.5.2 蒙特卡洛算法與拉斯維加斯算法
舉例 ——— 126
3.5.3 應用場景的展望 ——— 129
小結 ——— 130
思考 ——— 131
3.6|馬爾可夫鏈:你的未來只取決於你當下
做了什麽 ——— 131
3.6.1 算法定義與使用場景 ——— 131
3.6.2 馬爾可夫鏈舉例 ——— 132
3.6.3 應用場景的展望 ——— 135
小結 ——— 136
思考 ——— 137
3.7|協同過濾:你看到的短視頻都是集體智慧的
結晶 ——— 137
3.7.1 算法定義與使用場景 ——— 137
3.7.2 協同過濾算法初探 ——— 139
3.7.3 協同過濾算法的應用與缺陷 ——— 143
小結 ——— 145
思考 ——— 146
3.8|人工智能算法初探:阿爾法狗是怎樣的
一隻“狗” ——— 146
3.8.1 人工智能算法歷史與深度學習
算法 ——— 146
3.8.2 CNN和RNN ——— 149
3.8.3 深度學習算法使用舉例——
AlphaGo ——— 151
3.8.4 深度學習算法最新案例與未來 ——— 153
小結 ——— 155
思考 ——— 155
第4章 有效地用數據說話 ——— 156
4.1|確定問題:與利益無關的問題都不值得做
數據分析 ——— 157
4.1.1 如何確保數據分析有價值 ——— 157
4.1.2 具體場景 ——— 160
小結 ——— 163
思考 ——— 164
4.2|採集數據:用好一手數據和二手數據 ——— 164
4.2.1 一手數據和二手數據 ——— 164
4.2.2 數據探索 ——— 166
4.2.3 具體示例 ——— 168
小結 ——— 171
思考 ——— 171
4.3|寫好故事線:你能利用數字推翻眾人的
理解嗎 ——— 172
4.3.1 回顧之前的發現 ——— 172
4.3.2 設計故事線 ——— 174
4.3.3 一圖解千愁 ——— 177
小結 ——— 178
思考 ——— 179
4.4|實踐你的理論:數據驅動最終就是用結果
說話 ——— 179
4.4.1 何為精益的方法 ——— 180
4.4.2 創新擴散模型 ——— 180
4.4.3 實戰練習 ——— 183
小結 ——— 185
思考 ——— 186
4.5|數據分析:15種數據思維圖(上) ——— 186
4.5.1 VRIO分析 ——— 186
4.5.2 五力分析 ——— 188
4.5.3 SWOT分析 ——— 189
4.5.4 同理心地圖 ——— 190
4.5.5 4P競爭分析 ——— 191
4.5.6 奧斯本檢驗表 ——— 192
4.5.7 SUCCESs ——— 193
4.5.8 產品組合矩陣 ——— 194
小結 ——— 195
思考 ——— 196
4.6|數據分析:15種數據思維圖(下) ——— 196
4.6.1 商業模式畫布 ——— 196
4.6.2 AIDMA ——— 197
4.6.3 AARRR ——— 198
4.6.4 SMART ——— 199
4.6.5 PDCA ——— 200
4.6.6 RACI ——— 201
4.6.7 Will, Can, Must ——— 202
小結 ——— 203
思考 ——— 203
第5章 如何利用大模型進行數據分析 ——— 204
5.1|大模型的威力 ——— 205
5.1.1 什麽是大模型 ——— 205
5.1.2 大模型能幫我們做什麽 ——— 206
小結 ——— 212
思考 ——— 212
5.2|使用大模型做數據分析 ——— 212
5.2.1 如何讓大模型的回答更專業和
有效 ——— 212
5.2.2 如何使用大模型探查分析數據 ——— 215
小結 ——— 228
思考 ——— 228
5.3|利用大模型生成專業的數據分析報告 ——— 228
5.3.1 確定問題 ——— 229
5.3.2 輔助數據探索 ——— 234
5.3.3 輔助總結討論 ——— 235
小結 ——— 239
思考 ——— 239
5.4|數據分析工具展望 ——— 240
5.4.1 數據存儲與分析引擎——
ClickHouse ——— 240
5.4.2 數據同步工具——
Apache SeaTunnel ——— 243
5.4.3 數據處理與調度平臺——
Apache DolphinScheduler ——— 244
5.4.4 數據展示工具——
Apache.ECharts ——— 246
小結 ——— 247
思考 ——— 248
附錄A A/B測試需要多少個樣本才有效果 ——— 249
附錄B 哈勃定律 ——— 251
附錄C 標準差和標準誤差公式 ——— 252
附錄D 蓄水池算法明細 ——— 253
附錄E 置信區間的計算過程 ——— 254
附錄F 用多邊形推導圓周率 ——— 255
附錄G 文科生也可以看懂的AlphaGo算法 ——— 256
附錄H 數據分析行業個人職業發展方向 ——— 261
附錄I 常用的一些網站和信息渠道 ——— 262
後記 ——— 264