大數據分析師面試筆試寶典

猿媛之家組編周炎亮劉誌全楚秦等編著

出版商: 機械工業
出版日期: 2022-09-02
定價: $534
售價: 8.5 折 $454
語言: 簡體中文
頁數: 292
裝訂: 平裝
ISBN: 7111712110
ISBN-13: 9787111712114
相關分類: 大數據 Big-data、Data Science、面試技巧

立即出貨 (庫存 < 4)

買這商品的人也買了...

$454

Kubernetes 源碼剖析
$607

Kubernetes 微服務實戰 (Hands-On Microservices with Kubernetes)
$505

數據庫高效優化 : 架構、規範與 SQL 技巧
~~$534~~ $507

Knative 實戰：基於 Kubernetes 的無服務器架構實踐
~~$620~~ $310

Excel 函數庫最完整職場商業應用王者歸來
~~$690~~ $538

人工智慧大現場 - 實用篇－35天從入門到完成專案
~~$620~~ $490

Power BI 入門大數據視覺化 + 智慧決策 + 雲端分享王者歸來 (全彩印刷)
$297

CKA/CKAD 應試指南 : 從 Docker 到 Kubernetes 完全攻略
~~$890~~ $703

OpenCV 影像創意邁向 AI 視覺王者歸來 (全彩印刷)
~~$1,280~~ $1,011

從 Docker 動手邁入全新 DevOps 時代：最完整 Kubernetes 全書
~~$828~~ $787

雲原生 Kubernetes 全棧架構師實戰
~~$580~~ $458

演算法學習手冊｜寫出更有效率的程式 (Learning Algorithms: A Programmer's Guide to Writing Better Code)
~~$560~~ $392

深入剖析 Kubernetes
$505

自然語言處理的 Python 實踐
$403

深度學習（R語言版）
~~$600~~ $474

LINE 聊天機器人 + AI + 雲端 + 開源 + 程式：輕鬆入門到完整學習
~~$520~~ $364

Object-Oriented Python｜以 GUI 和遊戲程式學物件導向程式設計 (Object-Oriented Python)
~~$1,200~~ $948

深入淺出 Android 開發, 3/e (Head First Android Development : A Learner's Guide to Building Android Apps with Kotlin, 3/e)
~~$720~~ $569

Python 視窗 GUI 設計活用 tkinter 之路 -- 王者歸來, 4/e
~~$500~~ $395

Notion 打造你的高效數位人生 -- 王者歸來
~~$1,080~~ $853

去園區當 ARM 工程師 - 嵌入式 C語言全高度昇華
~~$880~~ $695

高速建立大型桌面應用 - 全新 Electron 框架現在就動手做
~~$580~~ $406

Code That Fits in Your Head｜軟體工程的啟發式方法
~~$630~~ $498

IT 工程師必需！Linux 快速入門實戰手冊 - 從命令列、系統設定到開發環境建置, 實體機、虛擬機、容器化、WSL、雲端平台全適用
~~$720~~ $504

科學方法賺大錢 - Python 進行商品期貨量化交易

商品描述

《大數據分析師面試筆試寶典》旨在幫助讀者瞭解大數據分析師的工作內容、
技能要求、各類常用技術的原理和可能應用的場景。
大數據分析是一個多學科交叉的領域，包含了統計學、計算機科學、運籌學乃至市場營銷學等。
《大數據分析師面試筆試寶典》並沒有介紹大數據分析領域涉及的所有方面，
而是根據當前用人單位對大數據分析師的需求，
選擇了其中較為重要的內容進行解析，將當前大數據分析涉及的熱點技術一網打盡。
閱讀《大數據分析師面試筆試寶典》需要具備一定的數理統計知識基礎和計算機編程背景。
本書盡量不去證明一些在理論界已有的結論，而是用淺顯的語言來解釋複雜的公式，
以便讀者更為輕鬆地掌握全書的知識，從而能夠從容面對面試以及日常工作。

作者簡介

周炎亮
全棧數據分析師，北京化工大學工程管理碩士。
擁有10多年的數據分析經驗，擅長將各種業務問題轉化為可量化的數學模型。
先後在諮詢公司、因特網公司擔任數據分析師，
現在某工業因特網公司擔任高級數據分析經理，致力於解決工業領域的數據分析問題。

劉誌全
博士，暨南大學網絡空間安全學院副研究員、碩士生導師；
近年來共在IEEE TITS、IEEE TDSC、IEEE IOTJ、IEEE TVT等國內外權威期刊/會議發表SCI/EI論文40餘篇，
申請/授權/公告國家發明專利/國外發明專利/PCT專利40餘項。

目錄大綱

第1章面試經驗／1
1.1 大數據分析技能要求／1
1.1.1 數據分析師／1
1.1.2 數據開發工程師／4
1.1.3 數據挖掘工程師／7
1.1.4 職業能力模型／10
1.2 數據分析工作流程／10
1.2.1 組織架構／10
1.2.2 分析流程／11
1.3 數據分析師臨場面試／13
1.3.1 如何準備面試／13
1.3.2 面試問題／16
1.4 本章總結／18
第2章統計學知識／19
2.1 概率知識／19
2.1.1 概率模型之間的關係解析／19
2.1.2 概率相關面試題／25
2.1.3 貝葉斯公式／28
2.2 參數估計／31
2.2.1 點估計／31
2.2.2 區間估計／34
2.3 假設檢驗／41
2.3.1 假設檢驗原理／41
2.3.2 兩類錯誤／43
2.3.3 假設檢驗的常用方法／45
2.4 抽樣技術解析／49
2.4.1 樣本量影響因素分析／50
2.4.2 假設檢驗樣本量計算／52
2.4.3 參數估計樣本量計算／53
2.5 馬爾可夫模型／54
2.5.1 馬爾可夫過程原理／55
2.5.2 馬爾可夫模型計算／55
2.6 隱馬爾可夫模型／57
2.6.1 HMM和三類問題／57
2.6.2 求概率問題／58
2.6.3 預測問題／59
2.6.4 學習問題／60
2.7 EM算法／62
2.7.1 基本思想／62
2.7.2 算法流程／63
2.8 本章總結／63
第3章數據挖掘算法／65
3.1 常用聚類算法／66
3.1.1 Kmeans算法／66
3.1.2 DBSCAN算法／68
3.1.3 聚類算法評估／69
3.2 常用分類算法／74
3.2.1 決策樹／74
3.2.2 樸素貝葉斯／79
3.2.3 KNN／80
3.2.4 SVM／81
3.2.5 邏輯回歸／84
3.2.6 BP神經網絡／88
3.3 集成學習算法／91
3.3.1 Bagging原理／92
3.3.2 隨機森林／93
3.3.3 Boosting原理／95
3.3.4 Adaboost算法／96
3.3.5 Stacking算法／99
3.3.6 分類算法評估／100
3.3.7 分類算法小結／108
3.4 關聯規則算法／108
3.4.1 Apriori／108
3.4.2 Fp_Growth／111
3.4.3 算法評估／112
3.5 數據降維算法／112
3.5.1 降維技術基本理論／112
3.5.2 特徵選擇／113
3.5.3 主成分分析／116
3.5.4 SVD分解／118
3.5.5 降維方法選擇／121
3.6 數據升維方法／121
3.6.1 分箱／121
3.6.2 交互式特徵／123
3.7 推薦算法／124
3.7.1 基於內容推薦／124
3.7.2 基於用戶的協同過濾／125
3.7.3 基於物品的協同過濾／126
3.7.4 SVD推薦原理／127
3.7.5 推薦算法評估／130
3.8 模型優化方法／130
3.8.1 機器學習抽樣／130
3.8.2 相似性度量／134
3.8.3 損失函數／136
3.8.4 過擬合與欠擬合／138
3.8.5 正則化方法／139
3.8.6 剪枝方法／141
3.8.7 模型選擇／144
3.9 本章總結／145
第4章大數據技術解析／147
4.1 數據埋點技術／148
4.1.1 技術原理／148
4.1.2 代碼埋點／149
4.1.3 可視化埋點／149
4.1.4 無埋點技術／150
4.1.5 埋點需求分析／150
4.1.6 選擇部署方式／151
4.2 網絡爬蟲技術／152
4.2.1 聚焦爬蟲工作流程／153
4.2.2 數據解析流程／154
4.2.3 爬行策略／154
4.2.4 網頁更新策略／155
4.3 數據倉庫技術／156
4.3.1 數倉名詞解析／156
4.3.2 數據建模方法／161
4.3.3 數倉建設原則／164
4.3.4 SQL查詢／166
4.3.5 SQL查詢優化／170
4.4 ETL技術／171
4.4.1 數據質量評估／172
4.4.2 ETL流程／173
4.4.3 缺失值處理方法／177
4.4.4 異常值識別方法／179
4.5 Hadoop技術／180
4.5.1 Hadoop核心之HDFS／181
4.5.2 Hadoop核心之MapReduce／184
4.5.3 YARN／190
4.5.4 WordCount源碼／192
4.5.5 MapReduce優化／194
4.6 Spark技術／196
4.6.1 Spark集群運行／196
4.6.2 Spark程序運行／199
4.6.3 Spark RDD／202
4.6.4 Spark存儲／210
4.6.5 Spark 內存管理／216
4.6.6 Spark資源分配／222
4.6.7 Spark Shuffle機制／224
4.6.8 Spark的算子調優／230
4.6.9 數據傾斜問題解析／231
4.7 本章總結／235
第5章數據可視化／237
5.1 圖表類型／237
5.2 繪圖原則／243
5.3 ECharts快速上手／247
5.3.1 ECharts引入／247
5.3.2 準備DOM容器／248
5.3.3 柱狀圖示例／249
5.4 本章總結／249
附錄／250
附錄A 筆面試真題／250