大數據工程師面試筆試寶典

楊俊薑偉許朋舉

出版商: 機械工業
出版日期: 2024-08-02
售價: $534
貴賓價: 9.5 折 $507
語言: 簡體中文
頁數: 239
裝訂: 平裝
ISBN: 7111753879
ISBN-13: 9787111753872
相關分類: 大數據 Big-data、面試技巧

立即出貨

買這商品的人也買了...

$401

R語言市場研究分析
~~$620~~ $484

Python 機器學習 (上), 3/e (Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 3/e)
~~$520~~ $406

Python 機器學習 (下), 3/e (Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 3/e)
$857

精通 JPA 與 Hibernate：Java 對象持久化技術詳解 (微課視頻版)
$403

Python 商業數據分析：零售和電子商務案例詳解
$658

構建企業級推薦系統：算法、工程實現與案例分析
~~$650~~ $553

Python 資料科學與機器學習：從入門到實作必備攻略 (Hands-On Data Science and Machine Learning with Python)
$607

實用推薦系統
~~$474~~ $450

Power BI 電商數據分析與商業智能, 2/e
~~$534~~ $507

數據運營：數據分析模型撬動新零售實戰
$403

Microsoft Power BI 商業數據分析與案例實戰
$454

大數據分析師面試筆試寶典
~~$780~~ $608

邁向 Linux 工程師之路：Superuser 一定要懂的技術與運用, 3/e (How Linux Works : What Every Superuser Should Know, 3/e)
~~$599~~ $569

Power BI 零售數據分析實戰
~~$414~~ $393

Python入門神器：從程式設計思維和專家視角的有趣高效入門法

商品描述

《大數據工程師面試筆試寶典》全面解釋了大數據的核心技術及如何解答大數據工程師面試筆試中的常見問題，
也引進了相關知識點輔以說明，讓讀者對所學知識進行查漏補缺，幫助讀者順利通過大數據工程師面試筆試。
《大數據工程師面試筆試寶典》的題目皆來自第一線網絡公司面試筆試真題，
涵蓋大數據基礎、大數據生態圈技術組件以及大數據不同職位的面試筆試題。
第1～2章主要介紹了職業道路如何選擇、面試筆試前如何準備、面試筆試過程中如何應對，以及面試經常遇到的「坑」。
第3章介紹了大數據基礎面試筆試題，讓讀者學會運用大數據思維解決常見應用情境；
第4～10章重點介紹了大數據生態圈核心技術的面試筆試題，讓讀者加強對大數據技術組件的理解；
第11～13章介紹了大資料倉儲、大數據專案、大數據運維方向的常見面試筆試題；
第14章探討了大數據與人工智能的交叉點，讓讀者可以輕鬆應付大數據工程師的面試筆試。
《大數據工程師面試筆試寶典》內容的深度和廣度貼近實際，將有助於大數據領域的求職者為面試筆試做好充分的準備，
提升面試成功率，同時，《大數據工程師面試筆試寶典》也可作為實務工作者的實用工具書，以加深對大數據科技與實務的理解。
無論是初學者還是有經驗的專業人士，都將從本書提供的詳實資訊和實用建議中受益。

作者簡介

楊俊，大數據架構師。大數據技術達人， Hadoop源碼級技術專家，擅長Hadoop、Spark、Flink等主流大數據生態技術。具有近10年大數據開發經驗，參與過10餘個重量級大數據項目。曾任廣電數據咨詢公司大數據高級架構師，負責大數據平臺架構設計與實施，並構建企業級數據倉庫。暢銷書《Hadoop大數據技術基礎與應用》作者。51CTO知名培訓講師，擁有20餘萬粉絲，具有豐富的大數據技術培訓經驗，為數十家企業、院校開展過大數據技術課程培訓。

目錄大綱

前言
第1章面試筆試心得交流
1.1 擺正求職心態／1
1.2 求職前準備／2
1.3 做好自我介紹／4
1.4 職涯規劃是什麼／5
1.5 為什麼離開上一家公司／6
1.6 被面試官否定怎麼辦／6
1.7 加分項一定要呈現/7
1.8 面試禁忌／8
1.9 面試會有哪些「坑」／8
1.10 如何面對自己不會回答的問題／9
1.11 如何面對某一次面試失敗／10
1.12 面試成功是否高枕無憂／11
第2章大資料工程師面試筆試攻略
2.1 大數據職業的職位劃分／12
2.2 典型大數據工程師的職涯發展路徑／13
2.3 公司大數據部門劃分與人員編制／15
2.4 大資料工程師的工作職責／16
2.5 大數據工程師簡歷如何寫／17
2.6 缺少大數據專案經驗如何因應／18
2.7 大數據面試筆試需要掌握哪些技能／19
2.8 如何掌握大數據工程師的面試筆試重點／24
2.9 引導面試官提問自己擅長的技術／25
第3章大數據基礎應用
3.1 大數據基礎/27
3.1.1 大數據生態體系／27
3.1.2 大數據基石—雲端運算／29
3.1.3 大數據核心—海量資料／30
3.1.4 大數據靈魂—大數據技術／31
3.1.5 大數據價值—商業應用／32
3.2 大數據演算法／32
3.2.1 如何從海量資料中找出最高頻詞／32
3.2.2 如何找出造訪百度次數最多的IP位址／34
3.2.3 如何從2.5億個整數中找出不重複的整數／36
3.2.4 判斷一個數在40億數據中是否存在／38
3.2.5 如何找出CSDN網站最熱門的搜尋關鍵字／39
3.2.6 如何從大量資料中統計不同手機號碼的數量／41
3.2.7 如何從大量資料中找出重複次數最多的一條資料／42
3.2.8 如何對大量資料依照query的頻度排序／43
3.2.9 如何從大量的URL中找出相同的URL／44
3.2.10 如何從5億個數找出中位數／46
第4章 ZooKeeper分佈式協調服務
4.1 簡述ZooKeeper包含哪些重要特性／48
4.2 簡述ZooKeeper包含哪些應用場景／49
4.3 簡述ZooKeeper包含哪幾種Znode節點類型／51
4.4 請問ZooKeeper對Znode的監聽是永久的嗎／52
4.5 請問ZooKeeper集群包含多少節點合適/52
4.6 簡述ZooKeeper集群節點包含哪些角色／53
4.7 簡述ZooKeeper集群節點有哪幾種工作狀態／54
4.8 請問ZooKeeper節點宕機後內部如何處理／54
4.9 請問ZooKeeper集群是否支援動態添加機器／55
4.10 簡述ZooKeeper集群的資料讀寫流程／56
4.11 簡述ZooKeeper的監聽器原理／57
4.12 談談你對CAP原則的理解／58
4.13 談談ZAB協定在ZooKeeper中的作用／59
4.14 談談你對ZooKeeper選舉機制的理解／60
4.15 闡述ZooKeeper如何確保事務的順序一致性／62
4.16 闡述如何遷移ZooKeeper集群／62
第5章 Hadoop大數據平臺
5.1 Hadoop分佈式檔案系統（HDFS）／64
5.1.1 闡述HDFS中的資料塊大小設定／64
5.1.2 簡述HDFS的副本存放策略／65
5.1.3 闡述如何處理HDFS大量小文件問題／65
5.1.4 簡述NameNode元資料儲存在什麼位置／67
5.1.5 闡述如何解決edits文件過大的問題／67
5.1.6 簡述HDFS讀資料流程／68
5.1.7 簡述HDFS寫入資料流程／69
5.1.8 簡述NameNode HA的運作機制／71
5.1.9 簡述HDFS聯邦機制／71
5.1.10 闡述如何處理NameNode宕機問題／72
5.1.11 闡述如何處理DataNode宕機問題／73
5.1.12 簡述HDFS支援哪些儲存格式與壓縮演算法／73
5.2 Hadoop資源管理系統（YARN）/75
5.2.1 簡述YARN應用的運作機制／75
5.2.2 闡述YARN與MapReduce1的異同／76
5.2.3 簡述YARN 高可用原理／77
5.2.4 簡述YARN的容錯機制／78
5.2.5 簡述YARN調度器的工作原理／79
5.2.6 闡述YARN的任務提交流程／81
5.3 Hadoop分佈式運算框架（MapReduce）／82
5.3.1 簡述MapReduce作業運作機制／82
5.3.2 簡述MapReduce Shuffle過程／85
5.3.3 簡述MapReduce作業失敗與容錯機制／87
5.3.4 闡述如何解決MapReduce資料傾斜問題／89
5.3.5 簡述MapReduce二次排序原理／90
5.3.6 簡述MapReduce Join實現原則／91
第6章 Hive資料倉儲工具
6.1 簡述Hive與傳統數據庫的異同／93
6.2 簡述Hive與HBase的異同／94
6.3 簡述Hive包含哪些建表方式／94
6.4 簡述Hive內部表與外部表的差異／95
6.5 簡述Hive分區表與分桶表的差異／96
6.6 簡述Hive包含哪些表連結方式／97
6.7 簡述collect_list()與collect_set()函數的差異／98
6.8 簡述ORDER BY、DISTRIBUTE BY、SORT BY和
CLUSTER BY的差異與聯繫／99
6.9 談談如何預防Hive查詢全表掃描／100
6.10 簡述Hive包含哪些自訂函數／101
6.11 闡述如何解決Hive資料傾斜問題／101
6.12 闡述Hive有哪些性能調優手段／104
第7章 HBase分佈式數據庫
7.1 簡述HBase的應用場景／106
7.2 簡述HBase讀資料流程／107
7.3 簡述HBase寫資料流程／108
7.4 闡述HBase Region如何定位/109
7.5 簡述HBase Region的合併與分裂過程／110
7.6 闡述HBase如何設計RowKey／112
7.7 闡述HBase如何達成預分區/112
7.8 談談你對HBase二級索引的理解／113
7.9 闡述HBase如何降低磁盤IO／114
7.10 闡述HBase如何處理冷熱資料／117
7.11 簡述HBase有哪些性能調優手段/117
第8章 Kafka分佈式訊息佇列
8.1 簡述ZooKeeper在Kafka中的作用／120
8.2 簡述Kafka文件儲存設計特色／121
8.3 簡述Kafka的使用情境／121
8.4 簡述Kafka寫入資料流程／122
8.5 闡述Kafka為什麼不支持讀寫分離／122
8.6 簡述Kafka哪些地方涉及選舉／123
8.7 簡述Kafka Topic分區的分配規則／123
8.8 談談你對Kafka消費者負載平衡策略的理解／124
8.9 談談你對Kafka再均衡的理解／124
8.10 簡述Kafka生產者ACK機制／125
8.11 闡述Kafka如何實現資料同步／125
8.12 闡述如何提升Kafka吞吐量／126
8.13 闡述如何優化Kafka生產者資料寫入速度／127
8.14 闡述Kafka如何實現高效率讀取資料／127
8.15 闡述Kafka如何確保高吞吐量／128
8.16 闡述Kafka如何確保資料可靠性／128
8.17 闡述Kafka如何確保資料不會遺失／129
8.18 闡述Kafka如何確保訊息冪等性/130
8.19 闡述Kafka如何確保消息被順序消費／130
8.20 闡述Kafka消費者數量較大對表現有何影響／131
第9章 Spark內存計算框架
9.1 談Hadoop與Spark的差異與連結／132
9.2 簡述Spark與MapReduce的Shuffle區別／133
9.3 闡述Spark解決了Hadoop哪些問題／136
9.4 簡述Spark應用程式的生命週期／137
9.5 談談你對RDD機制的理解／140
9.6 簡述RDD包含哪些缺陷／140
9.7 闡述Spark如何劃分DAG的Stage／141
9.8 請問Spark中的資料位置由誰來管理／142
9.9 談reduceByKey與groupByKey的差異與聯繫／143
9.10 談談Cache和Persist的差異與聯繫／143
9.11 闡述如何解決Spark中的資料傾斜問題／144
9.12 闡述如何解決Spark中的OOM問題/145
9.13 闡述Spark Streaming如何保證Exactly-Once語意／146
9.14 闡述Spark Streaming如何性能調優/148
9.15 談談你對Spark Streaming背壓機制的理解／150
第10章 Flink流式計算框架
10.1 談Spark與Flink的差異與連結／151
10.2 簡述Flink有哪些方式設定並行度／156
10.3 闡述如何合理評估Flink任務的平行/157
10.4 談談你對Flink Operator Chain的理解／157
10.5 談談你對Flink重啟策略的理解／158
10.6 闡述Flink內存管理是如何達成的/160
10.7 闡述Flink Task如何實現資料交換／161
10.8 闡述Flink狀態如何實現容錯／162
10.9 簡述Flink分佈式快照原理／164
10.10 闡述Flink如何確保端到端Exactly-Once語意／166
10.11 闡述如何解決Flink任務延遲高的問題／169
10.12 闡述如何處理Flink反壓問題／170
10.13 闡述Flink海量資料如何實現去重/171
10.14 闡述Flink如何處理遲到的資料／172
10.15 闡述如何解決Flink資料傾斜/173
10.16 闡述如何解決Flink Window中的資料傾斜／174
第11章大資料倉儲
11.1 談談你如何理解數據庫三範式/175
11.2 闡述為什麼需要數倉建模／177
11.3 簡述事實表分為哪幾類／178
11.4 簡述維度建模包含哪些常用的模式／178
11.5 簡述維度建模實現過程／180
11.6 談談你對元資料的理解／180
11.7 談談數倉架構如何分層／181
11.8 談談你對離線數倉架構的理解／183
11.9 談談你對Lambda架構的理解／184
11.10 談談你對Kappa架構的理解／185
11.11 闡述字段頻繁變更的數倉架構如何設計／186
11.12 闡述如何實現拉鍊錶/187
11.13 闡述如何查詢連續7日登入的使用者／188
11.14 闡述如何統計註冊用戶的留存數與留存率／190
第12章大數據項目
12.1 談大數據專案組如何分工與協作／193
12.2 談談你在專案中扮演什麼角色／194
12.3 簡述你所在或曾任職公司的大數據集群規模／194
12.4 簡述你所在或曾任職公司的專案資料類型及規模／196
12.5 簡述你所在或曾任職公司的專案所產生的表及資料量／196
12.6 簡述你所在或曾任職公司的大數據專案業務需求／197
12.7 簡述專案整體架構及技術選用／198
12.8 簡述大數據計畫所遇到的困難及解決方案／199
12.9 簡述大數據專案遇到的瓶頸及最佳化方法／202
12.10 簡述大數據專案開發週期及安排／204
第13章大數據維
13.1 請問ZooKeeper節點宕機如何處理／206
13.2 闡述多次修改HDFS副本數如何計算資料總量／207
13.3 闡述如何估算HDFS所需的內存大小/207
13.4 請問DataNode節點宕機如何恢復／208
13.5 請問NameNode節點宕機如何恢復／208
13.6 闡述晚高峰期DataNode節點不穩定如何處理／209
13.7 闡述如何調優才能加速NameNode啟動速度/210
13.8 請問Hadoop出現檔案區塊遺失如何處理／211
13.9 請問文件寫入HDFS是先全部寫入再備份嗎／211
13.10 請問如何查看HDFS目錄下的檔案數量及位置／212
13.11 闡述叢集硬盤損壞後的詳細處理流程／213
13.12 闡述集群擴容後如何處理資料不均衡的現象／214
13.13 闡述維運人員如何避免開發人員誤刪資料／214
13.14 闡述大數據集群如何自動化擴容/215
13.15 闡述如何有效監控大數據集群／216
13.16 闡述如何確保海量資料寫入HBase的及時性／216
13.17 簡述哪些情況會導致HBase Master故障／217
13.18 簡述哪些情況會導致HBase RegionServer故障／218
13.19 闡述Kafka如何選擇適當的分區數量／219
13.20 簡述Kafka分區是否可以增加或減少／220
第14章大數據人工智能
14.1 如何解釋大數據與人工智能之間的關係／221
14.2 闡述資料蒐集的作用以及資料品質對人工智能模型表現的影響／222
14.3 目前流行的大型語言模式如何利用大數據訓練／223
14.4 AIGC、Sora等項目是如何將大數據與人工智能結合的／224
14.5 請解釋什麼是數據驅動的人工智能／225
14.6 介紹一下常用的人工智能開發工具和平臺／225
14.7 闡述AI中的基本概念及其差異與連結／226
14.8 資料預處理在人工智能中的作用是什麼／227
14.9 如何評估人工智能模型的表現／229
14.10 闡述過擬合與欠擬合現像在機器學習中的意義及如何解決／230
14.11 闡述大數據環境中人工智能專案的倫理和隱私問題／231
14.12 闡述資料視覺化的作用並介紹一些常用的工具和技術／232
14.13 闡述什麼是監督學習、無監督學習和半監督學習／233
14.14 談談資料安全的挑戰與解決/234
14.15 如何有效管理和處理大規模的資料集／235
14.16 闡述深度學習的應用及其在大數據環境中的挑戰與解決方案／236
14.17 闡述強化學習的基本原理及其應用情境與優缺點／237
14.18 如何利用大數據和人工智能技術來優化企業的營運與決策／238