大數據採集與預處理(微課版)
宋磊 陳天真 崔敏
- 出版商: 人民郵電
- 出版日期: 2024-07-01
- 定價: $336
- 售價: 8.5 折 $286
- 語言: 簡體中文
- 頁數: 208
- ISBN: 7115639159
- ISBN-13: 9787115639158
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書按照大數據採集與預處理的實現流程,由淺入深地講解大數據採集與預處理的相關技術,以及如何使用不同方式對大數據進行採集與預處理。本書內容系統、全面,可幫助開發人員快速實現大量數據的採集。
本書主要內容包括大數據採集與預處理簡介、PyCharm的安裝與使用、Urllib庫數據採集、Requests庫數據採集、XPath和Beautiful Soup庫數據解析、Scrapy框架數據採集與存儲、Flume和Kafka日誌數據採集以及使用Pandas、Pig、ELK進行數據預處理等。
本書既可作為高職高專院校大數據、人工智能相關專業的教材,也可作為相關技術人員的參考書。
作者簡介
宋磊。电子与信息工程学院专业技术副总管,教授,全国技术能手(经核准后授予)、龙江技术能手,校级教学名师,校级师德先进个人,哈尔滨市“四有”好老师。黑龙江省高职高专计算机类教学指导会员会委员、区块链智能合约开发职业技能等级证书考评员、数据采集职业技能等级证书考评员。从事软件技术专业教学工作18年,主讲《Java项目实战》《Web综合实战》《Java企业级项目开发实战》等多门课程。主讲课程《Java项目实战》2018年评为省级精品在线开放课程,2020年评为省级课程思政示范课。参加黑龙江省教学能力大赛获二等奖2项。指导学生参加全国职业院校技能大赛“物联网技术应用”“区块链技术应用”赛项获二等奖2项,三等奖3项。指导学生参加省级职业院校技能大赛“物联网技术应用”、“云计算技术与应用”、“大数据技术与应用”、“移动应用开发”等赛项获一等奖10余项。参与起草《数据采集》《JAVA应用开发》2项职业技能等级标准。担任44-46届世界技能大赛黑龙江省选拔赛“网站设计与开发”赛项裁判长和命题专家。主持省级区块链技术应用专业教学资源库建设、主持校级新一代信息技术专业群教学资源库建设。荣获黑龙江省一类职业技能大赛物联网技术职业技能大赛个人赛第一名(金牌)、黑龙江省第一届职业技能大赛区块链应用操作金牌,全国第二届职业技能大赛区块链应用操作铜牌。
目錄大綱
目錄 CONTENTS
項目1
初識動態網頁數據採集與
預處理 1
項目導言 1
思維導圖 1
知識目標 1
技能目標 1
素養目標 2
任務1-1 認識數據採集與預處理 2
任務描述 2
素質拓展 2
任務技能 2
技能點1 認識大數據來源 2
技能點2 認識數據採集 5
技能點3 認識數據預處理 10
任務1-2 搭建數據採集與預處理開發
環境 14
任務描述 14
素質拓展 14
任務技能 14
技能點1 認識PyCharm 14
技能點2 下載及安裝PyCharm 15
技能點3 使用PyCharm 18
任務實施 20
項目小結 24
課後習題 24
自我評價 25
項目2
動態網頁數據採集 26
項目導言 26
思維導圖 26
知識目標 26
技能目標 26
素養目標 27
任務2-1 使用Urllib庫完成“新聞
動態”網頁數據採集 27
任務描述 27
素質拓展 27
任務技能 27
技能點1 request模塊 27
技能點2 error模塊 30
技能點3 parse模塊 31
任務實施 32
任務2-2 使用Requests庫完成
“浪潮雲說”網頁數據
採集 36
任務描述 36
素質拓展 37
任務技能 37
技能點1 Requests庫的簡介及
安裝 37
技能點2 Requests庫的基本使用
方法 38
技能點3 Requests庫的高級使用
方法 42
任務實施 45
項目小結 48
課後習題 48
自我評價 49
項目3
動態網頁數據解析 50
項目導言 50
思維導圖 50
知識目標 50
技能目標 50
素養目標 51
任務3-1 使用XPath解析“新聞
動態”網頁數據 51
任務描述 51
素質拓展 51
任務技能 51
技能點1 XPath的簡介 51
技能點2 定位 55
技能點3 數據提取 57
任務實施 58
任務3-2 使用Beautiful Soup
解析“浪潮雲說”網頁
數據 63
任務描述 63
素質拓展 63
任務技能 63
技能點1 Beautiful Soup的安裝 64
技能點2 Beautiful Soup的使用 65
任務實施 68
項目小結 75
課後習題 75
自我評價 76
項目4
基於Scrapy實現動態網頁
數據採集與存儲 77
項目導言 77
思維導圖 77
知識目標 77
技能目標 77
素養目標 78
任務4-1 使用Scrapy框架完成
新聞公告頁面數據採集
與存儲 78
任務描述 78
素質拓展 78
任務技能 78
技能點1 Scrapy的簡介及安裝 78
技能點2 Scrapy的操作指令 82
技能點3 段定義及Scrapy設置 83
技能點4 文本解析 89
技能點5 內容存儲 93
任務實施 95
項目小結 104
課後習題 104
自我評價 105
項目5
動態網頁訪問日誌數據
採集 106
項目導言 106
思維導圖 106
知識目標 106
技能目標 106
素養目標 107
任務5-1 使用Flume採集某官網
訪問日誌數據 107
任務描述 107
素質拓展 107
任務技能 107
技能點1 Flume的簡介 107
技能點2 Flume數據採集配置 110
技能點3 Flume的啟動方法 119
技能點4 Flume攔截器配置 122
任務實施 125
任務5-2 使用Kafka消費Flume中
某官網訪問日誌數據 129
任務描述 129
素質拓展 130
任務技能 130
技能點1 Kafka的簡介 130
技能點2 Kafka的配置 131
技能點3 Kafka腳本操作 134
技能點4 Kafka Python API 137
任務實施 140
項目小結 144
課後習題 144
自我評價 145
項目6
動態網頁數據預處理 146
項目導言 146
思維導圖 146
知識目標 147
技能目標 147
素養目標 147
任務6-1 使用Pandas實現新聞動態
網頁數據預處理 147
任務描述 147
素質拓展 147
任務技能 148
技能點1 Pandas的簡介 148
技能點2 Pandas的數據結構 148
技能點3 Pandas的基本功能 149
技能點4 匯總和描述統計 155
技能點5 處理缺失數據 157
任務實施 158
任務6-2 使用Pig實現“浪潮雲說”
網頁數據預處理 161
任務描述 161
素質拓展 161
任務技能 162
技能點1 Pig的簡介 162
技能點2 Pig配置運行 162
技能點3 Pig Latin執行 165
技能點4 運算符 166
技能點5 內置函數 171
任務實施 177
任務6-3 使用ELK實現某官網日誌
數據預處理 182
任務描述 182
素質拓展 182
任務技能 182
技能點1 Elasticsearch 182
技能點2 Logstash 184
技能點3 Kibana 195
任務實施 200
項目小結 207
課後習題 207
自我評價 208