大數據採集與預處理(微課版)

宋磊 陳天真 崔敏

  • 出版商: 人民郵電
  • 出版日期: 2024-07-01
  • 定價: $336
  • 售價: 8.5$286
  • 語言: 簡體中文
  • 頁數: 208
  • ISBN: 7115639159
  • ISBN-13: 9787115639158
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • 大數據採集與預處理(微課版)-preview-1
  • 大數據採集與預處理(微課版)-preview-2
大數據採集與預處理(微課版)-preview-1

相關主題

商品描述

本書按照大數據採集與預處理的實現流程,由淺入深地講解大數據採集與預處理的相關技術,以及如何使用不同方式對大數據進行採集與預處理。本書內容系統、全面,可幫助開發人員快速實現大量數據的採集。

本書主要內容包括大數據採集與預處理簡介、PyCharm的安裝與使用、Urllib庫數據採集、Requests庫數據採集、XPath和Beautiful Soup庫數據解析、Scrapy框架數據採集與存儲、Flume和Kafka日誌數據採集以及使用Pandas、Pig、ELK進行數據預處理等。

本書既可作為高職高專院校大數據、人工智能相關專業的教材,也可作為相關技術人員的參考書。

作者簡介

宋磊。电子与信息工程学院专业技术副总管,教授,全国技术能手(经核准后授予)、龙江技术能手,校级教学名师,校级师德先进个人,哈尔滨市“四有”好老师。黑龙江省高职高专计算机类教学指导会员会委员、区块链智能合约开发职业技能等级证书考评员、数据采集职业技能等级证书考评员。从事软件技术专业教学工作18年,主讲《Java项目实战》《Web综合实战》《Java企业级项目开发实战》等多门课程。主讲课程《Java项目实战》2018年评为省级精品在线开放课程,2020年评为省级课程思政示范课。参加黑龙江省教学能力大赛获二等奖2项。指导学生参加全国职业院校技能大赛“物联网技术应用”“区块链技术应用”赛项获二等奖2项,三等奖3项。指导学生参加省级职业院校技能大赛“物联网技术应用”、“云计算技术与应用”、“大数据技术与应用”、“移动应用开发”等赛项获一等奖10余项。参与起草《数据采集》《JAVA应用开发》2项职业技能等级标准。担任44-46届世界技能大赛黑龙江省选拔赛“网站设计与开发”赛项裁判长和命题专家。主持省级区块链技术应用专业教学资源库建设、主持校级新一代信息技术专业群教学资源库建设。荣获黑龙江省一类职业技能大赛物联网技术职业技能大赛个人赛第一名(金牌)、黑龙江省第一届职业技能大赛区块链应用操作金牌,全国第二届职业技能大赛区块链应用操作铜牌。

目錄大綱

目錄 CONTENTS

項目1

初識動態網頁數據採集與

預處理 1

項目導言 1

思維導圖 1

知識目標 1

技能目標 1

素養目標 2

任務1-1 認識數據採集與預處理 2

任務描述 2

素質拓展 2

任務技能 2

技能點1 認識大數據來源 2

技能點2 認識數據採集 5

技能點3 認識數據預處理 10

任務1-2 搭建數據採集與預處理開發

環境 14

任務描述 14

素質拓展 14

任務技能 14

技能點1 認識PyCharm 14

技能點2 下載及安裝PyCharm 15

技能點3 使用PyCharm 18

任務實施 20

項目小結 24

課後習題 24

自我評價 25

項目2

動態網頁數據採集 26

項目導言 26

思維導圖 26

知識目標 26

技能目標 26

素養目標 27

任務2-1 使用Urllib庫完成“新聞

動態”網頁數據採集 27

任務描述 27

素質拓展 27

任務技能 27

技能點1 request模塊 27

技能點2 error模塊 30

技能點3 parse模塊 31

任務實施 32

任務2-2 使用Requests庫完成

“浪潮雲說”網頁數據

採集 36

任務描述 36

素質拓展 37

任務技能 37

技能點1 Requests庫的簡介及

安裝 37

技能點2 Requests庫的基本使用

方法 38

技能點3 Requests庫的高級使用

方法 42

任務實施 45

項目小結 48

課後習題 48

自我評價 49

項目3

動態網頁數據解析 50

項目導言 50

思維導圖 50

知識目標 50

技能目標 50

素養目標 51

任務3-1 使用XPath解析“新聞

動態”網頁數據 51

任務描述 51

素質拓展 51

任務技能 51

技能點1 XPath的簡介 51

技能點2 定位 55

技能點3 數據提取 57

任務實施 58

任務3-2 使用Beautiful Soup

解析“浪潮雲說”網頁

數據 63

任務描述 63

素質拓展 63

任務技能 63

技能點1 Beautiful Soup的安裝 64

技能點2 Beautiful Soup的使用 65

任務實施 68

項目小結 75

課後習題 75

自我評價 76

項目4

基於Scrapy實現動態網頁

數據採集與存儲 77

項目導言 77

思維導圖 77

知識目標 77

技能目標 77

素養目標 78

任務4-1 使用Scrapy框架完成

新聞公告頁面數據採集

與存儲 78

任務描述 78

素質拓展 78

任務技能 78

技能點1 Scrapy的簡介及安裝 78

技能點2 Scrapy的操作指令 82

技能點3 段定義及Scrapy設置 83

技能點4 文本解析 89

技能點5 內容存儲 93

任務實施 95

項目小結 104

課後習題 104

自我評價 105

項目5

動態網頁訪問日誌數據

採集 106

項目導言 106

思維導圖 106

知識目標 106

技能目標 106

素養目標 107

任務5-1 使用Flume採集某官網

訪問日誌數據 107

任務描述 107

素質拓展 107

任務技能 107

技能點1 Flume的簡介 107

技能點2 Flume數據採集配置 110

技能點3 Flume的啟動方法 119

技能點4 Flume攔截器配置 122

任務實施 125

任務5-2 使用Kafka消費Flume中

某官網訪問日誌數據 129

任務描述 129

素質拓展 130

任務技能 130

技能點1 Kafka的簡介 130

技能點2 Kafka的配置 131

技能點3 Kafka腳本操作 134

技能點4 Kafka Python API 137

任務實施 140

項目小結 144

課後習題 144

自我評價 145

項目6

動態網頁數據預處理 146

項目導言 146

思維導圖 146

知識目標 147

技能目標 147

素養目標 147

任務6-1 使用Pandas實現新聞動態

網頁數據預處理 147

任務描述 147

素質拓展 147

任務技能 148

技能點1 Pandas的簡介 148

技能點2 Pandas的數據結構 148

技能點3 Pandas的基本功能 149

技能點4 匯總和描述統計 155

技能點5 處理缺失數據 157

任務實施 158

任務6-2 使用Pig實現“浪潮雲說”

網頁數據預處理 161

任務描述 161

素質拓展 161

任務技能 162

技能點1 Pig的簡介 162

技能點2 Pig配置運行 162

技能點3 Pig Latin執行 165

技能點4 運算符 166

技能點5 內置函數 171

任務實施 177

任務6-3 使用ELK實現某官網日誌

數據預處理 182

任務描述 182

素質拓展 182

任務技能 182

技能點1 Elasticsearch 182

技能點2 Logstash 184

技能點3 Kibana 195

任務實施 200

項目小結 207

課後習題 207

自我評價 208