大數據採集與預處理(微課版)

宋磊 陳天真 崔敏

  • 出版商: 人民郵電
  • 出版日期: 2024-07-01
  • 定價: $336
  • 售價: 8.5$286
  • 語言: 簡體中文
  • 頁數: 208
  • ISBN: 7115639159
  • ISBN-13: 9787115639158
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • 大數據採集與預處理(微課版)-preview-1
  • 大數據採集與預處理(微課版)-preview-2
大數據採集與預處理(微課版)-preview-1

商品描述

本書按照大數據採集與預處理的實現流程,由淺入深地講解大數據採集與預處理的相關技術,以及如何使用不同方式對大數據進行採集與預處理。本書內容系統、全面,可幫助開發人員快速實現大量數據的採集。

本書主要內容包括大數據採集與預處理簡介、PyCharm的安裝與使用、Urllib庫數據採集、Requests庫數據採集、XPath和Beautiful Soup庫數據解析、Scrapy框架數據採集與存儲、Flume和Kafka日誌數據採集以及使用Pandas、Pig、ELK進行數據預處理等。

本書既可作為高職高專院校大數據、人工智能相關專業的教材,也可作為相關技術人員的參考書。

作者簡介

宋磊。電子與信息工程學院專業技術副總管,教授,全國技術能手(經核準後授予)、龍江技術能手,校級教學名師,校級師德先進個人,哈爾濱市“四有”好老師。黑龍江省高職高專電腦類教學指導會員會委員、區塊鏈智能合約開發職業技能等級證書考評員、數據採集職業技能等級證書考評員。從事軟件技術專業教學工作18年,主講《Java項目實戰》《Web綜合實戰》《Java企業級項目開發實戰》等多門課程。主講課程《Java項目實戰》2018年評為省級精品在線開放課程,2020年評為省級課程思政示範課。參加黑龍江省教學能力大賽獲二等獎2項。指導學生參加全國職業院校技能大賽“物聯網技術應用”“區塊鏈技術應用”賽項獲二等獎2項,三等獎3項。指導學生參加省級職業院校技能大賽“物聯網技術應用”、“雲計算技術與應用”、“大數據技術與應用”、“移動應用開發”等賽項獲一等獎10餘項。參與起草《數據採集》《JAVA應用開發》2項職業技能等級標準。擔任44-46屆世界技能大賽黑龍江省選拔賽“網站設計與開發”賽項裁判長和命題專家。主持省級區塊鏈技術應用專業教學資源庫建設、主持校級新一代信息技術專業群教學資源庫建設。榮獲黑龍江省一類職業技能大賽物聯網技術職業技能大賽個人賽第一名(金牌)、黑龍江省第一屆職業技能大賽區塊鏈應用操作金牌,全國第二屆職業技能大賽區塊鏈應用操作銅牌。

目錄大綱

目錄 CONTENTS

項目1

初識動態網頁數據採集與

預處理 1

項目導言 1

思維導圖 1

知識目標 1

技能目標 1

素養目標 2

任務1-1 認識數據採集與預處理 2

任務描述 2

素質拓展 2

任務技能 2

技能點1 認識大數據來源 2

技能點2 認識數據採集 5

技能點3 認識數據預處理 10

任務1-2 搭建數據採集與預處理開發

環境 14

任務描述 14

素質拓展 14

任務技能 14

技能點1 認識PyCharm 14

技能點2 下載及安裝PyCharm 15

技能點3 使用PyCharm 18

任務實施 20

項目小結 24

課後習題 24

自我評價 25

項目2

動態網頁數據採集 26

項目導言 26

思維導圖 26

知識目標 26

技能目標 26

素養目標 27

任務2-1 使用Urllib庫完成“新聞

動態”網頁數據採集 27

任務描述 27

素質拓展 27

任務技能 27

技能點1 request模塊 27

技能點2 error模塊 30

技能點3 parse模塊 31

任務實施 32

任務2-2 使用Requests庫完成

“浪潮雲說”網頁數據

採集 36

任務描述 36

素質拓展 37

任務技能 37

技能點1 Requests庫的簡介及

安裝 37

技能點2 Requests庫的基本使用

方法 38

技能點3 Requests庫的高級使用

方法 42

任務實施 45

項目小結 48

課後習題 48

自我評價 49

項目3

動態網頁數據解析 50

項目導言 50

思維導圖 50

知識目標 50

技能目標 50

素養目標 51

任務3-1 使用XPath解析“新聞

動態”網頁數據 51

任務描述 51

素質拓展 51

任務技能 51

技能點1 XPath的簡介 51

技能點2 定位 55

技能點3 數據提取 57

任務實施 58

任務3-2 使用Beautiful Soup

解析“浪潮雲說”網頁

數據 63

任務描述 63

素質拓展 63

任務技能 63

技能點1 Beautiful Soup的安裝 64

技能點2 Beautiful Soup的使用 65

任務實施 68

項目小結 75

課後習題 75

自我評價 76

項目4

基於Scrapy實現動態網頁

數據採集與存儲 77

項目導言 77

思維導圖 77

知識目標 77

技能目標 77

素養目標 78

任務4-1 使用Scrapy框架完成

新聞公告頁面數據採集

與存儲 78

任務描述 78

素質拓展 78

任務技能 78

技能點1 Scrapy的簡介及安裝 78

技能點2 Scrapy的操作指令 82

技能點3 段定義及Scrapy設置 83

技能點4 文本解析 89

技能點5 內容存儲 93

任務實施 95

項目小結 104

課後習題 104

自我評價 105

項目5

動態網頁訪問日誌數據

採集 106

項目導言 106

思維導圖 106

知識目標 106

技能目標 106

素養目標 107

任務5-1 使用Flume採集某官網

訪問日誌數據 107

任務描述 107

素質拓展 107

任務技能 107

技能點1 Flume的簡介 107

技能點2 Flume數據採集配置 110

技能點3 Flume的啟動方法 119

技能點4 Flume攔截器配置 122

任務實施 125

任務5-2 使用Kafka消費Flume中

某官網訪問日誌數據 129

任務描述 129

素質拓展 130

任務技能 130

技能點1 Kafka的簡介 130

技能點2 Kafka的配置 131

技能點3 Kafka腳本操作 134

技能點4 Kafka Python API 137

任務實施 140

項目小結 144

課後習題 144

自我評價 145

項目6

動態網頁數據預處理 146

項目導言 146

思維導圖 146

知識目標 147

技能目標 147

素養目標 147

任務6-1 使用Pandas實現新聞動態

網頁數據預處理 147

任務描述 147

素質拓展 147

任務技能 148

技能點1 Pandas的簡介 148

技能點2 Pandas的數據結構 148

技能點3 Pandas的基本功能 149

技能點4 匯總和描述統計 155

技能點5 處理缺失數據 157

任務實施 158

任務6-2 使用Pig實現“浪潮雲說”

網頁數據預處理 161

任務描述 161

素質拓展 161

任務技能 162

技能點1 Pig的簡介 162

技能點2 Pig配置運行 162

技能點3 Pig Latin執行 165

技能點4 運算符 166

技能點5 內置函數 171

任務實施 177

任務6-3 使用ELK實現某官網日誌

數據預處理 182

任務描述 182

素質拓展 182

任務技能 182

技能點1 Elasticsearch 182

技能點2 Logstash 184

技能點3 Kibana 195

任務實施 200

項目小結 207

課後習題 207

自我評價 208