Python爬蟲大數據採集與挖掘（第2版·微課視頻版）

曾劍平

預覽內頁

出版商: 清華大學
出版日期: 2025-01-01
定價: $359
售價: 8.5 折 $305
語言: 簡體中文
頁數: 286
ISBN: 7302678251
ISBN-13: 9787302678250
相關分類: 大數據 Big-data、Web-crawler 網路爬蟲

下單後立即進貨 (約4週~6週)

商品描述

"本書圍繞大數據採集與挖掘，對採集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了系統介紹。書中全面、完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術，並提供了45個與爬蟲技術和應用相關的Python程序。全書共分為四部分，即概述、基礎篇、技術與實現篇、大數據挖掘與應用篇。第一部分（第1章）是概述，指出利用Python採集因特網大數據的重要性，介紹了相關技術研究、技術體系、採集技術的合規性及應用現狀等，分析了大模型對因特網大數據技術的影響；第二部分（第2、3章）是基礎篇，包括Web服務器的應用架構以及HTTP、Robots、HTML、頁面編碼等相關協議和規範；第三部分（第4~10章）是技術與實現篇，全面介紹普通網絡爬蟲技術、動態頁面採集方法、主題爬蟲技術、Deep Web爬蟲、微博信息採集、Web信息提取以及反爬蟲技術等，內容涵蓋各種爬蟲技術實現方法及Python實例；第四部分（第11、12章）是大數據挖掘與應用篇，介紹文本、情感、社交網絡和時間序列等典型大數據處理與挖掘技術及應用模式，並以新聞輿情監測、 Web自動化測試、酒店評論文本挖掘為例介紹Python爬蟲應用構建方法，將本書介紹的一些關鍵技術、模型和工具貫穿在一起。 "

目錄大綱

源碼下載

額外贈送的資源

目錄

第一部分概述

第1章大數據採集與挖掘概述

1.1因特網大數據與採集

1.1.1因特網大數據來源

1.1.2因特網大數據的特徵

1.2Python爬蟲大數據採集技術的重要性

1.3爬蟲技術研究及應用現狀

1.4爬蟲技術的應用場景

1.5爬蟲大數據採集與挖掘的技術體系

1.5.1技術體系構成

1.5.2相關技術

1.5.3爬蟲的5個技術特性

1.5.4技術評價方法

1.6爬蟲大數據採集與挖掘的合規性

1.7爬蟲大數據採集與挖掘技術展望

1.7.1爬蟲採集技術展望

1.7.2大模型對因特網大數據技術的影響

思考題

第二部分基礎篇

第2章Web頁面及相關處理技術

2.1HTML規範

2.1.1HTML標簽

2.1.2HTML整體結構

2.1.3CSS簡述

2.1.4常用標簽

2.1.5HTML的版本進化

2.2編碼體系與規範

2.2.1ASCII

2.2.2gb2312/gbk

2.2.3unicode

2.2.4utf8

2.2.5網頁中的編碼和Python處理

2.3Python正則表達式

2.4相關的Python程序基礎

思考題

第3章Web應用架構與協議

3.1常用的Web服務器軟件

3.1.1流行的Web服務器軟件

3.1.2在Python中配置Web服務器

3.2Web服務器的應用架構

3.2.1典型應用架構

3.2.2Web頁面的類型

3.2.3頁面文件的組織方式

3.3Robots協議

3.3.1Robots協議的來歷

3.3.2Robots協議的規範與實現

3.4HTTP

3.4.1HTTP版本的技術特性

3.4.2HTTP報文

3.4.3HTTP頭部

3.4.4HTTP狀態碼

3.4.5HTTPS

3.5狀態保持技術

3.5.1Cookie

3.5.2Session

思考題

第三部分技術與實現篇

第4章普通爬蟲頁面採集技術與Python實現

4.1普通爬蟲的體系架構

4.2Web服務器連接器

4.2.1整體處理過程

4.2.2DNS緩存

4.2.3requests/response的使用方法

4.2.4錯誤和異常的處理

4.3超鏈接及域名提取與過濾

4.3.1超鏈接的類型

4.3.2提取方法

4.3.3遵守Robots協議的友好爬蟲

4.4爬行策略與實現

4.4.1爬行策略及設計方法

4.4.2深度優先策略和寬度優先策略

4.4.3基於PageRank的重要性排序

4.4.4其他策略

4.4.5爬行策略設計的綜合考慮

4.5爬蟲的多線程技術

思考題

第5章動態頁面採集技術與Python實現

5.1動態頁面內容的生成與交互

5.1.1頁面內容的生成方式

5.1.2動態頁面交互的實現

5.2動態頁面採集技術類型

5.3使用帶參數的URL

5.4利用Cookie和Session

5.5使用Ajax——以評論型頁面為例

5.5.1獲取URL地址

5.5.2獲取並發送動態請求參數

5.6模擬瀏覽器——以自動登錄郵箱為例

思考題

第6章Web信息提取與Python實現

6.1Web信息提取任務及要求

6.2Web頁面內容提取的思路

6.2.1DOM樹

6.2.2提取方法

6.3基於HTML結構的內容提取方法

6.3.1html.parser

6.3.2lxml

6.3.3html5lib

6.3.4BeautifulSoup

6.3.5PyQuery

6.4基於統計的Web內容提取方法

6.5基於JSON的Web信息提取

6.6Web信息存儲

思考題

第7章主題爬蟲頁面採集技術與Python實現

7.1主題爬蟲的使用場景

7.2主題爬蟲技術框架

7.3主題及其表示

7.4相關度計算

7.4.1主題相關度計算

7.4.2鏈接相關度估算

7.4.3內容相關度計算

7.5實例：特定新聞主題的採集

思考題

第8章Deep Web爬蟲與Python實現

8.1相關概念

8.2Deep Web的特徵和採集要求

8.3Deep Web內容獲取技術架構

8.3.1領域本體知識庫

8.3.2尋找表單

8.3.3表單處理

8.3.4結果處理

8.4圖書信息採集

思考題

第9章微博信息採集與Python實現

9.1微博信息採集方法概述

9.2微博開放平臺授權與測試

9.3在Python中調用微博API採集數據

9.3.1流程介紹

9.3.2微博API及使用方法

9.3.3採集微博用戶個人信息

9.3.4採集微博博文

9.3.5微博API的限制

9.4通過爬蟲採集微博信息

9.4.1爬蟲採集微博的方法

9.4.2微博熱搜的採集方法與Python實現

思考題

第10章反爬蟲技術與爬蟲對抗技術

10.1兩種技術的概述

10.2反爬蟲技術

10.2.1爬蟲檢測技術

10.2.2爬蟲阻斷技術

10.3爬蟲對抗技術

思考題

第四部分大數據挖掘與應用篇

第11章因特網大數據處理與挖掘技術

11.1文本預處理

11.1.1詞匯切分

11.1.2停用詞過濾

11.1.3詞形規範化

11.1.4Python開源庫jieba的使用

11.2文本的向量空間模型

11.2.1特徵選擇

11.2.2模型表示

11.2.3使用Python構建向量空間表示

11.3文本的分佈式表示

11.3.1相關方法

11.3.2Doc2Vec

11.4文本分類及實現技術

11.4.1分類技術概要

11.4.2分類器技術

11.4.3新聞分類的Python實現

11.5聚類算法

11.6主題及其實現技術

11.6.1主題的定義

11.6.2基於向量空間的主題構建

11.6.3LDA主題模型

11.6.4LDA主題模型的Python實現

11.7文本情感分析

11.7.1基於機器學習的方法

11.7.2基於規則的方法

11.8社交網絡分析

11.8.1社交網絡表示與可視化

11.8.2社區發現算法與使用

11.8.3分析工具Pajek

11.9時間序列挖掘

11.9.1時間序列及其挖掘任務

11.9.2時間序列預測的思路

11.9.3時間序列預測的例子

11.10大數據可視化技術

11.10.1大數據可視化方法概述

11.10.2Python開源庫的使用

思考題

第12章因特網大數據採集與挖掘技術的應用

12.1常見應用模式

12.2新聞輿情監測

12.2.1目標任務

12.2.2總體思路

12.2.3新聞內容採集與提取

12.2.4新聞分析

12.3Web網站自動化測試

12.3.1目標任務

12.3.2總體思路

12.3.3Python程序設計

12.4酒店評論文本挖掘

12.4.1目標任務

12.4.2總體思路

12.4.3Python程序設計

思考題

附錄A代碼與數據

附錄B相關包索引

附錄C爬蟲框架

參考文獻

Python爬蟲大數據採集與挖掘（第2版·微課視頻版）

曾劍平

商品描述

目錄大綱

類似商品

最後瀏覽商品 (5)