Python爬蟲大數據採集與挖掘(第2版·微課視頻版)
曾劍平
- 出版商: 清華大學
- 出版日期: 2025-01-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 286
- ISBN: 7302678251
- ISBN-13: 9787302678250
-
相關分類:
大數據 Big-data、Web-crawler 網路爬蟲
下單後立即進貨 (約4週~6週)
商品描述
"本書圍繞大數據採集與挖掘,對採集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了系統介紹。書中全面、完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術,並提供了45個與爬蟲技術和應用相關的Python程序。全書共分為四部分,即概述、基礎篇、技術與實現篇、大數據挖掘與應用篇。第一部分 (第1章)是概述,指出利用Python採集因特網大數據的重要性,介紹了相關技術研究、技術體系、 採集技術的合規性及應用現狀等 ,分析了大模型對因特網大數據技術的影響; 第二部分 (第2、3章)是基礎篇,包括Web服務器的應用架構以及HTTP、Robots、HTML、頁面編碼等相關協議和規範; 第三部分 (第4~10章)是技術與實現篇,全面介紹普通網絡爬蟲技術、動態頁面採集方法、主題爬蟲技術、Deep Web爬蟲、微博信息採集、Web信息提取以及反爬蟲技術等,內容涵蓋各種爬蟲技術實現方法及Python實例; 第四部分 (第11、12章)是大數據挖掘與應用篇,介紹 文本、情感、社交網絡和時間序列等典型大數據處理與挖掘技術 及應用模式,並以新聞輿情監測、 Web自動化測試、酒店評論文本挖掘 為例介紹Python爬蟲應用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。 "
目錄大綱
源碼下載
額外贈送的資源
目錄
第一部分概述
第1章大數據採集與挖掘概述
1.1因特網大數據與採集
1.1.1因特網大數據來源
1.1.2因特網大數據的特徵
1.2Python爬蟲大數據採集技術的重要性
1.3爬蟲技術研究及應用現狀
1.4爬蟲技術的應用場景
1.5爬蟲大數據採集與挖掘的技術體系
1.5.1技術體系構成
1.5.2相關技術
1.5.3爬蟲的5個技術特性
1.5.4技術評價方法
1.6爬蟲大數據採集與挖掘的合規性
1.7爬蟲大數據採集與挖掘技術展望
1.7.1爬蟲採集技術展望
1.7.2大模型對因特網大數據技術的影響
思考題
第二部分基礎篇
第2章Web頁面及相關處理技術
2.1HTML規範
2.1.1HTML標簽
2.1.2HTML整體結構
2.1.3CSS簡述
2.1.4常用標簽
2.1.5HTML的版本進化
2.2編碼體系與規範
2.2.1ASCII
2.2.2gb2312/gbk
2.2.3unicode
2.2.4utf8
2.2.5網頁中的編碼和Python處理
2.3Python正則表達式
2.4相關的Python程序基礎
思考題
第3章Web應用架構與協議
3.1常用的Web服務器軟件
3.1.1流行的Web服務器軟件
3.1.2在Python中配置Web服務器
3.2Web服務器的應用架構
3.2.1典型應用架構
3.2.2Web頁面的類型
3.2.3頁面文件的組織方式
3.3Robots協議
3.3.1Robots協議的來歷
3.3.2Robots協議的規範與實現
3.4HTTP
3.4.1HTTP版本的技術特性
3.4.2HTTP報文
3.4.3HTTP頭部
3.4.4HTTP狀態碼
3.4.5HTTPS
3.5狀態保持技術
3.5.1Cookie
3.5.2Session
思考題
第三部分技術與實現篇
第4章普通爬蟲頁面採集技術與Python實現
4.1普通爬蟲的體系架構
4.2Web服務器連接器
4.2.1整體處理過程
4.2.2DNS緩存
4.2.3requests/response的使用方法
4.2.4錯誤和異常的處理
4.3超鏈接及域名提取與過濾
4.3.1超鏈接的類型
4.3.2提取方法
4.3.3遵守Robots協議的友好爬蟲
4.4爬行策略與實現
4.4.1爬行策略及設計方法
4.4.2深度優先策略和寬度優先策略
4.4.3基於PageRank的重要性排序
4.4.4其他策略
4.4.5爬行策略設計的綜合考慮
4.5爬蟲的多線程技術
思考題
第5章動態頁面採集技術與Python實現
5.1動態頁面內容的生成與交互
5.1.1頁面內容的生成方式
5.1.2動態頁面交互的實現
5.2動態頁面採集技術類型
5.3使用帶參數的URL
5.4利用Cookie和Session
5.5使用Ajax——以評論型頁面為例
5.5.1獲取URL地址
5.5.2獲取並發送動態請求參數
5.6模擬瀏覽器——以自動登錄郵箱為例
思考題
第6章Web信息提取與Python實現
6.1Web信息提取任務及要求
6.2Web頁面內容提取的思路
6.2.1DOM樹
6.2.2提取方法
6.3基於HTML結構的內容提取方法
6.3.1html.parser
6.3.2lxml
6.3.3html5lib
6.3.4BeautifulSoup
6.3.5PyQuery
6.4基於統計的Web內容提取方法
6.5基於JSON的Web信息提取
6.6Web信息存儲
思考題
第7章主題爬蟲頁面採集技術與Python實現
7.1主題爬蟲的使用場景
7.2主題爬蟲技術框架
7.3主題及其表示
7.4相關度計算
7.4.1主題相關度計算
7.4.2鏈接相關度估算
7.4.3內容相關度計算
7.5實例: 特定新聞主題的採集
思考題
第8章Deep Web爬蟲與Python實現
8.1相關概念
8.2Deep Web的特徵和採集要求
8.3Deep Web內容獲取技術架構
8.3.1領域本體知識庫
8.3.2尋找表單
8.3.3表單處理
8.3.4結果處理
8.4圖書信息採集
思考題
第9章微博信息採集與Python實現
9.1微博信息採集方法概述
9.2微博開放平臺授權與測試
9.3在Python中調用微博API採集數據
9.3.1流程介紹
9.3.2微博API及使用方法
9.3.3採集微博用戶個人信息
9.3.4採集微博博文
9.3.5微博API的限制
9.4通過爬蟲採集微博信息
9.4.1爬蟲採集微博的方法
9.4.2微博熱搜的採集方法與Python實現
思考題
第10章反爬蟲技術與爬蟲對抗技術
10.1兩種技術的概述
10.2反爬蟲技術
10.2.1爬蟲檢測技術
10.2.2爬蟲阻斷技術
10.3爬蟲對抗技術
思考題
第四部分大數據挖掘與應用篇
第11章因特網大數據處理與挖掘技術
11.1文本預處理
11.1.1詞匯切分
11.1.2停用詞過濾
11.1.3詞形規範化
11.1.4Python開源庫jieba的使用
11.2文本的向量空間模型
11.2.1特徵選擇
11.2.2模型表示
11.2.3使用Python構建向量空間表示
11.3文本的分佈式表示
11.3.1相關方法
11.3.2Doc2Vec
11.4文本分類及實現技術
11.4.1分類技術概要
11.4.2分類器技術
11.4.3新聞分類的Python實現
11.5聚類算法
11.6主題及其實現技術
11.6.1主題的定義
11.6.2基於向量空間的主題構建
11.6.3LDA主題模型
11.6.4LDA主題模型的Python實現
11.7文本情感分析
11.7.1基於機器學習的方法
11.7.2基於規則的方法
11.8社交網絡分析
11.8.1社交網絡表示與可視化
11.8.2社區發現算法與使用
11.8.3分析工具Pajek
11.9時間序列挖掘
11.9.1時間序列及其挖掘任務
11.9.2時間序列預測的思路
11.9.3時間序列預測的例子
11.10大數據可視化技術
11.10.1大數據可視化方法概述
11.10.2Python開源庫的使用
思考題
第12章因特網大數據採集與挖掘技術的應用
12.1常見應用模式
12.2新聞輿情監測
12.2.1目標任務
12.2.2總體思路
12.2.3新聞內容採集與提取
12.2.4新聞分析
12.3Web網站自動化測試
12.3.1目標任務
12.3.2總體思路
12.3.3Python程序設計
12.4酒店評論文本挖掘
12.4.1目標任務
12.4.2總體思路
12.4.3Python程序設計
思考題
附錄A代碼與數據
附錄B相關包索引
附錄C爬蟲框架
參考文獻