Python 網絡爬蟲框架 Scrapy 從入門到精通
張穎 著
- 出版商: 北京大學
- 出版日期: 2021-04-01
- 定價: $474
- 售價: 7.9 折 $374
- 語言: 簡體中文
- 頁數: 292
- 裝訂: 平裝
- ISBN: 7301320221
- ISBN-13: 9787301320228
-
相關分類:
Web-crawler 網路爬蟲
立即出貨 (庫存 < 4)
買這商品的人也買了...
相關主題
商品描述
本書從Python主流框架Scrapy的簡介及網絡爬蟲知識講起,逐步深入到Scrapy進階實戰。
本書從實戰出發,根據不同需求,有針對性地講解了靜態網頁、動態網頁、App應用是如何爬取所需數據,
以及Scrapy是如何部署分佈式爬取,最後還介紹了用Scrapy + Pandas是如何進行數據分析及數據展示,
讓讀者不但可以系統地學習Scrapy編程的相關知識,而且還能對Scrapy應用開發有更為深入的理解。
本書分為12章,涵蓋的主要內容有Scrapy框架簡介;
Scrapy網絡爬蟲知識介紹;Scrapy開發環境的搭建;Scrapy架構及編程;Scrapy進階;實戰項目:
Scrapy靜態網頁的爬取;實戰項目:Scrapy動態網頁的爬取;實戰項目:Scrapy爬取App應用數據;
Scrapy的分佈式部署與爬取;分佈式的實戰項目;用Selenium框架測試網站;用Scrapy + Pandas進行數據分析。
本書內容通俗易懂,實例典型,實用性強,特別適合學習Python主流框架Scrapy的入門讀者和進階讀者閱讀,
也適合數據分析與挖掘技術的初學者閱讀,還適合相關培訓機構的師生閱讀。
作者簡介
張穎
“清穎設計”微信公眾號創始人,現任上海懂得網絡科技有限公司技術部主管,從事編程開發十餘年,
熟悉Python的方方面面,尤其擅長Python爬蟲和數據分析。
目錄大綱
第1章Scrapy框架簡介
1.1 Scrapy簡介2
1.2 關於本書:目標和用途2
1.3 進行自動化數據爬取的重要性3
1.4 掌握自動化測試的重要性3
1.5 合理規劃,開發高質量的應用4
1.6 網絡數據的採集法律與道德約束5
1.7 本章小結5
第2章Scrapy網絡爬蟲知識介紹
2.1 爬蟲的作用7
2.2 爬蟲必備的前端知識9
2.3 爬蟲經常用的Python語法26
2.4 本章小結44
第3章Scrapy開發環境的搭建
3.1 安裝Python 47
3.2 數據庫的安裝50
3.3 安裝Scrapy 56
3.4 本章小結60
第4章Scrapy架構及編程
4.1 Scrapy架構及目錄源碼分析62
4.2 Scrapy項目的創建和管理67
4.3 PyCharm如何調試Scrapy 72
4.4 Scrapy的組件77
4.5 Scrapy的數據流78
4.6 數據存儲78
4.7 Scrapy如何定義中間件80
4.8 Scrapy其他方法的使用82
4.9 本章小結83
第5章Scrapy進階
5.1 理解Scrapy性能85
5.2 編寫Spider的邏輯93
5.3 Item和Pipeline 95
5.4 數據庫存儲98
5.5 Scrapy集成隨機User-Agent和代理IP 100
5.6 突破反爬技術102
5.7 圖片和文件下載103
5.8 如何部署爬蟲108
5.9 計劃定時爬取111
5.10 本章小結112
第6章實戰項目:Scrapy靜態網頁的爬取
6.1 採集需求及網頁分析114
6.2 數據表的設計115
6.3 獲取和解析列表、詳情頁115
6.4 數據存儲117
6.5 數據的導出和展示119
6.6 本章小結121
第7章實戰項目:Scrapy動態網頁的爬取
7.1 採集需求及網頁分析123
7.2 Selenium的安裝和使用124
7.3 解析網頁及代碼的實現126
7.4 數據的存儲128
7.5 數據的導出130
7.6 本章小結133
第8章實戰項目:Scrapy爬取App應用數據
8.1 搭建開發環境135
8.2 移動自動化工具144
8.3 Appium Desktop工具的錄製功能147
8.4 App應用數據抓取實戰項目150
8.5 本章小結158
第9章Scrapy的分佈式部署與爬取
9.1 分佈式系統概述及要點160
9.2 使用Gerapy管理分佈式爬蟲162
9.3 通過Scrapyd + ScrapydWeb簡單高效地部署和監控分佈式爬蟲項目168
9.4 使用Scrapy-Redis實現分佈式爬蟲174
9.5 本章小結195
第10章分佈式的實戰項目
10.1 搭建Redis服務器197
10.2 創建主項目及配置Scrapy-Redis 197
10.3 創建從項目及配置Scrapy-Redis 200
10.4 部署代理IP池及User-Agent 203
10.5 執行程序205
10.6 本章小結206
第11章用Selenium框架測試網站
11.1 網站測試簡介208
11.2 用Scrapy + Selenium進行前端自動化測試208
11.3 本章小結235
第12章用Scrapy + Pandas進行數據分析
12.1 Python數據分析概述237
12.2 NumPy簡介及操作238
12.3 Matplotlib簡介及操作247
12.4 Pandas簡介及操作256
12.5 實戰項目:Scrapy爬取網站並用Pandas進行數據分析267
12.6 本章小結284