Python 爬蟲與反爬蟲開發從入門到精通

劉延林

出版商: 北京大學
出版日期: 2021-01-01
售價: $594
貴賓價: 9.5 折 $564
語言: 簡體中文
頁數: 388
裝訂: 平裝
ISBN: 7301322690
ISBN-13: 9787301322697
相關分類: Web-crawler 網路爬蟲

立即出貨 (庫存=1)

買這商品的人也買了...

$250

圖數據庫, 2/e (Graph Databases: New Opportunities for Connected Data, 2/e)
$505

實戰 Python 網絡爬蟲
$454

Python 3反爬蟲原理與繞過實戰
~~$354~~ $336

軟件測試流程設計從傳統到敏捷
$320

Python數據分析活用Pandas庫
$301

混沌工程實戰手把手教你實現系統穩定性
~~$400~~ $380

演算法－名校攻略秘笈, 10/e
$374

Python 3 網絡爬蟲實戰
$653

Linux 輕鬆入門 : 一線運維師實戰經驗獨家揭秘
~~$810~~ $770

作業系統精論, 10/e (授權經銷版)
$301

反爬蟲 AST 原理與還原混淆實戰 (微課視頻版)
$653

Pandas 數據預處理詳解
~~$839~~ $797

Python3 網絡爬蟲開發實戰, 2/e
$709

爬蟲逆向進階實戰
~~$520~~ $406

Final Cut Pro 職人剪片全攻略：一台 Mac 包辦影音剪輯、素材處理、調色技巧，打造流暢的高質感影片！
$602

NoSQL 數據庫實戰派：Redis + MongoDB + HBase
~~$1,074~~ $1,020

精通 Neo4j
~~$720~~ $562

從異世界歸來發現只剩自己不會 Kubernetes：初心者進入雲端世界的實戰攻略！（iThome鐵人賽系列書）【軟精裝】
~~$850~~ $663

重構：改善 .NET 與 C# 應用程式的設計，償還欠下的技術債 (使用 GitHub Copilot 與 Visual Studio) (Refactoring with C#: Safely improve .NET applications and pay down technical debt with Visual Studio, .NET 8, and C# 12)
~~$490~~ $387

寫程式前的必學工具：命令列、編輯器、Git/GitHub，軟體開發三本柱一次搞定
$407

AIGC高效辦公室：ChatGPT+AutoGPT讓Office辦公室更簡單
~~$654~~ $621

加速：高效能軟件交付之道
~~$659~~ $626

破解深度學習：模型算法與實現 (核心篇)
~~$396~~ $376

AIGC 人工智能創作項目化教程
~~$594~~ $564

深入解析PYTHON反爬蟲

商品描述

隨著網絡技術的迅速發展，如何有效地提取並利用信息，以及如何有效地防止信息被爬取，已成為一個巨大的挑戰。本書從零開始系統地介紹了Python網絡爬蟲與反爬蟲的開發與實戰技能，全書共分為4篇，具體內容安排如下。第1篇：基礎篇（第1～3章）。系統地講解了Python爬蟲與反爬蟲開發環境的搭建、爬蟲與反爬蟲通用基礎知識、Python編程基礎。第2篇：爬蟲篇（第4～8章）。這部分講解了網絡爬蟲的相關知識與技能，主要包括網絡爬蟲快速入門、XPath匹配網頁數據、re正則匹配數據、WebSocket數據抓取、Scrapy爬蟲框架應用與開發等。第3篇：反爬蟲篇（第9～16章）。這部分講解了網絡反爬蟲的相關知識與技能，主要包括爬蟲與反爬蟲的區別與認識、反爬—Header信息校驗、反爬—IP限制、反爬—動態渲染頁面、反爬—文本混淆、反爬—特徵識別、反爬—驗證碼識別、反爬—APP數據抓取等。第4篇：實戰篇（第17章）。本篇主要列舉了4個案例，綜合講解Python爬蟲與反爬蟲項目的實戰應用。本書從零基礎開始講解，系統全面，案例豐富，註重實戰，既適合Python程序員和爬蟲愛好者閱讀學習，也可以作為廣大職業院校相關專業的教材或參考用書。

作者簡介

劉延林，雲鏡團隊創始人，擁有多年網絡爬蟲開發經驗，著有《Python網絡爬蟲開發從入門到精通》，擅長Python網絡爬蟲、Web、數據挖掘與分析、網絡安全、產品研發等領域。

目錄大綱

目錄
Contents

第1篇基礎篇
第1章爬蟲與反爬蟲開發環境搭建　/2
1.1　Python 3環境搭建　/3
1.1.1　下載Python 3安裝包　/3
1.1.2　安裝Python　/4
1.1.3　pip包管理工具　/6
1.2　PyCharm的安裝與基本使用　/7
1.2.1　安裝PyCharm　/7
1.2.2　創建Python項目　/8
1.2.3　debug調試代碼　/12
1.2.4　創建venv虛擬環境　/14
1.3　Tesseract-OCR　/16
1.3.1　下載　/16
1.3.2　安裝　/17
1.3.3　配置環境變量　/18
1.4　mitmproxy　/18
1.4.1　下載　/19
1.4.2　安裝　/20
1.4.3　安裝SSL證書　/21
1.5　JDK 1.8　/22
1.5.1　下載JDK　/22
1.5.2　安裝　/22
1.5.3　測試是否安裝成功　/23
本章小結　/24

第2章　爬蟲與反爬蟲通用基礎知識　/25
2.1　網頁基礎　/26
2.1.1　網頁的組成　/26
2.1.2　網頁的類型　/28
2.2　網絡傳輸協議　/28
2.2.1　認識HTTP　/29
2.2.2　HTTPS　/29
2.2.3　HTTP與HTTPS請求過程示例　/29
2.3　Session和Cookies　/31
2.3.1　Cookie　/31
2.3.2　Session　/33
2.3.3　Session和Cookie的區別　/33
2.3.4　常見誤區　/33
2.4　Nginx服務器　/34
2.4.1　Nginx信號　/34
2.4.2　反向代理　/35
2.4.3　Nginx中實現反向代理　/35
2.5　代理IP　/36
2.5.1　原理　/36
2.5.2　分類　/37
2.5.3　獲取途徑　/37
2.6　HTTP接口概念　/40
2.7　新手問答　/40
本章小結　/41

第3章　Python編程基礎　/42
3.1　Python的基礎語法　/43
3.1.1　第一個Python程序　/43
3.1.2　運行程序　/43
3.1.3　註釋　/46
3.1.4　行與縮進　/46
3.1.5　多行語句　/47
3.1.6　import 與 from...import導入模塊　/48
3.1.7　變量　/48
3.2　基本數據類型　/49
3.2.1　Number　/49
3.2.2　String　/50
3.2.3　List　/50
3.2.4　Tuple　/52
3.2.5　Dictionary　/52
3.2.6　Set　/53
3.2.7　布爾類型　/54
3.3　流程控制　/55
3.3.1　條件控制　/55
3.3.2　循環　/56
3.3.3　range()函數　/58
3.3.4　break和continue語句　/58
3.3.5　pass　/59
3.4　函數　/60
3.4.1　定義一個函數　/60
3.4.2　調用函數　/60
3.5　文件操作　/61
3.5.1　txt文件讀寫　/61
3.5.2　csv文件讀寫　/62
3.6　面向對象　/64
3.6.1　類　/64
3.6.2　類對象　/65
3.6.3　類方法　/66
3.6.4　繼承　/67
3.7　多線程　/68
3.7.1　threading　/68
3.7.2　多線程裝飾器封裝　/69
3.8　新手實訓　/70
3.9　新手問答　/71
本章小結　/72

第2篇　爬蟲篇
第4章　網絡爬蟲快速入門　/74
4.1　爬蟲的基本結構及工作流程　/75
4.2　urllib網絡請求庫　/75
4.2.1　請求一個簡單的網頁　/75
4.2.2　設置請求超時　/78
4.2.3　使用data參數提交數據　/78
4.2.4　Request　/79
4.3　requests網絡請求庫　/82
4.3.1　requests模塊的安裝　/82
4.3.2　請求第一個網頁　/82
4.3.3　get和post請求　/84
4.3.4　參數提交　/86
4.4　urllib3網絡請求庫　/86
4.4.1　發起請求　/87
4.4.2　響應內容　/88
4.4.3　查詢參數　/88
4.4.4　表單數據　/89
4.4.5　提交JSON數據　/89
4.5　Postman接口測試工具　/90
4.5.1　請求接口　/90
4.5.2　常用功能介紹　/93
4.6　新手實訓　/95
4.7　新手問答　/95
本章小結　/96

第5章　XPath匹配網頁數據　/97
5.1　安裝XPath　/98
5.2　XPath的基礎語法　/98
5.3　在Python中使用XPath匹配數據　/99
5.3.1　根據class屬性進行匹配　/100
5.3.2　根據id屬性進行匹配　/101
5.3.3　根據name屬性進行匹配　/102
5.4　XPath表達式技巧　/103
5.5　擴展補充知識點　/105
5.5.1　Selector　/105
5.5.2　Beautiful Soup　/106
5.6　新手實訓　/107
5.7　新手問答　/109
本章小結　/109

第6章　re正則匹配數據　/110
6.1　re.compile函數　/111
6.2　re.match函數　/111
6.3　re.search函數　/113
6.4　re.match與re.search的區別　/114
6.5　檢索和替換　/114
6.6　findall函數　/115
6.7　常見正則表達式寫法　/116
6.8　新手實訓　/117
6.9　新手問答　/119
本章小結　/120

第7章　WebSocket數據抓取　/121
7.1　WebSocket通信原理　/122
7.2　使用aioWebSocket獲取數據　/122
7.2.1　安裝AioWebSocket　/123
7.2.2　分析WebSocket請求　/123
7.2.3　編寫代碼獲取數據　/126
7.3　新手實訓　/129
7.4　新手問答　/131
本章小結　/131

第8章　Scrapy爬蟲框架應用與開發　/132
8.1　Scrapy框架的基本架構　/133
8.1.1　Scrapy的基本組件　/133
8.1.2　工作原理　/133
8.2　安裝Scrapy　/134
8.3　創建項目　/135
8.4　定義Item　/135
8.5　編寫第一個Spider　/136
8.6　運行爬蟲　/137
8.7　提取Item　/137
8.8　在Shell中嘗試Selector選擇器　/138
8.9　提取數據　/139
8.10　使用Item　/140
8.11　Item Pipeline　/141
8.12　將Item寫入JSON文件　/142
8.13　新手實訓　/143
8.14　新手問答　/146
本章小結　/146

第3篇　反爬蟲篇
第9章　爬蟲與反爬蟲　/148
9.1　爬蟲知識的回顧與總結　/149
9.1.1　爬蟲的爬取過程　/149
9.1.2　案例演示　/149
9.2　反爬蟲的概念與定義　/154
本章小結　/155

第10章　反爬—Header信息校驗　/156
10.1　User-Agent　/157
10.1.1　如何應對User-Agent反爬　/157
10.1.2　User-Agent反爬原理　/161
10.2　Cookie校驗　/162
10.2.1　如何應對Cookie反爬　/162
10.2.2　Cookie反爬原理　/163
10.3　Referer校驗　/165
10.3.1　Referer的反爬原理　/165
10.3.2　應對方法　/165
10.4　簽名校驗　/166
10.4.1　簽名反爬原理　/166
10.4.2　應對方法　/166
10.5　新手實訓　/170
10.6　新手問答　/176
本章小結　/176

第11章　反爬—IP限制　/177
11.1　代理設置　/178
11.1.1　urllib代理設置　/178
11.1.2　requests代理設置　/179

11.2　代理池構建　/17911.2.1　獲取IP　/180
11.2.2　驗證代理是否可用　/181
11.2.3　使用代理池　/182
11.3　搭建自己的代理服務器　/183
11.3.1　什麼是ADSL　/183
11.3.2　購買代理雲主機　/183
11.3.3　測試撥號　/185
11.3.4　設置代理服務器　/188
11.3.5　動態獲取IP　/190
11.3.6　使用Python實現撥號　/192
11.4　使用Nginx實現封禁IP　/194
11.5　新手問答　/195
本章小結　/196

第12章　反爬—動態渲染頁面　/197
12.1　動態渲染案例介紹　/198
12.1.1　單擊事件　/198
12.1.2　異步加載數據　/199
12.1.3　焦點事件　/200
12.2　常見應對動態渲染頁面的解決辦法　/201
12.3　使用Selenium爬取動態渲染頁面　/201
12.3.1　安裝Selenium庫　/202
12.3.2　Selenium定位方法　/203
12.3.3　控制瀏覽器操作　/204
12.3.4　WebDriver常用方法　/206
12.3.5　其他常用方法　/207
12.3.6　鼠標鍵盤事件　/208
12.3.7　獲取斷言　/211
12.3.8　設置元素等待　/212
12.3.9　多表單切換　/214
12.3.10　下拉框選擇　/215
12.3.11　調用JavaScript代碼　/216
12.3.12　窗口截圖　/217
12.3.13　無頭模式　/217
12.4　獲取瀏覽器Network請求和響應　/218
12.4.1　Browsermob-Proxy　/219
12.4.2　獲取接口返回數據　/220
12.4.3　二級代理　/222
12.5　新手實訓　/222
12.6　新手問答　/224
本章小結　/225

第13章　反爬—文本混淆　/226
13.1　圖片偽裝反爬　/227
13.1.1　飛常準航班動態信息　/227
13.1.2　分析網站　/228
13.1.3　應對方案　/230
13.1.4　代碼實現　/230
13.2　CSS偏移反爬　/231
13.2.1　去哪兒網　/231
13.2.2　分析網站　/232
13.2.3　代碼實現　/235
13.3　編碼映射反爬　/238
13.3.1　大眾點評網　/238
13.3.2　分析網站　/239
13.3.3　代碼實現　/240
13.4　字體反爬　/242
13.4.1　美團手機版網頁　/242
13.4.2　分析網站　/243
13.4.3　代碼實現　/247
13.5　新手實訓　/248
13.6　新手問答　/252
本章小結　/252

第14章　反爬—特徵識別　/253
14.1　瀏覽器指紋　/254
14.1.1　瀏覽器指紋實現技術有哪些　/254
14.1.2　防止瀏覽器指紋檢測方法　/254
14.1.3　防客戶端追蹤措施　/255
14.2　WebDriver驅動識別　/255
14.2.1　WebDriver識別示例　/255
14.2.2　WebDriver識別原理　/257
14.2.3　如何繞過被識別　/259
14.3　使用mitmproxy　/262
14.3.1　認識mitmproxy　/262
14.3.2　工作原理　/263
14.3.3　使用mitmproxy繞過驅動檢測　/263
14.4　網頁精靈　/269
14.4.1　安裝網頁精靈　/270
14.4.2　網頁精靈的簡單使用　/271
14.5　新手實訓　/275
14.6　新手問答　/277
本章小結　/277

第15章　反爬—驗證碼識別　/278
15.1　普通圖形驗證碼　/279
15.1.1　識別圖形驗證碼的解決方案　/279
15.1.2　OCR識別圖形驗證碼　/279
15.1.3　採用第三方打碼平臺識別　/280
15.2　滑動驗證碼　/281
15.2.1　分析思路　/282
15.2.2　使用Selenium實現模擬淘寶登錄的拖動驗證　/282
15.3　滑動拼圖驗證碼　/285
15.3.1　分析思路　/285
15.3.2　使用代碼實現滑動　/285
15.3.3　運行測試　/291
15.4　新手實訓　/292
15.5　新手問答　/294
本章小結　/295

第16章　反爬—APP數據抓取　/296
16.1　APP的抓包分析　/297
16.1.1　Fiddler抓包工具　/297
16.1.2　Fiddler設置　/297
16.1.3　使用Fiddler抓包獵聘APP測試　/299
16.1.4　Charles抓包工具　/300
16.1.5　Charles設置　/301
16.1.6　Charles抓包　/304
16.1.7　Charles分析　/307
16.1.8　Charles重發　/309
16.2　Appium自動化　/310
16.2.1　安裝Appium　/311
16.2.2　Android開發環境配置　/312
16.2.3　啟動APP　/313
16.2.4　appPackage和appActivity參數獲取方法　/322
16.3　APK安裝包反編譯　/324
16.3.1　準備工作　/324
16.3.2　反編譯得到源碼　/324
16.4　APK反編譯知識補充　/327
16.5　新手實訓　/327
16.6　新手問答　/332
本章小結　/332

第4篇　實戰篇
第17章　項目實戰　/334
17.1　土地市場網——地塊公示　/335
17.1.1　分析網站　/336
17.1.2　代碼實現　/342
17.1.3　實例總結　/348
17.2　紐約工商數據採集　/348
17.2.1　分析網站　/348
17.2.2　編寫代碼爬取　/351
17.2.3　實例總結　/356
17.3　攜程旅行火車票票價數據採集　/356
17.3.1　分析網站　/358
17.3.2　編寫代碼爬取　/360
17.3.3　實例總結　/361
17.4　智聯招聘數據採集　/361
17.4.1　分析網站　/362
17.4.2　編寫代碼爬取　/365
17.4.3　實例總結　/367