精通 Python 網絡爬蟲:核心技術、框架與項目實戰精通Python网络爬虫:核心技术、框架与项目实战

韋瑋

出版商: 機械工業
出版日期: 2017-03-01
定價: $414
售價: 8.5 折 $352
語言: 簡體中文
頁數: 294
裝訂: 平裝
ISBN: 7111562089
ISBN-13: 9787111562085
相關分類: Web-crawler 網路爬蟲、Python

銷售排行:

🥉 2017/6 簡體中文書銷售排行第 3 名

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$940~~ $700

無瑕的程式碼－敏捷軟體開發技巧守則 + 番外篇－專業程式設計師的生存之道 (雙書合購)
~~$780~~ $616

精通 Python｜運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)
~~$450~~ $383

Python 函式庫語法範例字典
$229

用 Python 寫網絡爬蟲 (Web Scraping with Python)
~~$580~~ $458

網站擷取｜使用 Python (Web Scraping with Python: Collecting Data from the Modern Web)
~~$500~~ $425

Python 自動化的樂趣｜搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)
~~$360~~ $238

深度學習快速入門 — 使用 TensorFlow (Getting started with TensorFlow)
$293

Python 網絡爬蟲實戰
$403

TensorFlow 實戰
$403

Tensorflow：實戰Google深度學習框架
$352

Python 數據可視化 (Mastering Python Data Visualization)
~~$680~~ $537

資料視覺化｜使用 Python 與 JavaScript (Data Visualization with Python and JavaScript: Scrape, Clean, Explore & Transform Your Data)
$403

網絡爬蟲全解析——技術、原理與實踐
$505

零起點 Python 足彩大數據與機器學習實盤分析
~~$790~~ $616

無瑕的程式碼－敏捷完整篇－物件導向原則、設計模式與 C# 實踐 (Agile principles, patterns, and practices in C#)
$658

VR/AR/MR 開發實戰 : 基於 Unity 與 UE4引擎
~~$450~~ $356

Effective C# 中文版 | 寫出良好 C# 程式的 50個具體做法, 3/e (Effective C# : 50 Specific Ways to Improve Your C#(Covers C# 6.0), 3/e)
~~$450~~ $356

Effective SQL 中文版 | 寫出良好 SQL 的 61個具體做法 (Effective SQL : 61 Specific Ways to Write Better SQL)
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
~~$550~~ $435

穿梭虛擬與現實 -- Unity 3D 擴增實境AR速戰技 (附範例/近220分鐘影音教學)
~~$390~~ $308

寫程式前就該懂的演算法 ─ 資料分析與程式設計人員必學的邏輯思考術 (Grokking Algorithms: An illustrated guide for programmers and other curious people)
~~$380~~ $323

實戰聊天機器人 Bot 開發｜使用 Node.js (Building Bots with Node.js)
$403

Python 爬蟲開發與項目實戰
$958

深度學習
~~$490~~ $245

Python 網路爬蟲實戰

商品描述

從技術、工具與實戰3個維度講解了Python網絡爬蟲：

技術維度：詳細講解了Python網絡爬蟲實現的核心技術，包括網絡爬蟲的工作原理、如何用urllib庫編寫網絡爬蟲、爬蟲的異常處理、正則表達式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術，以及如何自己動手編寫網絡爬蟲。

工具維度：以流行的Python網絡爬蟲框架Scrapy為對象，詳細講解了Scrapy的功能使用、高級技巧、架構設計、實現原理，以及如何通過Scrapy來更便捷、高效地編寫網絡爬蟲。

實戰維度：以實戰為導向，是本書的主旨，除了完全通過手動編程實現網絡爬蟲和通過Scrapy框架實現網絡爬蟲的實戰案例以外，本書還有博客爬取、圖片爬取、模擬登錄等多個綜合性的網絡爬蟲實踐案例。

作者在Python領域有非常深厚的積累，不僅精通Python網絡爬蟲，在Python機器學習、Python數據分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗

目錄大綱

前言

第一篇理論基礎篇

第1章什麼是網絡爬蟲3
1.1初識網絡爬蟲3
1.2為什麼要學網絡爬蟲4
1.3網絡爬蟲的組成5
1.4網絡爬蟲的類型6
1.5爬蟲擴展——聚焦爬蟲7
1.6小結8

第2章網絡爬蟲技能總覽9
2.1網絡爬蟲技能總覽圖9
2.2搜索引擎核心10
2.3用戶爬蟲的那些事兒11
2.4小結12

第二篇核心技術篇

第3章網絡爬蟲實現原理與實現技術15
3.1網絡爬蟲實現原理詳解15
3.2爬行策略17
3.3網頁更新策略18
3.4網頁分析算法20
3.5身份識別21
3.6網絡爬蟲實現技術21
3.7實例——metaseeker 22
3.8小結27

第4章 Urllib庫與URLError異常處理29
4.1什麼是Urllib庫29
4.2快速使用Urllib爬取網頁30
4.3瀏覽器的模擬——Headers屬性34
4.4超時設置37
4.5 HTTP協議請求實戰39
4.6代理服務器的設置44
4.7 DebugLog實戰45
4.8異常處理神器— —URLError實戰46
4.9小結51

第5章正則表達式與Cookie的使用52
5.1 麼是正則表達式52
5.2正則表達式基礎知識52
5.3正則表達式常見函數61
5.4常見實例解析64
5.5什麼是Cookie 66
5.6 Cookiejar實戰精析66
5.7小結71

第6章手寫Python爬蟲73
6.1圖片爬蟲實戰73
6.2鏈接爬蟲實戰78
6.3糗事百科爬蟲實戰80
6.4微信爬蟲實戰82
6.5什麼是多線程爬蟲89
6.6多線程爬蟲實戰90
6.7小結98

第7章學會使用Fiddler 99
7.1什麼是Fiddler 99
7.2爬蟲與Fiddler的關係100
7.3 Fiddler的基本原理與基本界面100
7.4 Fiddler捕獲會話功能102
7.5使用QuickExec命令行104
7.6 Fiddler斷點功能106
7.7 Fiddler會話查找功能111
7.8 Fiddler的其他功能111
7.9小結113

第8章爬蟲的瀏覽器偽裝技術114
8.1什麼是瀏覽器偽裝技術114
8.2瀏覽器偽裝技術準備工作115
8.3爬蟲的瀏覽器偽裝技術實戰117
8.4小結121

第9章爬蟲的定向爬取技術122
9.1什麼是爬蟲的定向爬取技術122
9.2定向爬取的相關步驟與策略123
9.3定向取實戰124
9.4小結130

第三篇框架實現篇

第10章瞭解Python爬蟲框架133
10.1什麼是Python爬蟲框架133
10.2常見的Python爬蟲框架133
10.3認識Scrapy框架134
10.4認識Crawley框架135
10.5認識Portia框架136
10.6認識newspaper框架138
10.7認識Python-goose框架139
10.8小結140

第11章爬蟲利器——Scrapy安裝與配置141
11.1在Windows7下安裝及配置Scrapy實戰詳解141
11.2在Linux（Centos）下安裝及配置Scrapy實戰詳解147
11.3在MAC下安裝及配置Scrapy實戰詳解158
11.4小結161

第12章開啟Scrapy爬蟲項目之旅162
12.1認識Scrapy項目的目錄結構162
12.2用Scrapy進行爬蟲項目管理163
12.3常用工具命令166
12.4實戰：Items的編寫181
12.5實戰：Spider的編寫183
12.6 XPath基礎187
12.7 Spider類參數傳遞188
12.8用XMLFeedSpider來分析XML源191
12.9學會使用CSVFeedSpider 197
12.10 Scrapy爬蟲多開技能200
12.11避免被禁止206
12.12小結212

第13章 Scrapy核心架構 214
13.1初識Scrapy架構214
13.2常用的Scrapy組件詳解215
13.3 Scrapy工作流217
13.4小結219

第14章 Scrapy中文輸出與存儲220
14.1 Scrapy的中文輸出220
14.2 Scrapy的中文存儲223
14.3輸出中文到JSON文件225
14.4小結230

第15章編寫自動爬取網頁的爬蟲231
15.1實戰：items的編寫231
15.2實戰：pipelines的編寫233
15.3實戰：settings的編寫234
15.4自動爬蟲編寫實戰234
15.5調試與運行239
15.6小結242

第16章 CrawlSpider 243
16.1初識CrawlSpider 243
16.2鏈接提取器244
16.3實戰：CrawlSpider實例245
16.4小結249

第17章 Scrapy高級應用250
17.1如何在Python3中操作數據庫250
17.2爬取內容寫進MySQL 254
17.3小結259

第四篇項目實戰篇

第18章博客類爬蟲項目263
18.1博客類爬蟲項目功能分析263
18.2博客類爬蟲項目實現思路264
18.3博客類爬蟲項目編寫實戰264
18.4調試與運行274
18.5小結275

第19章圖片類爬蟲項目276
19.1圖片類爬蟲項目功分析276
19.2圖片類爬蟲項目實現思路277
19.3圖片類爬蟲項目編寫實戰277
19.4調試與運行281
19.5小結282

第20章模擬登錄爬蟲項目283
20.1模擬登錄爬蟲項目功能分析283
20.2模擬登錄爬蟲項目實現思路283
20.3模擬登錄爬蟲項目編寫實戰284
20.4調試與運行292
20.5小結294