偏不讓你抓:最強 Python 爬蟲 vs 反爬蟲大戰實錄
韋世東
- 出版商: 深智
- 出版日期: 2020-06-19
- 定價: $780
- 售價: 7.9 折 $616
- 語言: 繁體中文
- 頁數: 480
- 裝訂: 平裝
- ISBN: 9865501384
- ISBN-13: 9789865501389
-
相關分類:
Python、程式語言、Web-crawler 網路爬蟲
- 此書翻譯自: Python 3反爬蟲原理與繞過實戰
已絕版
買這商品的人也買了...
-
$980$774 -
$650$514 -
$650$514 -
$454Python 3反爬蟲原理與繞過實戰
-
$680$537 -
$780$616 -
$760$646 -
$890$703 -
$580$493 -
$680$578 -
$780$702 -
$880$695 -
$550$429 -
$780$663 -
$680$537 -
$780$616 -
$480$379 -
$580$493 -
$580$458 -
$580$458 -
$690$587 -
$420$332 -
$780$616 -
$520$406 -
$780$616
相關主題
商品描述
本書特色
◎ 系統說明爬蟲和反爬蟲技術
◎ 爬蟲工程師不可錯過的武功秘笈
◎ 幫你從0到1理清爬蟲與反爬蟲的紅藍對抗
內容簡介
本書重點
爬蟲大戰,爾虞我詐,利用熟練的Python3瀏覽器知識,加上人工智慧
的幫助,讓百度、微軟、Google都沒辦法從你的網站爬走一點點資料!
資訊型反爬蟲、動態繪製反爬蟲、文字混淆反爬蟲、特徵識別反爬蟲、app反爬蟲、程式混淆反爬蟲、驗證碼反爬蟲,再強大的爬蟲機器人也就地當機!
本書主要內容
本書共10 章,首先對各種反爬蟲技術進行合理的歸類,然後透過剖析多個案例幫助讀者了解各種反爬蟲技術的原理。內容包含但不限於Cookie反爬蟲、WebSocket反爬蟲、字型反爬蟲、WebDriver反爬蟲、App反爬蟲、驗證碼反爬蟲,幾乎涵蓋市面上所有的反爬蟲技術類型,內容十分詳盡。另外,還針對各種反爬蟲列出對應的繞過和破解方案。
從開發環境設定到原理,再到實際的反爬蟲案例剖析,內容循序漸進。建議讀者按照章節順序閱讀,並在閱讀過程中親自動手練習。
內容如下:
►第1 章 介紹本書所相關的大部分開發環境設定,需要時查閱即可。
►第2 章 介紹Web 網站的組成和頁面繪製。了解伺服器端、用戶端的組成,工作形式和通訊協定。
►第3 章 簡單說明動態網頁和靜態網頁對爬蟲造成的影響,並對反爬蟲概念進行介紹和約定。
►第4 章 以資訊驗證型反爬蟲為主線,說明基於HTTP 協定和WebSocket 協定對用戶端請求進行驗證的反爬蟲原理和具體實作方法,並以爬蟲工程師的角度示範繞過過程。
►第5 章 介紹常見的動態繪製反爬蟲,透過場景假設的方式來說明不同需求的應對方法。
►第6 章 介紹目前被廣泛使用的文字混淆反爬蟲知識,包含圖片偽裝、CSS 偏移、SVG 對映和字型反爬蟲等。以爬蟲工程師的角度示範繞過過程,再剖析其原理。最後討論文字混淆反爬蟲的通用解決方法。
►第7 章 介紹特徵識別反爬蟲,包含繞過過程和實現原理。特徵識別反爬蟲具有一定的隱蔽性。它在爬蟲程式發起時識別和過濾,能有效地減輕伺服器的壓力。
►第8 章 介紹App資料爬取的關鍵和常用的反爬蟲方法,包含程式混淆、參數加密和安全強化等,同時還介紹封包截取和App逆向方面的知識。
►第9 章 驗證碼相關的內容,包含市面上常見的驗證碼類型,每個驗證碼案例均以爬蟲工程師的角度示範繞過過程,再以開發者的角度示範驗證碼的實現過程。部分驗證碼的繞過用到了深度學習中的卷積神經網路和用於目標檢測的YOLO 演算法,並對商用驗證碼廠商的產品進行基本介紹和難度分析。
►第10 章 綜合知識的介紹。如常見的編碼和加密原理,並以對應的RFC 文件為基礎,說明編碼、解碼、加密和解密的過程。然後介紹常見的JavaScript 程式混淆知識,並動手實現一個簡單的混淆器。接著學習前端禁止事件方面的知識,如禁止滑鼠右鍵、禁止鍵盤按鍵等。最後透過幾個案例了解與爬蟲相關的法律知識和風險點。
適合讀者群 爬蟲工程師、反爬蟲工程師、開發者,或對爬蟲、反爬蟲感興趣的讀者。
作者簡介
韋世東
資深爬蟲工程師,也是Python 開發者和Rust 開發者。
2019年華為雲·雲享專家,掘金社區優秀作者,GitChat認證作者,夜幕團隊(NightTeam)成員。
擁有七年互聯網從業經驗,擅長反爬蟲的設計和繞過技巧。
目錄大綱
目錄
前言
01 開發環境設定
1.1 作業系統的選擇
1.2 練習平台Steamboat
1.3 協力廠商函數庫的安裝
1.4 常用軟體的安裝
1.5 深度學習環境設定
1.6 Node.js 環境設定
02 Web 網站的組成和頁面繪製
2.1 nginx 伺服器
2.2 瀏覽器
2.3 網路通訊協定
03 爬蟲與反爬蟲
3.1 動態網頁與網頁原始程式碼
3.2 爬蟲知識回顧
3.3 反爬蟲的概念與定義
04 資訊驗證型反爬蟲
4.1 User-Agent 反爬蟲
4.2 Cookie 反爬蟲
4.3 簽名驗證反爬蟲
4.4 WebSocket 驗證驗證反爬蟲
4.5 WebSocket 訊息驗證反爬蟲
4.6 WebSocket Ping 反爬蟲
05 動態繪製反爬蟲
5.1 常見的動態繪製反爬蟲案例
5.2 動態繪製的通用解決辦法
06 文字混淆反爬蟲
6.1 圖片偽裝反爬蟲
6.2 CSS 偏移反爬蟲
6.3 SVG 對映反爬蟲
6.4 字型反爬蟲
6.5 文字混淆反爬蟲通用解決辦法
07 特徵識別反爬蟲
7.1 WebDriver 識別
7.2 瀏覽器特徵
7.3 爬蟲特徵
7.4 隱藏連結反爬蟲
08 App 反爬蟲
8.1 App 封包截取
8.2 APK 檔案反編譯
8.3 程式混淆反爬蟲
8.4 App 應用強化知識擴充
8.5 了解應用程式自動化測試工具
09 驗證碼
9.1 字元驗證碼
9.2 計算型驗證碼
9.3 滑動驗證碼
9.4 滑動拼圖驗證碼
9.5 文字點選驗證碼
9.6 滑鼠軌跡的檢測和原理
9.7 驗證碼產品賞析
10 綜合知識
10.1 編碼與加密
10.2 JavaScript 程式混淆
10.3 前端禁止事件
10.4 法律法規