Scrapy網絡爬蟲開發實戰
羅剛
- 出版商: 清華大學
- 出版日期: 2024-06-01
- 定價: $419
- 售價: 8.5 折 $356
- 語言: 簡體中文
- ISBN: 7302658587
- ISBN-13: 9787302658580
-
相關分類:
Web-crawler 網路爬蟲
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目錄
目錄
第1章?網絡爬蟲快速入門
1.1 各種網絡爬蟲
1.1.1 通用爬蟲
1.1.2 定向爬蟲
1.2 網絡爬蟲基本技術
1.3 Windows命令行
1.4 上手Scrapy網絡爬蟲開發
1.5?本章小結
第2章?Python開發快速入門
2.1?變量
2.2?註釋
2.3?簡單數據類型
2.3.1?數值
2.3.2?字符串
2.3.3?數組
2.4?字面值
2.5?控制流
2.5.1?if語句
2.5.2?循環
2.6?列表
2.7?元組
2.8?集合
2.9?字典
2.10?函數
2.11?模塊
2.12?檢查字符串是否包含子字符串
2.13?面向對象編程
2.14?泛型
2.15?日誌記錄
2.16?數據庫
2.17?本章小結
第3章?使用Python開發網絡爬蟲
3.1?使用BeautifulSoup實現定向採集
3.2?URL基礎
3.2.1?URI
3.2.2?解析相對地址
3.2.3?DNS解析
3.3?網絡爬蟲抓取原理
3.4?爬蟲架構
3.4.1?基本架構
3.4.2?分佈式爬蟲架構
3.4.3?垂直爬蟲架構
3.5 下載網頁
3.5.1 HTTP
3.5.2?HTML文檔
3.5.3?使用curl命令下載網絡資源
3.5.4?使用wget命令下載網頁
3.5.5?下載靜態網頁
3.5.6?使用Selenium下載動態內容
3.5.7?重試
3.6?下載圖片
3.7?網絡爬蟲的遍歷與實現
3.8 robots協議
3.9 連接池
3.10?URL地址查新
3.10.1?Redis數據庫
3.10.2?布隆過濾器
3.11?抓取RSS
3.12?網頁更新
3.13?進度條
3.14?垂直行業抓取
3.15?抓取限制的應對方法
3.15.1?模擬瀏覽器訪問
3.15.2?使用代理IP
3.15.3?抓取需要登錄的網頁
3.16?保存信息
3.16.1?SQLite數據庫
3.16.2?MySQL數據庫
3.16.3?MongoDB數據庫
3.16.4?存入Elasticsearch搜索引擎
3.17?本章小結
第4章?從互聯網提取信息
4.1?識別網頁的編碼
4.1.1?二進制流的編碼
4.1.2?識別編碼的整體流程
4.2?正則表達式
4.3?結構化信息的提取
4.3.1?解析JSON
4.3.2?解析XML
4.3.3?XML接口
4.3.4?lxml處理網頁
4.3.5?使用XPath提取信息
4.3.6?在Chrome瀏覽器中查找Selenium WebDriver的XPath
4.3.7?CSS選擇器
4.3.8?使用Parsel
4.3.9?提取文本
4.3.10?網頁正文提取
4.4?從文件提取信息
4.5?本章小結
第5章?使用Scrapy開發爬蟲
5.1?一個示例爬蟲的演練
5.2?Scrapy Playwright指南:渲染和抓取動態JS網站
5.3?將抓取的數據保存到SQLite數據庫
5.4?將抓取的數據保存到MySQL數據庫
5.5?將抓取的數據保存到Postgres數據庫
5.6?Scrapyd:部署、調度和運行Scrapy爬蟲
5.7?Scrapy Cloud托管爬蟲
5.8?Twisted框架
5.9?本章小結
第6章?分佈式爬蟲開發
6.1?簡單的Celery任務
6.2?從任務進行分佈式抓取
6.3?本章小結
第7章?開發網絡爬蟲用戶界面
7.1?Tkinter簡介
7.2?網絡爬蟲圖形用戶界面
7.3?本章小結
第8章?案例分析
8.1?影視採集器
8.2?暗網爬蟲
8.3 本章小結