Scrapy網絡爬蟲開發實戰

羅剛

預覽內頁

出版商: 清華大學
出版日期: 2024-06-01
定價: $419
售價: 8.5 折 $356
語言: 簡體中文
頁數: 173
ISBN: 7302658587
ISBN-13: 9787302658580
相關分類: Web-crawler 網路爬蟲

下單後立即進貨 (約4週~6週)

商品描述

《Scrapy網絡爬蟲開發實戰》介紹如何學習和使用流行的Scrapy框架開發網絡爬蟲應用，主要內容使用Python開發網絡爬蟲，識別網頁的編碼，結構化信息的提取，Scrapy爬蟲的示例使用，Scrapy Playwright抓取動態JS網站，將抓取的數據保存到數據庫，部署、調度和運行Scrapy爬蟲等。《Scrapy網絡爬蟲開發實戰》適合作為高等院校電腦、軟件工程專業本科生、研究生的參考書目，也適用於對Python網絡爬蟲領域感興趣的人士參考閱讀。

作者簡介

羅剛，2004年開始創建獵兔搜索技術，10多年來一直從事搜索引擎、自然語言處理、圖像識別等技術的研發和團隊管理工作。曾經擔任新東方公司研究員，國防大學科研處技術顧問，工信部輿情開發顧問，紅象雲騰公司技術顧問，青島大快搜索公司首席架構師，中和雲技術合夥人，東南大學社會導師，北京石油化工學院社會導師。近幾年同時開展了學員就業培訓工作，成功培訓了50多位專業的軟件工程師，培養的工程師目前分佈在百度、美團、Nuance、雲知聲、攝星等相關公司研發中心

目錄大綱

第1章?網絡爬蟲快速入門

1.1　各種網絡爬蟲

1.1.1　通用爬蟲

1.1.2　定向爬蟲

1.2　網絡爬蟲基本技術

1.3　Windows命令行

1.4　上手Scrapy網絡爬蟲開發

1.5?本章小結

第2章?Python開發快速入門

2.1?變量

2.2?註釋

2.3?簡單數據類型

2.3.1?數值

2.3.2?字符串

2.3.3?數組

2.4?字面值

2.5?控制流

2.5.1?if語句

2.5.2?循環

2.6?列表

2.7?元組

2.8?集合

2.9?字典

2.10?函數

2.11?模塊

2.12?檢查字符串是否包含子字符串

2.13?面向對象編程

2.14?泛型

2.15?日誌記錄

2.16?數據庫

2.17?本章小結

第3章?使用Python開發網絡爬蟲

3.1?使用BeautifulSoup實現定向採集

3.2?URL基礎

3.2.1?URI

3.2.2?解析相對地址

3.2.3?DNS解析

3.3?網絡爬蟲抓取原理

3.4?爬蟲架構

3.4.1?基本架構

3.4.2?分佈式爬蟲架構

3.4.3?垂直爬蟲架構

3.5　下載網頁

3.5.1　HTTP

3.5.2?HTML文檔

3.5.3?使用curl命令下載網絡資源

3.5.4?使用wget命令下載網頁

3.5.5?下載靜態網頁

3.5.6?使用Selenium下載動態內容

3.5.7?重試

3.6?下載圖片

3.7?網絡爬蟲的遍歷與實現

3.8　robots協議

3.9　連接池

3.10?URL地址查新

3.10.1?Redis數據庫

3.10.2?布隆過濾器

3.11?抓取RSS

3.12?網頁更新

3.13?進度條

3.14?垂直行業抓取

3.15?抓取限制的應對方法

3.15.1?模擬瀏覽器訪問

3.15.2?使用代理IP

3.15.3?抓取需要登錄的網頁

3.16?保存信息

3.16.1?SQLite數據庫

3.16.2?MySQL數據庫

3.16.3?MongoDB數據庫

3.16.4?存入Elasticsearch搜索引擎

3.17?本章小結

第4章?從因特網提取信息

4.1?識別網頁的編碼

4.1.1?二進制流的編碼

4.1.2?識別編碼的整體流程

4.2?正則表達式

4.3?結構化信息的提取

4.3.1?解析JSON

4.3.2?解析XML

4.3.3?XML接口

4.3.4?lxml處理網頁

4.3.5?使用XPath提取信息

4.3.6?在Chrome瀏覽器中查找Selenium WebDriver的XPath

4.3.7?CSS選擇器

4.3.8?使用Parsel

4.3.9?提取文本

4.3.10?網頁正文提取

4.4?從文件提取信息

4.5?本章小結

第5章?使用Scrapy開發爬蟲

5.1?一個示例爬蟲的演練

5.2?Scrapy Playwright指南：渲染和抓取動態JS網站

5.3?將抓取的數據保存到SQLite數據庫

5.4?將抓取的數據保存到MySQL數據庫

5.5?將抓取的數據保存到Postgres數據庫

5.6?Scrapyd：部署、調度和運行Scrapy爬蟲

5.7?Scrapy Cloud托管爬蟲

5.8?Twisted框架

5.9?本章小結

第6章?分佈式爬蟲開發

6.1?簡單的Celery任務

6.2?從任務進行分佈式抓取

6.3?本章小結

第7章?開發網絡爬蟲用戶界面

7.1?Tkinter簡介

7.2?網絡爬蟲圖形用戶界面

7.3?本章小結

第8章?案例分析

8.1?影視採集器

8.2?暗網爬蟲

8.3　本章小結

Scrapy網絡爬蟲開發實戰

羅剛

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (11)