從零開始學Python網絡爬蟲 从零开始学Python网络爬虫

羅攀, 蔣仟

  • 出版商: 機械工業
  • 出版日期: 2017-10-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 263
  • 裝訂: 平裝
  • ISBN: 7111579992
  • ISBN-13: 9787111579991
  • 相關分類: PythonWeb-crawler 網路爬蟲
  • 立即出貨 (庫存=1)

買這商品的人也買了...

相關主題

商品描述

詳解網絡爬蟲的原理、工具、框架和方法,內容新,實戰案例多
詳解從簡單網頁到異步加載網頁,從簡單存儲到數據庫存儲,從簡單爬蟲到框架爬蟲等技術

22個網絡爬蟲綜合實戰案例、30個網站信息提取、2500餘行代碼
詳解爬蟲的3大方法:正則表達式、BeautifulSoup 4庫和Lxml庫
詳解爬取數據的4大存儲方式:TXT、CSV、MongoDB和MySQL
詳解Scrapy爬蟲框架的安裝、項目創建、文件使用及爬取數據的存儲

作者簡介

羅攀,知名論壇Python爬蟲專題管理員。擅長Python爬蟲技術,並對Python數據分析與挖掘也有研究。曾經在CSDN等多個知名博客網站發表多篇技術文章,深受讀者的喜愛。目前從事線上Python網絡爬蟲的培訓工作。

蔣仟,喜愛並擅長Python編程,並將Python作為學術研究手段。在數據採集、數據分析等方面均有較為深入的研究。對Python網絡爬蟲技術應用也頗有心得。目前從事林業遙感技術的研究,並利用業餘時間兼職從事Python培訓方面的工作。

目錄大綱

前言

第1章Python零基礎語法入門 1
1.1 Python與PyCharm安裝 1
1.1.1 Python安裝(Windows、Mac和Linux) 1
1.1.2 PyCharm安裝 3
1.2 變量和字符串 3
1.2.1 變量 4
1.2.2 字符串的“加法”和“乘法” 4
1.2.3 字符串的切片和索引 5
1.2.4 字符串方法 
1.3 函數與控制語句 7
1.3.1 函數 7
1.3.2 判斷語句 8
1.3.3 循環語句 8
1.4 Python數據結構 9
1.4.1 列表 9
1.4.2 字典11
1.4.3 元組和集合11
1.5 Python文件操作11
1.5.1 打開文件11
1.5.2 讀寫文件12
1.5.3 關閉文件13
1.6 Python面向對象13
1.6.1 定義類14
1.6.2 實例屬性14
1.6.3 實例方法15
1.6.4 類的繼承16

第2章爬蟲原理和網頁構造17
2.1 爬蟲原理17
2.1.1 網絡連接17
2.1.2 爬蟲原理18
2.2 網頁構造21
2.2.1 Chrome瀏覽器的安裝21
2.2.2 網頁構造22
2.2.3 查詢網頁信息23

第3章我的第一個爬蟲程序26
3.1 Python第三方庫26
3.1.1 Python第三方庫的概念26
3.1.2 Python第三方庫的安裝方法27
3.1.3 Python第三方庫的使用方法29
3.2 爬蟲三大庫30
3.2.1 Requests庫30
3.2.2 BeautifulSoup庫3
3.2.3 Lxml庫36
3.3 綜合案例1——爬取北京地區短租房信息37
3.3.1 爬蟲思路分析37
3.3.2 爬蟲代碼及分析38
3.4 綜合案例2——爬取酷狗TOP500的數據41
3.4.1 爬蟲思路分析41
3.4.2 爬蟲代碼及分析43

第4章正則表達式45
4.1 正則表達式常用符號45
4.1.1 一般字符45
4.1.2 預定義字符集46
4.1.3 數量詞46
4.1.4 邊界匹配47
4.2 re模塊及其方法48
4.2.1 search()函數48
4.2.2 sub()函數49
4.2.3 findall()函數49
4.2.4 re模塊修飾符51
4.3 綜合案例1——爬取《鬥破蒼穹》全文小說53
4.3.1 爬蟲思路分析53
4.3.2 爬蟲代碼及分析55
4.4 綜合案例2——爬取糗事百科網的段子信息56
4.4.1 爬蟲思路分析56
4.4.2 爬蟲代碼及分析58

第5章Lxml庫與Xpath語法63
5.1 Lxml庫的安裝與使用方法63
5.2 Xpath語法68
5.3 綜合案例1——爬取豆瓣網圖書TOP250的數據77
5.4 綜合案例2——爬取起點中文網小說信息83

第6章使用API​​ 88
6.1 API的使用88
6.2 解析JSON數據93
6.3 綜合案例1——爬取PEXELS圖片98
6.4 綜合案例2——爬取糗事百科網的用戶地址信息102

第7章數據庫存儲109
7.1 MongoDB數據庫109
7.2 MySQL數據庫117
7.3 綜合案例1——爬取豆瓣音樂TOP250的數據126
7.4 綜合案例2——爬取豆瓣電影TOP250的數據132

第8章多進程爬蟲139
8.1 多線程與多進程139
8.2 綜合案例1——爬取簡書網熱評文章143
8.3 綜合案例2——爬取轉轉網二手市場商品信息150

第9章異步加載159
9.1 異步加載技術與爬蟲方法159
9.2 綜合案例1——爬取簡書網用戶動態信息165
9.3 綜合案例2——爬取簡書網7日熱門信息173

第10章表單交互與模擬登錄182
10.1 表單交互182
10.2 模擬登錄187
10.3 綜合案例1——爬取拉勾網招聘信息188
10.4 綜合案例2——爬取新浪微博好友圈信息195

第11章Selenium模擬瀏覽器209
11.1 Selenium和PhantomJS 209
11.2 Selenium和PhantomJS的配合使用213
11.3 綜合案例1——爬取QQ空間好友說說218
11.4 綜合案例2——爬取淘寶商品信息224

第12章Scrapy爬蟲框架229
12.1 Scrapy的安裝和使用229
12.2 綜合案例1——爬取簡書網熱門專題信息240
12.3 綜合案例2——爬取知乎網Python精華話題246
12.4 綜合案例3——爬取簡書網專題收錄文章250
12.5 綜合案例4——爬取簡書網推薦信息257