Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e

洪錦魁

預覽內頁

出版商: 深智數位
出版日期: 2021-10-19
定價: $750
售價: 7.9 折 $593
語言: 繁體中文
頁數: 552
裝訂: 平裝
ISBN: 9860776474
ISBN-13: 9789860776478
相關分類: 大數據 Big-data、Web-crawler 網路爬蟲

立即出貨 (庫存 > 10)

Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e-preview-1

買這商品的人也買了...

~~$450~~ $356

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
~~$790~~ $672

一次就懂 ASP.NET MVC 5.x 網站開發：Web 應用的經典實務範例解析 (Visual C#)
~~$750~~ $638

NumPy 高速運算徹底解說 - 六行寫一隻程式？你真懂深度學習？手工算給你看！
~~$539~~ $512

從0到1 HTML5 Canvas 動畫開發 (全彩印刷)
~~$1,080~~ $853

Python 最強入門邁向頂尖高手之路：王者歸來, 2/e (全彩版)
~~$500~~ $395

PowerShell 流程自動化攻略 (Powershell for Sysadmins: A Hands-On Guide to Automating Your Workflow)
~~$690~~ $545

演算法：最強彩色圖鑑 + Python 程式實作 -- 王者歸來 (全彩印刷第二版)
~~$880~~ $660

Python 自學聖經：從程式素人到開發強者的技術與實戰大全, 2/e (附影音/範例程式)
~~$599~~ $473

資料科學的建模基礎 : 別急著 coding！你知道模型的陷阱嗎？
~~$1,200~~ $948

深度學習 -- 最佳入門邁向 AI 專題實戰 (書籍有些許瑕疵,不介意再下單)
~~$1,080~~ $853

最完整跨平台網頁設計：HTML + CSS + JavaScript + jQuery + Bootstrap + Google Maps 王者歸來, 2/e (全彩印刷)
~~$790~~ $672

機器學習：彩色圖解 + 基礎微積分 + Python實作 : 王者歸來, 3/e (全彩印刷)
~~$880~~ $695

跟著 Docker 隊長，修練 22天就精通 - 搭配 20小時作者線上教學，無縫接軌 Microservices、Cloud-native、Serverless、DevOps 開發架構
~~$599~~ $473

資料科學的統計實務 : 探索資料本質、扎實解讀數據，才是機器學習成功建模的第一步
~~$780~~ $616

Python 資料分析必備套件！Pandas 資料清理、重塑、過濾、視覺化 (Pandas 1.x Cookbook, 2/e)
~~$450~~ $356

黑帽 Python｜給駭客與滲透測試者的 Python 開發指南, 2/e (Black Hat Python : Python Programming for Hackers and Pentesters, 2/e)
~~$890~~ $703

OpenCV 影像創意邁向 AI 視覺王者歸來 (全彩印刷)
~~$720~~ $569

Windows Server 2022 系統與網站建置實務
~~$1,080~~ $853

Python - 最強入門邁向數據科學之路 - 王者歸來 (全彩印刷第三版)
~~$680~~ $537

Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模，數據工程一次搞定！
~~$480~~ $379

用 Canva 設計超快超質感：平面、網頁、電子書、簡報、影片製作與 AI 繪圖最速技
~~$1,200~~ $948

Python - 最強入門 ChatGPT 助攻邁向數據科學之路 - 王者歸來 (全彩印刷第四版)
~~$680~~ $530

AI 世代必備！Python × ChatGPT 高效率工作術：從網路爬蟲到辦公室自動化超實務
~~$780~~ $616

Python 大數據專案 X 工程 X 產品資料工程師的升級攻略, 2/e
~~$1,200~~ $948

史上最強 Python 入門邁向頂尖高手之路王者歸來, 3/e (全彩印刷)

商品描述

Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★

第二版和第一版做比較，增加下列內容：
★：全書增加約50個程式實例
★：網路趨勢，了解輿情
★：網路關鍵字查詢
★：YouBike資訊
★：國際金融資料查詢
★：博客來圖書排行榜
★：中央氣象局
★：租屋網站
★：生活應用

下列是本書有關網路爬蟲知識的主要內容：
★：認識搜尋引擎與網路爬蟲
★：認識約定成俗的協議robots.txt
★：從零開始解析HTML網頁
★：認識與使用Chrome開發人員環境解析網頁
★：認識Python內建urllib、urllib2模組，同時介紹好用的requests模組
★：說明lxml模組
★：Selenium模組
★：XPath方法解說
★：css定位網頁元素
★：Cookie觀念
★：自動填寫表單
★：使用IP代理服務與實作
★：偵測IP
★：更進一步解說更新的模組Requests-HTML
★：認識適用大型爬蟲框架的Scrapy模組

在書籍內容，筆者設計爬蟲程式探索下列相關網站：
☆：國際與國內股市資訊
☆：基金資訊
☆：股市數據
☆：人力銀行
☆：維基網站
☆：主流媒體網站
☆：政府開放數據網站
☆：YouBike服務網站
☆：PTT網站
☆：電影網站
☆：星座網站
☆：小說網站
☆：博客來網站
☆：中央氣象局
☆：露天拍賣網站
☆：httpbin網站
☆：python.org網站
☆：github.com網站
☆：ipstack.com網站API實作
☆：Google API實作
☆：Facebook API實作

探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據：
★：CSV檔案格式
★：JSON檔案格式
★：XML、Pickle
★：Excel
★：SQLite

在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題：
☆：URL編碼與中文網址觀念
☆：將中文儲存在JSON格式檔案
☆：亂碼處理
☆：簡體中文在繁體中文Windows環境資料下載與儲存
☆：解析Ajax動態加載網頁，獲得更多頁次資料
☆：使用Chromium瀏覽器協助Ajax動態加載

作者簡介

洪錦魁

　　一位跨越電腦作業系統與科技時代的電腦專家，著作等身的作家。
　　■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
　　■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
　　■ Internet 時代他的代表作品是網頁設計使用 HTML。
　　■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。
　　■ 人工智慧時代他的代表作品是機器學習彩色圖解 + 基礎數學與基礎微積分 + Python實作。

　　除了作品被翻譯為簡體中文、馬來西亞文外，2000 年作品更被翻譯為Mastering　HTML 英文版行銷美國，近年來作品則是在北京清華大學和台灣深智同步發行：

　　1：Java 入門邁向高手之路王者歸來
　　2：Python 最強入門邁向頂尖高手之路王者歸來
　　3：Python 最強入門邁向數據科學之路王者歸來
　　4：Python 網路爬蟲：大數據擷取、清洗、儲存與分析王者歸來
　　5：演算法最強彩色圖鑑 + Python 程式實作王者歸來
　　6：網頁設計HTML+CSS+JavaScript+jQuery+Bootstrap+Google Map 王者歸來
　　7：機器學習彩色圖解 + 基礎數學篇 + Python 實作王者歸來
　　8：機器學習彩色圖解 + 基礎微積分篇 + Python 實作王者歸來
　　9：R 語言邁向Big Data 之路
　　10：Excel 完整學習邁向最強職場應用王者歸來

　　他的近期著作分別登上天瓏、博客來、Momo 電腦書類暢銷排行榜第一名，他的書著作最大的特色是，所有程式語法會依特性分類，同時以實用的程式範例做解說，讓整本書淺顯易懂，讀者可以由他的著作事半功倍輕鬆掌握相關知識。

目錄大綱

第零章　認識網路爬蟲
0-1 認識HTML
0-2 網路地址URL
0-3 爬蟲的類型
0-4 搜尋引擎與爬蟲原理
0-5 網路爬蟲的搜尋方法
0-6 網路爬蟲是否合法
0-7 認識HTTP 與HTTPS
0-8 表頭(headers)

第一章　JSON 資料與繪製世界地圖
1-1 JSON 資料格式前言
1-2 認識json 資料格式
1-3 將Python 應用在json 字串形式資料
1-4 將Python 應用在json 檔案
1-5 簡單的json 檔案應用
1-6 世界人口數據的json 檔案
1-7 繪製世界地圖
1-8 XML

第二章　使用Python 處理CSV 文件
2-1 建立一個CSV 文件
2-2 用記事本開啟CSV 檔案
2-3 csv 模組
2-4 讀取CSV 檔案
2-5 寫入CSV 檔案
2-6 寫入與讀取含中文的 CSV 文件
2-7 專題—使用 CSV 檔案繪製氣象圖表
2-8 pickle 模組
2-9 Python 與Microsoft Excel

第三章　網路爬蟲基礎實作
3-1 上網不再需要瀏覽器了
3-2 下載網頁資訊使用 requests 模組
3-3 檢視網頁原始檔
3-4 分析網站使用Chrome 開發人員工具
3-5 下載網頁資訊使用urllib 模組
3-6 認識httpbin 網站
3-7 認識Cookie
3-8 設置代理IP

第四章　Pandas 模組
4-1 Series
4-2 DataFrame
4-3 基本Pandas 資料分析與處理
4-4 檔案的輸入與輸出
4-5 Pandas 繪圖
4-6 時間序列(Time Series)
4-7 專題—鳶尾花
4-8 專題—匯入網頁表格資料

第五章　BeautifulSoup 解析網頁
5-1 解析網頁使用BeautifulSoup 模組
5-2 其它HTML 文件解析
5-3 網路爬蟲實戰—圖片下載
5-4 網路爬蟲實戰—找出台灣彩券公司最新一期威力彩開獎結果
5-5 網路爬蟲實戰—列出Yahoo 焦點新聞標題和超連結
5-6 IP 偵測網站 FileFab

第六章　網頁自動化
6-1 hashlib 模組
6-2 環保署空氣品質JSON 檔案實作
6-3 檢測網站內容是否更新
6-4 工作排程與自動執行
6-5 環保署空氣品質的CSV 檔案

第七章　Selenium 網路爬蟲的王者
7-1 順利使用Selenium 工具前的安裝工作
7-2 獲得webdriver 的物件型態
7-3 擷取網頁
7-4 尋找HTML 文件的元素
7-5 XPath 語法
7-6 用Python 控制點選超連結
7-7 用Python 填寫表單和送出
7-8 用Python 處理使用網頁的特殊按鍵
7-9 用Python 處理瀏覽器運作
7-10 自動化下載環保署空氣品質資料

第八章　PTT 爬蟲實戰
8-1 認識批踢踢實業坊
8-2 進入PTT 網址
8-3 解析PTT 進入須滿18 歲功能鈕
8-4 各篇文章的解析
8-5 解析文章標題與作者
8-6 推文數量
8-7 文章發表日期
8-8 將PTT 目前頁面內容以JSON 檔案儲存
8-9 前一頁面處理的說明
8-10 進入PPT 的beauty 論壇網站
8-11 ipstack

第九章　Yahoo 奇摩電影網站
9-1 本週新片
9-2 中文片名和英文片名
9-3 上映日期
9-4 期待度
9-5 影片摘要
9-6 劇照海報
9-7 爬取兄弟節點
9-8 預告片
9-9 排行榜

第十章　台灣主流媒體網站
10-1 蘋果日報
10-2 聯合報
10-3 經濟日報
10-4 中國時報
10-5 工商時報

第十一章　Python 與SQLite 資料庫
11-1 SQLite 基本觀念
11-2 資料庫連線
11-3 SQLite 資料類型
11-4 建立SQLite 資料庫表單
11-5 增加SQLite 資料庫表單紀錄
11-6 查詢SQLite 資料庫表單
11-7 更新SQLite 資料庫表單紀錄
11-8 刪除SQLite 資料庫表單紀錄
11-9 DB Browser for SQLite
11-10 將台北人口數儲存SQLite 資料庫

第十二章　股市數據爬取與分析
12-1 證券櫃檯買賣中心
12-2 台灣證券交易所
12-3 Yahoo 股市資訊
12-4 台灣股市資料讀取與圖表製作
12-5 國際股市數據爬取

第十三章　金融資訊的應用
13-1 台灣銀行利率查詢
13-2 取得HTML 文件
13-3 分析HTML 文件
13-4 將利率表儲存成CSV 檔案
13-5 取得最優惠利率
13-6 基金資料

第十四章　YouBike 數據
14-1 台北市的YouBike 數據
14-2 認識YouBike 的JSON 數據
14-3 下載與儲存YouBike 資料
14-4 獲得天母運動公園的YouBike 數據
14-5 計算YouBike 車輛使用效率

第十五章　星座屋網站
15-1 進入星座屋網站
15-2 分析網站與爬取星座運勢文字
15-3 星座圖片的下載

第十六章　小說網站
16-1 進入小說網站
16-2 解析網站
16-3 處理編碼問題
16-4 爬取書籍章節標題
16-5 爬取章節內容的連結
16-6 從章節超連結輸出小說內容
16-7 將小說內文存入檔案

第十七章　台灣高鐵與中央氣象局數據
17-1 台灣高鐵
17-2 中央氣象局

第十八章　維基百科
18-1 維基百科的中文網址
18-2 爬取台積電主文資料
18-3 台積電的簡史
18-4 URL 編碼

第十九章　Python 與Facebook
19-1 Facebook 圖形API
19-2 facebook-sdk 存取資料的應用

第二十章　Google API
20-1 申請Google API 金鑰
20-2 基本操作Google Map
20-3 爬蟲擷取Google 地理資訊
20-4 地理資訊的基本應用
20-5 找尋指定區域內的景點

第二十一章　Yahoo 拍賣網站
21-1 Yahoo 拍賣網站
21-2 分析網頁與單個商品搜尋
21-3 系列商品搜尋

第二十二章　日常生活的應用
22-1 租房資訊
22-2 台鐵網站
22-3 博客來電腦書排行榜

第二十三章　網路趨勢
23-1 使用Google Trends
23-2 執行搜尋
23-3 使用pytrends 模組
23-4 每天或今天搜尋熱門的關鍵字
23-5 年度熱門搜尋的關鍵字
23-6 查詢同時列出建議關鍵字
23-7 查詢關鍵字的相關查詢
23-8 查詢關鍵字的相關主題
23-9 關鍵字熱門搜尋區域

第二十四章　Requests-HTML 模組
24-1 安裝與導入
24-2 使用者請求Session
24-3 認識回傳資料型態與幾個重要屬性
24-4 數據清洗與爬取
24-5 搜尋豆瓣電影網站
24-6 Ajax 動態數據加載

第二十五章　人力銀行網站
25-1 認識人力銀行網頁
25-2 分析與設計簡單的爬蟲程式
25-3 更進一步分析網頁

第二十六章　Scrapy
26-1 安裝Scrapy
26-2 從簡單的實例開始—建立Scrapy 專案
26-3 Scrapy 定位元素
26-4 使用cookie 登入
26-5 保存文件為JSON 和CSV 檔案
26-6 Scrapy 架構圖
26-7 專題—爬取多頁PTT 資料