爬蟲在手資料我有：7堂課學會高效率 Scrapy 爬蟲（iT邦幫忙鐵人賽系列書）

簡學群

預覽內頁

出版商: 博碩文化
出版日期: 2021-03-31
定價: $450
售價: 5.0 折 $225
語言: 繁體中文
頁數: 224
ISBN: 9864347438
ISBN-13: 9789864347438
相關分類: Web-crawler 網路爬蟲

立即出貨 (庫存 < 9)

爬蟲在手資料我有：7堂課學會高效率 Scrapy 爬蟲（iT邦幫忙鐵人賽系列書）-preview-1

買這商品的人也買了...

~~$780~~ $616

資安風險評估指南 (Network Security Assessment, 3/e)
~~$550~~ $429

0 陷阱！0 誤解！8 天重新認識 JavaScript！（iT邦幫忙鐵人賽系列書）
~~$550~~ $385

在 React 生態圈打滾的一年 feat.TypeScript（iT邦幫忙鐵人賽系列書）
~~$550~~ $468

突破困境：資安開源工具應用（iT邦幫忙鐵人賽系列書）
~~$620~~ $484

LINE Bot by Python 全攻略：從 Heroku 到 AWS 跨平台實踐（iT邦幫忙鐵人賽系列書）
~~$520~~ $260

PHP 網路爬蟲開發：入門到進階的爬蟲技術指南（iT邦幫忙鐵人賽系列書）
~~$500~~ $390

Power BI 實作大數據篩選分析與商業圖表設計
~~$520~~ $406

區塊鏈生存指南：帶你用 Python 寫出區塊鏈！（iT邦幫忙鐵人賽系列書）
~~$750~~ $593

Python x Excel VBA x JavaScript｜網路爬蟲 x 實戰演練
~~$500~~ $250

力抗暗黑：Azure 資安天使的逆襲（iT邦幫忙鐵人賽系列書）
~~$500~~ $390

生活資安五四三！：從生活周遭看風險與資訊安全（iT邦幫忙鐵人賽系列書）
~~$550~~ $429

前端三十：從 HTML 到瀏覽器渲染的前端開發者必備心法（iT邦幫忙鐵人賽系列書）
~~$400~~ $200

改變歷史的加密訊息（iT邦幫忙鐵人賽系列書）
~~$480~~ $379

Python 刷題鍛鍊班：老手都刷過的 50 道程式題, 求職面試最給力 (Python Workout: 50 ten-minute exercises)
~~$600~~ $468

矽谷工程師教你 Kubernetes：史上最全 CI/CD 中文應用指南（iT邦幫忙鐵人賽系列書）
~~$600~~ $468

JavaScript 概念三明治：基礎觀念、語法原理一次帶走！（iT邦幫忙鐵人賽系列書）
~~$620~~ $434

JavaScript 爬蟲新思路！從零開始帶你用 Node.js 打造 FB＆IG 爬蟲專案（iT邦幫忙鐵人賽系列書）
~~$520~~ $406

初學 Python 的第一本書 : 從基本語法到模組應用（iT邦幫忙鐵人賽系列書）
~~$520~~ $406

設計重構：25個管理技術債的技巧消除軟體設計臭味 (Refactoring for Software Design Smells: Managing Technical Debt)
~~$750~~ $593

Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e
~~$600~~ $510

Visual Studio Code 實用指南：官方文件沒有詳述的 Extension 觀念、命令組合技與鍵位客製化技巧（iT邦幫忙鐵人賽系列書）
~~$560~~ $392

深入剖析 Kubernetes
~~$650~~ $507

今晚來點 Web 前端效能優化大補帖：一次搞定指標 × 工具 × 技巧，打造超高速網站（iThome鐵人賽系列書）
~~$680~~ $530

AI 世代必備！Python × ChatGPT 高效率工作術：從網路爬蟲到辦公室自動化超實務
~~$650~~ $507

LLM 大型語言模型的絕世祕笈：27路獨步劍法，帶你闖蕩生成式 AI 的五湖四海（iThome鐵人賽系列書）

商品描述

由淺入深了解Scrapy爬蟲框架，讓你從零開始建立高效率爬蟲！

◆自學網路爬蟲沒問題，手把手教學讓你無痛上手
◆完整的網路爬蟲和Scrapy知識，資料取得更輕鬆
◆學會各種套件和實作範例，讓你的爬蟲比別人更有效率
本書內容改編自第11屆iT邦幫忙鐵人賽的AI & Data組優選網路系列文章─《爬
蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰》。在AI的大時代中，「資料來源」
是基礎中的基礎，但網路上的資料豐富又繁雜，總不可能都靠人工來蒐集資料。
這時就是爬蟲出場的時候了！本書會帶讀者了解爬蟲的基礎知識，克服爬蟲
常見的問題，最後可以寫出維護成本低、執行效率高的爬蟲程式。

│四大重點│
★初學者必備的爬蟲指南，大大降低你的學習門檻
網路爬蟲妙計已為你爬取完成！從安裝環境、認識架構、資料儲存、
除錯到各類型網站實作，本書將一步步帶你學會網路爬蟲。

★全面解析各種知識，爬蟲能力再提升
不只教你如何進行網路爬蟲，還要帶你深入Scrapy架構，並特別介紹NoSQL、
反反爬蟲。提升你的爬蟲技能，擁有越級打怪的神力。

★活用各種套件，打造高效率爬蟲
本書將手把手帶你活用各種套件，並從範例中學會撰寫精簡有效的程式碼，
讓你克服問題、達成任務，邁向高效率的資料取得之路。

★爬取資料生活化，就像抓寶一樣好玩有趣！
你會學到如何抓取PTT、Mobile01、新聞網站、股市網站資料，你想要的各種資料都能輕鬆取得。

│適用讀者│
◆對Python有基礎了解，想要學習爬蟲程式的初學者
◆為爬蟲維護和效能所苦，想要更進一步的開發人員
【下載範例程式檔案】
本書範例檔下載網址：
https://github.com/rex-chien/ithome-scrapy

作者簡介

簡學群

在業界打滾五年的C#後端工程師。興趣使然，也斜槓於Python爬蟲、PHP、Laravel、Vue.js、Java Spring等領域，熱愛跟朋友研究和分享新技術。
連續參加第10、11屆iT邦幫忙鐵人賽且完賽，更在第11屆iT邦幫忙鐵人賽中，以《爬蟲在手、資料我有 -30 天 Scrapy 爬蟲實戰》系列文章，獲得AI & Data組優選。

目錄大綱

前言
目錄

第1章　基礎知識
1.1 安裝開發環境
1.2 網路資料常見的格式

第2章　爬蟲基礎
2.1 剖析來源資料
2.2 從網路上取得資料

第3章　基礎實戰–蒐集iThelp 文章資料
3.1 列表頁
3.2 換頁
3.3 內文
3.4 文章資訊
3.5 回文

第4章　資料持久化
4.1 PostgreSQL
4.2 NoSQL

第5章　進階爬蟲
5.1 反反爬蟲
5.2 練習其他網站

第6章　Scrapy 基礎
6.1 Scrapy 架構
6.2 開發環境
6.3 實作Scrapy爬蟲
6.4 Scrapy的結構化資料－Item
6.5 在Scrapy中處理爬取結果－Item Pipelines
6.6 在Scrapy中處理請求和回應－Downloader Middlewares
6.7 Scrapy的設定
6.8 在Scrapy中操作瀏覽器
6.9 Scrapy的日誌
6.10 蒐集Scrapy的統計資訊
6.11 發送電子郵件