網站可靠性工程｜Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)

Betsy Beyer, Jennifer Petoff, Chris Jone 著、孫宇聰譯

預覽內頁

出版商: 歐萊禮
出版日期: 2017-11-14
定價: $780
售價: 7.9 折 $616
語言: 繁體中文
頁數: 528
ISBN: 9864766252
ISBN-13: 9789864766253
相關分類: DevOps
此書翻譯自: Site Reliability Engineering: How Google Runs Production Systems (Paperback)
相關翻譯: SRE：Google 運維解密 (簡中版)

立即出貨(限量)

網站可靠性工程｜Google 的系統管理之道 (Site Reliability Engineering: How Google Runs Production Systems)(SRE)-preview-1

買這商品的人也買了...

~~$580~~ $452

無瑕的程式碼－敏捷軟體開發技巧守則 (Clean Code: A Handbook of Agile Software Craftsmanship)
~~$940~~ $700

無瑕的程式碼－敏捷軟體開發技巧守則 + 番外篇－專業程式設計師的生存之道 (雙書合購)
~~$650~~ $507

Continuous Delivery 中文版：利用自動化的建置、測試與部署完美創造出可信賴的軟體發佈 (Continuous Delivery: Reliable Software Releases through Build, Test, and Deployment Automation)
~~$580~~ $458

建構微服務｜設計細微化的系統 (Building Microservices)
~~$780~~ $616

資安風險評估指南 (Network Security Assessment, 3/e)
~~$480~~ $379

鳳凰專案｜看 IT部門如何讓公司從谷底翻身的傳奇故事
~~$650~~ $507

單元測試的藝術, 2/e (The Art of Unit Testing: with examples in C#, 2/e)
~~$400~~ $316

軟體專案開發實務｜別只當編程猴 (Programming Beyond Practices: Be More Than Just a Code Monkey)
~~$520~~ $411

Soft Skills 軟實力｜軟體開發人員的生存手冊 (Soft Skills: The software developer's life manual)
~~$450~~ $356

演算法圖鑑：26種演算法 + 7種資料結構，人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解
~~$500~~ $425

為你自己學 Git
~~$580~~ $458

資安防禦指南｜資訊安全架構實務典範 (Defensive Security Handbook: Best Practices for Securing Infrastructure)
~~$720~~ $569

Effective DevOps 中文版 (Effective DevOps: Building a Culture of Collaboration, Affinity, and Tooling at Scale)
~~$580~~ $452

無瑕的程式碼－整潔的軟體設計與架構篇 (Clean Architecture: A Craftsman's Guide to Software Structure and Design)
~~$520~~ $411

Kubernetes：建置與執行 (Kubernetes: Up and Running: Dive into the Future of Infrastructure)
~~$1,280~~ $1,088

CODE COMPLETE：軟體開發實務指南, 2/e (中文版) (Code Complete: A Practical Handbook of Software Construction, 2/e)
$454

持續交付 2.0 業務引領的 DevOps 精要
~~$480~~ $379

Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)
~~$680~~ $578

領域驅動設計：軟體核心複雜度的解決方法 (Domain-Driven Design: Tackling Complexity in the Heart of Software)
~~$580~~ $458

DevOps Handbook｜打造世界級技術組織的實踐指南 (中文版) (The DevOps Handbook: How to Create World-Class Agility, Reliability, and Security in Technology Organizations)
~~$480~~ $379

分散式系統設計 (Designing Distributed Systems: Patterns and Paradigms for Scalable, Reliable Services)
~~$800~~ $632

重構｜改善既有程式的設計, 2/e (繁中平裝版)(Refactoring: Improving The Design of Existing Code, 2/e)
~~$720~~ $612

Working Effectively with Legacy Code : 管理、修改、重構遺留程式碼的藝術 (中文版)
~~$780~~ $616

網站可靠性工程工作手冊｜導入SRE的實用方法 (The Site Reliability Workbook)
~~$680~~ $537

軟體架構原理｜工程方法 (Fundamentals of Software Architecture: A Comprehensive Guide to Patterns, Characteristics, and Best Practices)

商品描述

SRE 全名是 Site Reliability Engineering 網站可靠性工程

SRE 是 Google 提倡的系統管理實踐之道、指導思想，這個名詞同時也是軟體工程師 (Software Engineer) 的角色，可以類比於傳統的維運工程師或系統工程師，但是 SRE 是用計算機科學和軟體工程手段，實踐大型系統維運、分散式系統的設計與開發。

- 91APP 技術經理 Rick Hwang 專文推薦

大型軟體系統生命週期的絕大部分都處於「使用」階段，而非「設計」或「實現」階段。那麼，為何我們總是認為軟體工程應該首要關注設計和實現呢？

Google SRE團隊的核心成員在本書中分享了他們是如何對軟體進行生命週期的整體性關注的，以及解說這樣的做法為何能夠幫助Google成功地構建、部署、監控和運維世界上現存最大的軟體系統。您可以從中學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的思考方式與具體作法。任何一個想要建立、擴展大規模整合系統的人都應該閱讀本書。本書針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。

本書分為以下四個部分：

．簡介：說明何謂網站可靠性工程（SRE）及其與傳統IT業界作法的差異

．原則：介紹SRE日常工作背後的指導原則：SRE的工作模式、行為方式，以及平時維運工作中關注的重點等

．實踐：探討SRE管理大型分散式系統的理念和實踐典範

．管理：介紹Google的訓練與團隊協作的方式

名人推薦

「能讓所有公司受益的高科技管理實務，只有Google能夠辦到的創新。」

—Thomas A.Limoncelli, 《The Practice of Cloud System Administration》共同作者

「web高可用性服務管理人員必讀的一本書」

—Adrian Cockcroft, 前任Netflix雲端架構師

「不管是為了自己還是公司，你都應該熟讀本書並動手實踐這些理念」

—Jez Humble, 《Continuous Delivery》、《精實企業》共同作者

作者簡介

Betsy Beyer
Google紐約分部專責SRE 的技術文件作家，之前曾為遍布全球的Google資料中心與Mountain View 硬體維運團隊撰寫文件，在搬到紐約之前，他曾擔任史丹佛大學技術寫作課程的講師。

Chris Jones
Google App Engine 的SRE。每天處理超過280億個請求，Chris之前的工作包括Google廣告統計、資料倉儲及使用者支援系統的維護，更早之前任職於學術單位的IT 部門，並參與競選資料分析，以及一些BSD核心的修改，他擁有電腦工程、經濟學及技術政策學的學位，也是一名有執照的專業工程師。

Jennifer Petoff
Google SRE 團隊的專案經理，工作地點在都柏林、愛爾蘭，她曾經負責管理大型全球專案，包括：科學研究、工程、人力資源及廣告等。

Niall Murphy
Google愛爾蘭團隊廣告SRE的負責人，投身網路業已經近20 年，目前是INEX的主席，他寫過許多科技文章與書籍，包括歐萊禮出版的《IPv6 Network Administration》以及很多RFC，目前正參與撰寫愛爾蘭網際網路發展史，他擁有電腦科學、數學，以及詩歌學的學位，目前與妻子和兩個兒子居住在都柏林。

目錄大綱

PART I 概覽

第1章緒論

第2章從 SRE 的角度看 Google 正式服務環境

PART II 指導原則

第3章擁抱風險

第4章服務水準目標

第5章減少瑣事

第6章監控分散式系統

第7章 Google 自動化系統的演進

第8章發行工程

第9章簡單化

PART Ⅲ 具體實踐

第10章基於時間序列資料進行有效警報

第11章 on-call

第12章有效的故障排除技巧

第13章緊急應變

第14章緊急事件管理

第15章事後檢討：從失敗中學習

第16章事件追蹤

第17章測試可靠性

第18章 SRE 部門中的軟體工程實務

第19章前端伺服器的負載平衡

第20章資料中心內部的負載平衡系統

第21章處理系統超載

第22章處理連鎖故障

第23章管理關鍵狀態：利用分散式一致化來提高可靠性

第24章分散式任務排程系統

第25章資料處理管線

第26章資料完整性：讀寫一致

第27章可靠地進行大規模發行

PART Ⅳ 管理

第28章迅速培養 SRE 加入 on-call

第29章處理插斷性任務

第30章透過嵌入 SRE 的方式幫助團隊從維運超載中恢復

第31章 SRE 與其他團隊的溝通與協同合作

第32章 SRE 參與模型的演進歷程

PART Ⅴ 總結

第33章其他產業的實務經驗

第34章結語

附錄A 系統可用性

附錄B 正式作業環境維運過程中的實踐典範

附錄C 事件狀態範例文件

附錄D 事後檢討範例

附錄E 上線協調檢核表

附錄F 產務會議紀錄範例

參考文獻

索引

關於作者+出版記事