買這商品的人也買了...
-
$534$507 -
$403SQL 優化核心思想
-
$594$564 -
$474$450 -
$505數據庫高效優化 : 架構、規範與 SQL 技巧
-
$594$564 -
$520大型網站運維:從系統管理到 SRE
-
$700$490 -
$534$507 -
$1,000$790 -
$407站點可靠性工程(SRE)實戰
-
$580$458 -
$650$507 -
$630$497 -
$580$458 -
$980$774 -
$714$678 -
$880$695 -
$620$484 -
$500$395 -
$602高性能之道 : SRE 視角下的運維架構實踐
-
$517高並發架構實戰:從需求分析到系統設計
-
$620$484 -
$648$616 -
$1,280$998
商品描述
這是一本從架構、開發、測試、運維全流程講解如何進行軟件可靠性工程建設的著作,
它將幫助讀者構建針對軟件可靠性工程的完整的知識體系、工程體系和理論體系。
本書作者是虎牙科技的SRE架構師,他基於20餘年的架構、研發和運維經驗,
用4年時間反復打磨,代表中國的工程師總結了中國因特網企業的SRE方法和經驗。
本書得到了中國SRE奠基人、虎牙科技CEO以及華為、騰訊、阿裡、
B站、亞馬遜等企業的10餘位技術專家高度評價並一致推薦。
本書參考傳統可靠性工程及軟件可靠性工程體系,把傳統可靠性工程中的“六性”(可靠性、維修性、測試性、保障性、安全性、環境適應性)
轉化為因特網軟件可靠性工程的6種能力(可靠性設計能力、觀測能力、修復能力、保障能力、反脆弱能力、管理能力)。
每一項能力都包括:因特網SRE體系中的概念、能力的設計、能力建設的原則與方法、能力的度量與改進,以及相應的實踐案例。
通過這6種能力把可靠性相關的工作組織起來,6種能力對應6個工作方向,
不僅清晰地描繪出因特網軟件可靠性工程體系的全貌,而且詳細闡述了每一種能力的獲得方法。
本書基於傳統可靠性和軟件可靠性的研究成果,借鑒和應用它們的成熟理論和工程方法,
結合因特網軟件的實際情況並加以融合和改進,提出了一套符合因特網時代的軟件可靠性工程方法。
此外,本書還介紹了可靠性管理能力,對因特網軟件開發團隊、
運維團隊的技術領導者以及希望轉型為可靠性工程師的傳統運維人員、開發人員應該都有一定參考價值。
作者簡介
張觀石,資深運維專家及架構師,擁有20餘年軟件開發、架構、維運、SRE經驗。目前任職於虎牙直播,歷任專案研發負責人、SRE負責人、架構師,虎牙事故管理委員會委員、基礎保障部架構師委員會委員。 為虎牙基於微服務架構的直播業務、影音業務、海外直播業務建立了穩定的保障體系,多次擔任虎牙「英雄聯盟全球總決賽直播」穩定性保障負責人。在混合多雲架構、可觀測性、預案、變更管控、AIOps等SRE領域有深入研究與豐富經驗。 同時,他也是中國信通院分佈式系統穩定實驗室高級技術專家,參與編寫了《資訊系統穩定性保障能力建構指南》。 《維運前線》一書的共同作者。多次參與GOPS、MSUP、GDevops技術大會分享。
目錄大綱
推薦序1
推薦序2
推薦序3
推薦序4
讚譽
前言
第1章 網絡軟件可靠度概論
1.1 為什麼要研究網絡軟件可靠度工程
1.1.1 大型網絡企業的典型案例回顧
1.1.2 研究網絡服務可靠性的迫切性和重要性
1.1.3 研究軟件可靠性工程是未來更複雜的軟件產品發展的需要
1.2 什麼是可靠度工程
1.2.1 可靠性與可靠性工程概述
1.2.2 可靠度工程發展的3個階段
1.2.3 傳統物理可靠度工程方法
1.3 軟件可靠度工程
1.3.1 軟件可靠度工程的概念
1.3.2 軟件可靠度工程發展的兩個階段
1.4 網絡軟件的可靠性
1.4.1 相關名詞介紹
1.4.2 網絡軟件可靠性工程現況及挑戰
1.4.3 網絡軟件可靠度工程方法發展的3個階段
1.5 網絡軟件可靠性工程的工作思路
1.5.1 理解軟件可靠性的3個核心問題
1.5.2 建立可靠度工程體系架構的思路
1.6 本章小結
第2章 網絡軟件可靠度工程及可靠度度量
2.1 軟件生命週期的可靠性工作
2.1.1 網絡軟件生命週期的可靠性工作及原則
2.1.2 需求階段的可靠性工作
2.1.3 設計與實現階段的可靠性工作
2.1.4 測試與驗證階段的可靠性工作
2.1.5 部署與發布階段的可靠性工作
2.1.6 持續運作階段的可靠性工作
2.2 故障生命週期的可靠度工作
2.2.1 監控故障
2.2.2 故障定界定位
2.2.3 修復故障
2.3 可靠度工程6種能力綜述
2.4 網絡軟件可靠度度量與評價
2.4.1 可靠度度量介紹
2.4.2 可靠性度量和分析方法
2.4.3 軟件可靠度度量過程
2.4.4 如何制定可靠性目標
2.5 本章小結
第3章 網絡軟件可靠度設計與分析
3.1 為什麼要進行可靠性設計
3.1.1 什麼是可靠度設計
3.1.2 可靠性是設計出來的
3.2 可靠性設計原則與通用方法
3.2.1 可靠性設計的原則
3.2.2 可靠度設計的4種方法
3.3 軟件可靠度架構模型
3.4 可靠度分析與架構風險
3.5 可靠性分配
3.5.1 可靠性分配的目的
3.5.2 可靠性分配的原則
3.5.3 可靠性分配的方法
3.6 架構分層設計及其可靠度方法
3.6.1 可靠度視角的分層架構
3.6.2 業務架構的可靠度設計
3.6.3 應用架構的可靠度設計
3.6.4 系統架構的可靠度設計
3.6.5 部署架構的可靠度設計
3.6.6 基礎設施架構的可靠性設計
3.6.7 可靠度相關能力的設計
3.7 架構可靠性評審
3.7.1 評審目的
3.7.2 評審過程
3.7.3 評審方法
3.8 可靠性預計
3.9 本章小結
第4章 可靠度觀測能力建構與實踐
4.1 建構觀測能力的目的
4.2 排查、監控、觀測技術的發展
4.2.1 登入服務器透過系統指令排查問題
4.2.2 集中式監控系統與日誌系統
4.2.3 可觀測性
4.2.4 觀測能力與監控
4.2.5 建立綜合的觀測能力
4.3 監控觀測的感知場景與感知方式
4.3.1 業務可靠性感知
4.3.2 影響範圍及原因定界定位
4.3.3 幫助理解複雜系統結構並自動建模
4.3.4 智慧告警條件的資料感知
4.3.5 根因推薦與檢驗診斷、決策
4.3.6 容量感知與彈性
4.3.7 人的感知與決策能力
4.3.8 場景化的固化大盤
4.3.9 巡檢與非即時分析
4.4 觀測能力設計
4.4.1 設計原則
4.4.2 設計方法
4.5 觀測能力要求與度量
4.5.1 定性要求與分析
4.5.2 定量要求與分析
4.6 觀測能力建構實踐
4.7 本章小結
第5章 故障修復、綜合保障能力建構與實踐
5.1 軟件故障修復能力概述
5.1.1 什麼是軟件故障修復能力
5.1.2 修復能力是現代軟件系統的重要能力
5.1.3 研究故障規律是修復能力的基礎
5.2 軟件故障修復能力設計與建設
5.2.1 設計原則
5.2.2 計畫平臺的設計
5.2.3 變更型故障快速修復
5.2.4 災難型故障快速修復
5.2.5 容量型故障快速修復
5.2.6 應急協同
5.3 維運保障能力
5.4 修復能力的度量和要求
5.4.1 定性要求
5.4.2 定量要求與評估
5.5 修復能力及保障能力建構實踐
5.5.1 虎牙音影片修復能力實踐
5.5.2 計畫平臺建置實踐
5.5.3 虎牙頻寬資源保障能力實踐
5.6 本章小結
第6章 可靠性試驗與反脆弱能力建構與實踐
6.1 網絡軟件可靠性試驗與反脆弱能力概述
6.1.1 什麼是可靠性試驗與反脆弱能力
6.1.2 為什麼要反脆弱
6.2 軟件系統的脆弱性因素分析
6.2.1 環境、產品、人的關係
6.2.2 脆弱性因素分析
6.3 反脆弱能力建構與分析
6.3.1 應對脆弱性的思路
6.3.2 反脆弱能力建構原則
6.3.3 環境脆弱性的可靠度試驗:混沌工程
6.3.4 軟件系統本身的可靠性測試:故