如何构建一个稳定的服务

1:20:22
 
分享
 

Manage episode 293894955 series 2457217
由Player FM以及我们的用户群所搜索的梁杰 — 版权由出版商所拥有,而不是Player FM,音频直接从出版商的伺服器串流. 点击订阅按钮以查看Player FM更新,或粘贴收取点链接到其他播客应用程序里。

本期请到在硅谷科技公司工作的云淡风轻,聊聊 SRE(Site Reliability Engineer)以及构建稳定的服务。话题很大,本期主要是科普性质,给像我这样的外行介绍一下 SRE 是什么,大概有哪些通用的方法来确保服务稳定。

参考链接:

  • ggtalk 听众交流群,请添加我的 wx:lj925184928,注明 ggtalk
  • 一些术语:site reliability engineering(SRE), reliability, availability, scalability, efficiency, infrastructure
  • 推荐的书:SRE Books

新听众?推荐阅读新听众指南

时间线:

  • 00:40 个人介绍 + 主题介绍 + 免责声明
  • 05:52 SRE 和运维有什么区别 + SRE 职位相关的讨论
  • 13:26 稳定性为什么重要 + 稳定性取决于什么 + 宕机
  • 23:47 如何提高稳定性——程序 bug 的处理
  • 38:49 如何提高稳定性——灾备
  • 58:52 如何提高稳定性——基础设施故障
  • 01:04:56 如何提高稳定性——功能优先级

85集单集