工作职责
1、负责业务稳定性,紧急事故处理,后续事故分析与优化,参与系统高可用建设方案设计,推进落地;
2、通过服务治理、服务连续性建设、服务容量管理、故障演练等方法持续提升业务稳定性;
3、负责运维技术难点的攻坚,主导制定运维运营可用性技术规范,识别与控制技术演进过程中的运营风险;
4、负责设计和交付系统稳定性保障解决方案,设计稳定性保障运维工具解决方案。
任职资格
1、5年以上运维工作经验,有互联网行业相关工作经验优先,对以下一个或几个领域有深入理解:应用运维、运维服务治理、运维自动化等;
2、掌握主流中间件产品、数据库产品,熟悉主流linuxOS,了解主流服务器、存储、网络设备厂商软硬件功能特性,熟悉主流公有云体系,有公有云、混合云相关运维实施经验优先;
3、熟悉大型互联网平台的架构,熟悉微服务框架、分布式组件、高并发高可用系统,并有丰富的实践经验;
4、精通系统故障处理和维稳保障工作,有丰富实战经验;
5、对问题有清晰的分析逻辑和全局思维,能够提供创造性的解决思路和方案;
6、有较强的抗压能力,能够并行处理多项工作;
7、有良好的沟通能力,具备很强的组织协调能力、有技术团队领导经验;
8、有ITIL认证,有ITIL体系实践经验,有服务体系化思维。