运维标准化实践

运维标准化实践

现状

运维负责的事项有如下:

  • 维护现网机器运行状态
  • 接收上线单,完成应用上线
  • 对上线脚本进行审核

问题如下:

  • 没有办法对软件提供服务工程提供保证,也就是对外无法承诺时间,对内无法有效的反馈提升软件质量
  • 没有统一的资产管理平台,所有的资产均是通过excel交接
  • 对于流量等缺乏管控工具,无法提供可靠的无感升级以及可能存在的升级致使的事务中断,尤其涉及金融业务

对策

  1. 首先将零散的服务器资产的表格进行汇总,然后建设运维部门的统一管控平台
  2. 对资产进行标准化编号,避免需要运维人员去主动起名字,防止不同运维人员起名不统一
  3. 替换网关,由原来nginx替换为openresty+lua方案,用以解决优雅降级+流量切换
  4. 继续迭代原有账号服务,用来打通网关服务

最终实现效果

运维需要对流量进行控制,包括不限于

  • 能标记具体用户,要控制用户(包括不限于可能的真实环境测试账号)进入的服务器
  • 基于流量控制,能完成优雅降级和无感应用升级

将升级变成流量切换,时间短且可控
部署全部自动化