运维标准化实践
现状
运维负责的事项有如下:
- 维护现网机器运行状态
- 接收上线单,完成应用上线
- 对上线脚本进行审核
问题如下:
- 没有办法对软件提供服务工程提供保证,也就是对外无法承诺时间,对内无法有效的反馈提升软件质量
- 没有统一的资产管理平台,所有的资产均是通过excel交接
- 对于流量等缺乏管控工具,无法提供可靠的无感升级以及可能存在的升级致使的事务中断,尤其涉及金融业务
对策
- 首先将零散的服务器资产的表格进行汇总,然后建设运维部门的统一管控平台
- 对资产进行标准化编号,避免需要运维人员去主动起名字,防止不同运维人员起名不统一
- 替换网关,由原来nginx替换为openresty+lua方案,用以解决优雅降级+流量切换
- 继续迭代原有账号服务,用来打通网关服务
最终实现效果
运维需要对流量进行控制,包括不限于
- 能标记具体用户,要控制用户(包括不限于可能的真实环境测试账号)进入的服务器
- 基于流量控制,能完成优雅降级和无感应用升级
将升级变成流量切换,时间短且可控
部署全部自动化