首页 > Other > 运维可以做的事
2022
03-04

运维可以做的事

写这个东西的原因呢,很多同行,做到一定程度之后,自动化也有了,流程也基本完备了,就觉得,运维是不是就这样呢?这里简单些一下吧。这里远不能写全,给大家个参考吧。希望给愿意思考的小伙伴一些帮助。

1、 基建,所有的应用和组件,其实都会装到你的系统里,需要你对自己的系统及其了解。

1.1、先去了解基础性能指标,磁盘io,内存大小,cpu频率,操作系统的安装方式,软件的安装方式。

1.2、 检查系统各个组件的压力情况(nginx,mysql,redis,磁盘顺序,磁盘随机),根据实际情况去看瓶颈在哪里,用作后续监控指标的红线。

1.3、根据实际情况准备操作系统,安装步骤,基础软件环境,优化等内容的标准化,考虑如何快速部署环境。通过标准化的方式,快速部署环境,目录规划规范,以减少不同时期不同操作人员的部署差异。

1.4、 不要相信旧的经验,不同的时期,都要去反复的进行类似的测试,如半年一次。

1.5、 进行各种演练/准备,如单系统挂了如何保数据,如何使用lvm如何扩容,如何增加swap,系统挂了如何恢复nginx配置,nginx配置和业务如何快速恢复,如何统一管理配置等。

PS:该部分,说白了,就是让你更了解你的地基是什么样的。对于现在的大环境下是件很尴尬的事。本来500块钱就能解决的事,花5000来解决。就是这么个意思。只有越了解自己的边界,才能越清楚瓶颈在哪。

2、 业务和软件:如用户登陆的过程、python的特点,java的特点,日志如何存。常见的中间件都有什么。这一块还算是技术层面的问题。
直接举例子:

2.1、 用户登陆常见的步骤,从哪个位置做什么样的判断能做到最好的效果。

2.2、 python这么流行,他是一个什么样的语言,特点是什么,2.7和3+大概的区别是什么。

2.3、 java语言特点是什么,jvm的特性是什么,如何在运维层面给开发支持,比如如何监控jvm的内存,现成,GC等。

2.4、 日志怎么归档,怎么能让开发能更快的查到想看的日志。比如ELK,比如LOG打压缩包节省空间,不同类型的日志放不同的文件,日志过大如何切日志等。

PS:基建有了,如何能在你的基础设施上建立一套软件环境来以支撑现有的业务。一旦上了正式环境,就尽量只有少数人才能看到和维护。避免交叉维护带来意外的风险(紧急BUG除外)

3、 安全:基础设施有了如何来让业务稳定可靠的访问,安全分为内部和外部

3.1、 外部安全比较好解释,防火墙,入侵,攻击,密码泄漏等。都算外部安全。

3.2、 内部就很复杂了,比如人员的误操作导致风险,恶意报复导致数据被删,乱看东西导致局域网中毒等等。

4、 日常工作的闭环:

如何持之以恒的保障业务的安全运行,其实,上面几个步骤,都会变成日常该做的事,还需要根据实际情况进行汇报和复盘。

5、 技术以外的东西:产品+运营、管理(技术、团队、其他)、架构等。

5.1、 产品的开发和测试过程中,哪些东西是运维能够参与的,如埋点+access配合,如访问人数和流量的综合对比,每天24小时的每小时访问数,业务指标的监控和报警。

5.2、 管理相对来说比较飘渺,如何提升团队效率(通过技术手段越干活越快),如何提升内部技术水平,如何降低成本(人力成本和金钱成本),资产的管理+IT支持(入离职开关账号,发电脑和管理)等。

5.3、 做久了,也基本就是架构师和技术管理了,再高就是CTO,看前一篇文章吧。解释了。http://www.sa-log.com/457.html

最后编辑:
作者:王, 帅
这个作者貌似有点懒,什么都没有留下。

留下一个回复

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据