设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 数据 创业者 手机
当前位置: 首页 > 运营中心 > 建站资源 > 策划 > 正文

互联网企业安全运维实践(2)

发布时间:2019-11-13 14:11 所属栏目:20 来源:CIO之家
导读:另外一块是日志,记录和监控可以协助发现未经经授权的安全事件,有助于确定安全措施有意义的改进,以保护您的公司的机密信息。这里只是一个示例,我们在构建技术保障体系的时候,按分层原则,每个层次上都需要考虑

另外一块是日志,记录和监控可以协助发现未经经授权的安全事件,有助于确定安全措施有意义的改进,以保护您的公司的机密信息。这里只是一个示例,我们在构建技术保障体系的时候,按分层原则,每个层次上都需要考虑相应的保护机制。

互联网企业安全运维实践

除了像BAT一样的先进公司,大多数企业在安全运维层面还是离不开找到合适的人、买到合适的设备这两条。我谈谈买到合适的设备时的一些经验。

给大家讲个与老板偏好相关的真实案例。之前老板传达的信息是买设备,别买大了,省下的钱公司用于投资,会产生更多的收益。听上去没毛病,所以我们在选购数据中心边界防火墙时,按年30%的复合增长计算,1套墙满意3年业务增长是没有问题的,到第四年插块板卡,就能扛5年。结果2年后,业务以每年超过100%的速度增长。在这个过程中,新老板上任了,说容量怎么不够了,就把之前的设计翻出来,也说得通,那就买板卡扩容吧。没成想只过了6、7个月,容量又报警了,业务成长实在太快了。只好去找新老板说板卡已经扩到头了;只能换一套更强处理能力的设备;你们可以体会一下向老板做汇报的心情。

第二个案例是关于品牌的。在采购过程中,有个品牌为了进来,杀低价中标。都是国际一线品牌,按道理来说没什么问题。但是有点水土不服,各种妖怪问题全来了,在短时内就发生了7次严重故障,所以用了不到1年,果断换掉。这次之后,我们对品牌的考虑更加慎重,和采购死磕,提升技术评分的比例,确保不让不符合预期的产品进来。

关于中心端产品的容量,如果是互联网公司,我建议按当前量,放大5至10倍考虑,因为业务的增长往往是倍数成长,非常吓人,不能总是出现性能瓶颈;另外一方面需要考虑架构优化,用Scal Out方式横向扩容。

关于测试,这里指实际环境测试。实验室不全面,如果条件允许,时间、人充足,测试当然没有坏处。如果时间紧、人手不足的情况下,就选择性地进行测试,比如性能类产品首次选择使用时,最好先测试一下。

另外,这几者之间要互相平衡,它们之间都是有联系的 。比如容量估算不准,又没做实际环境测试,等设备买来,一上线直接挂掉也是有可能的。

二、安全运维之术

这一部分主要介绍一下,安全运维需要考虑的一些点。

互联网企业安全运维实践

这里讲两个重要概念。Due care中文通常翻译成适度关注或应用的注意,Due diligence翻译成适度勤勉或是尽职调查;

在信息安全领域,Due care实际上是说一个企业要制定各种各样的策略、规程和标准等,用来对企业信息资产的保护,也就是企业应该做的事情。而Due diligence则是要保证Due care要做的那些事情一直保持在最新状态。

举个例子说明。你要外出时,做了两个动作:

1、想着手机会不会电不够用呢,不够用怎么办;

2、随手把充电宝装口袋了。

1是你的思想活动,有没有“想”就属于Due care,也可能会顺手查看手机电量。想过之后,可能会觉得电够用不带充电宝,也可能会觉得不够用而带上充电宝,这都不重要,重要的是你“想没想”,有没有检查手机电量的意识(这根弦)。

2是你的实际动作。如果你觉得电不够用带了充电宝,但没检查充电宝是否有电,或忘了充电线,那就是没做到Due diligence。也就是说虽然采取了相应的动作,但没达到预期的效果。

而对于安全来说,需要想到,如果没有采取这个措施,可能存在怎样的安全风险,为了降低风险,采取了一定的行动,并且要确保这个行动是有效的、而且一定要真实的执行。

互联网企业安全运维实践

IT系统会有各种各样的变更,如发布、升级、割接、改造等。变更是最容易引发系统故障的操作,为了降低变更对系统的影响,我们推进三思而行的三步工作法。做变更之前先问自己三个问题,首先我是这项工作的合适人选吗?其次我有能力执行这个任务吗?最后我能控制整个变更吗?

当三个问题得到的答案是肯定的,我再去申请执行这个变更。如果任何问题的答案有迟疑,会和自己的主管协商,制定最佳方案,包括变更失败的回退计划;通过这一举措,大大降低了变更造成的业务影响。

互联网企业安全运维实践

研发的同事通常关注的是HTTP xxx返回值相关问题、延迟、扩展性、代码重用、Deadline、KPI、需求变更、框架、形式源、功能如何实现、以及代码质量等问题,最主要关注代码有没有bug;运维的同事通常关注HTTP 4xx及5xx错误、性能、可靠性、对阀值进行预警、监控图断崖、是否出现异常,最关心别出故障;

研发和运维的同事对安全的理解会有不同,但大体上对安全的理解包括DDoS攻击、病毒木马、堡垒机、数据脱敏、拖库和数据泄露,只能理解和自己工作关系比较大的那个部分。而安全的同事关注的是1-7层上我的防护措施会不会被绕过,然后就是各种漏洞,开源框架的、编程语言的,代码里的、逻辑上存在的各种安全漏洞公交站,传输过种中以及存储过程中的漏洞,bug的修复,更高级的漏洞利用方式。找出各种高、中、低危漏洞。除此之外还在时刻关注无线渗透、弱口令、0day、彩虹表、各种马、注入、后门。这里就不一一列举了,反正就是能黑进入能拿数据,能偷钱的技术都需要了解和防范,弦崩的还是很紧的 。

其它非技术部门的同事对安全的关注仅仅是看看热点,谁家出什么事了,旁观者心态。视野的不同决定了在安全这件工作上采取行动的不同。

互联网企业安全运维实践

在安全运维的过程中,有时不得不去做一些高危操作,就像给飞行中的飞机更换故障发动机,因为站点业务是7*24服务的,不可能或很少拿到停机操作窗口。前面已经说过,做变更有一套方法规避风险,包括参与变更人员、厂商和我们工作师的配合。但总有疏漏的时候,有一次我们更换防火墙引擎故障,结果导致防火墙双活,业务中断约10分钟。后来复盘故障时领导也民觉得这类操作的确很危险,即使再小心,也是十分危险的 。所以就设定了Outage Window操作,高危操作放在这个窗口内,订单损失是不计入ATP监控的,并没有人会因此滥用这个窗口。

互联网企业安全运维实践

关于漏洞

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读