// 文丨作者介绍
国信安全团队,守护国信证券信息安全十余年,致力于成为一流证券行业信息安全团队。团队成员能力涉及安全建设、安全运营、安全攻防等领域,在多年实践中积累了大量的行业信息安全工作经验,期望能通过分享交流跟各行业安全团队共同进步。
本文主要作者 ,国信证券安全团队:金文佳,肖雷、王福。
在日益严峻的外部环境和监管要求下,安全监控响应已成为信息安全工作的重要组成部分,是企业威胁发现和精准防控的关键。小型安全团队做好安全监控响应工作的核心原则,是提高资源的使用效率,做到“人尽其才、物尽其用”,这不仅需要全面、自动化的IT和安全基础设施作为能力底座,更需要精细化、持续化的安全管理和运营支撑。本文简单介绍国信安全团队在实践中,如何逐步建立和完善精细化运营工作的过程。
包括安全运营中心(SOC)在内的各类安全监控系统、攻击阻断平台、自动化平台是做好监控响应工作的基础。在安全平台的设计阶段,除了考虑平台功能随着技术演进具备扩展能力外,还需要充分考虑其对运营优化工作的支撑,即如何通过平台将监控响应方面的经验有效沉淀下来,比如自定义的监控规则、自动化的分析动作、自动化的处置流程等,多管齐下全面提升监控响应的能力和效率。
在安全监控响应平台的建设中,以SOC平台建设最为重要,它是公司集中化决策体系的核心,支撑预警监控、事件溯源分析等技术工作,管理事件闭环全过程,提供运营度量指标。在产品选型阶段,需要综合考虑“数据处理能力”和“安全能力”两个维度:一方面,SOC平台的数据处理量,随着公司IT规模增长、信息安全能力不断成熟,会呈现几何指数上涨的状态,对平台的存储能力、计算能力、对不同格式数据的接入和解析能力提出了较高要求,对于已经建设了大数据平台的企业而言,是否共用现有的计算存储资源,也是需要提前规划的要点;另一方面,SOC平台作为集中化决策中心,需要对各类安全日志、原始日志进行关联分析,进行精准预警和溯源分析,这对平台安全能力要求较高,能够快速响应威胁情报,更新预警规则,是将安全厂商的安全运营能力快速赋能给公司的一种有效手段。但同时也需要关注到,SOC平台的建设目标中一旦包含事件闭环管理和处置自动化功能,就势必涉及到与公司现有其它产品的对接工作,包括但不限于与公司现有安全处置工具的对接、实现攻击阻断能力(可以是防火墙、WAF、IPS、防病毒、自动化工具等)、与公司现有流程平台对接、实现事件管理中内部协同流程。到底是采用成熟商用产品、自研产品,还是交由安全厂商基于现有产品进行定制开发,需要根据公司现有技术水平和具体需求进行定夺。
我司在安全平台的建设过程中,采用了多步走的策略。第一阶段,基于公司安全域的规划,建设安全监控和防御安全能力,形成多层次分散化安全决策体系;第二阶段,以共用现有大数据存储和计算资源为前提,以形成集中化安全决策体系为目标,建设SOC平台,实现了对各类日志的采集、规范化处理和关联分析,以及事件的闭环管理。经过几年的沉淀,平台的关联分析规则已具备较强的自定义扩展能力,包含与或非的丰富组合逻辑和组合模版;分析研判功能,不仅包含日志的深入钻取和分析,还具备一定的自动化能力,可以将人工研判经验自动化留存和重放,同时,综合安全管理需要,为加强资产管理接入了资产信息、漏洞信息,为辅助告警分析和自动处置接入了外部威胁情报信息,为加强安全事件管理对接了工单系统等。第三阶段,建设自动化处置平台,并与现有的安全监控体系形成联动。
安全平台的建设很难一蹴而就,通常都随着技术发展以及公司具体需求不断演变。以SOC平台的数据接入和归一化解析为例,安全运营前期,我们固定接入了操作系统、防火墙、web服务器、WAF、防病毒等五类日志,通过正则进行日志解析,接入日志量每天仅250G左右,但随着监控能力的增强,原有的数据已无法满足全面监控和溯源分析的需求,我们优化了平台数据接入的配置能力,增加了键值对、分隔符、json等六种解析方式的日志解析方式,新增了解析规则一键验证功能,有效支撑了日志接入和解析,后续逐步接入了流量、上网行为管理、APT、HIDS、业务风控等十多种数据类型,数据量增长到每天8T,夯实了监控工作的基础。
网络安全的本质是人与人的对抗,有了功能完善的基础平台,还需要依赖“能战善战”的监控响应团队,公司完善的应急响应流程和内部协作机制。
我司根据监管要求,借助运行安全的成熟经验,建立了安全事件管理规范,对于安全事件的定级、事件的预警、研判、处置、复盘规范协作流程、跨团队职责等进行了明确的要求,并在实践中,形成了安全应急响应协同处置机制、应急响应标准通报机制等工作机制。
随着安全保障工作要求逐步向“实战化”、“常态化”转变,7*24小时的监控响应工作提上日程,但仅仅依靠现有安全团队,难以实现全天候现场值班,我们参考李广“远斥侯”的思路,根据监控、分析、处置、优化等各阶段的工作对人员的基本素质和技能要求的区别,组建了分层次、职责清晰的监控响应团队,招募外协人员组成监控一线,轮班现场值守,形成安全侦察兵团队,开展安全告警的实时监控和初步研判,探测攻防实时状态,并进行及时预警,让安全大部队可以集中精力休整,专注做好建设和优化工作,一旦发现攻击事件,监控二线迅速开展应急操作并推动事件的闭环处置,监控三线负责事件处置过程中的决策以及事后的复盘优化工作。通过人员分工,可以让各层次人员专注的做好并优化自己的工作,实现工作质量和工作效率同步提升。
做好各层次人员分工协作以后,我们也持续细化不同岗位人员的工作指引、工作要求、绩效考核标准,协助团队成员尽快熟悉工作,明确工作责任,确定能力提升方向。例如,考虑到一线人员的流动性,在一线人员管理方面,通过《监控一线工作手册》等规范制度进行工作指引和要求,明确现场监控值班制度,告警分工责任制度等工作制度,规范事件预警和通报的标准话术,规范一线人员初步研判的标准方法,让一线人员的工作边界清晰,有章可循,同时也能有明确的能力提升方向。
同时,为了最大程度激发团队成员的工作积极性,引导成员主动学习提升工作技能,不断改进优化工作,我们建立了相关的激励机制,例如月度最佳监控奖、月度最佳优化奖、季度学习分享奖等,对团队成员进行及时激励,激发团队活力。
安全监控响应是一个持续优化的过程,只有不断的运营改进才能有效保障公司信息安全。监控响应能力建设主要分为两个方面,一是及时有效全面的发现风险,二是快速准确全面的处置风险。
在有效全面发现风险方面,需要高质量的原始数据,和准确率高、覆盖全的监控规则,监控规则主要来源于历史的攻击事件、红蓝演练的积累、同业交流的经验、以及基于ATT&CK框架下,分阶段分场景对攻击特征的整理。其中,基于ATT&CK框架定制的规则,系统性的提升了监控规则的覆盖度,同时也让我们对公司的监控覆盖有了清晰的认识,还给后续持续提升监控覆盖度指明了方向。
除了增强监控覆盖能力,还需要对监控的有效性进行监控,确保从日志采集、解析到告警产生的整个流程不出现数据遗漏,确保已经覆盖的攻击行为只要出现一定会有告警。这部分工作,我们主要通过在内网自动化的模拟攻击行为来实现,通过脚本触发不同的攻击行为,监测相关告警是否出现,有效发现日志收集漏、解析错、规则引擎故障、性能不足延时高等问题。
在处置风险方面,为保证风险处置的及时有效,我们考虑将分析处置经验固化下来,形成预案,作为处置风险时的指引。预案包含流程和技术两个方面,流程上我们主要遵循行业规范和要求、公司总体的应急响应预案、信息安全事件管理规范要求,具体不再详述,这里重点介绍一下技术方面的预案。技术方面预案注重实操,如果只是进行沙盘性质的流程推演难免会脱离实际,为了让预案落到实处,出现真实攻击时可用好用,我们搭建了跟生产环境完全一致的安全靶场,网络架构、服务器配置、安全防护措施、安全漏洞等都进行了百分百模拟,全面梳理攻击者常用的攻击手段,将攻击手法归类到不同的攻击场景中,然后分场景进行演练。以反序列化攻击场景为例,团队分为攻击队和防守队两队,攻击队准备攻击方法,防守队总结攻击特征优化监控策略,然后搭建靶场,攻击队利用shiro、fastjson、jackson等组件的反序列化漏洞进行实战攻击,防守队监控告警进行处置,然后双方复盘讨论,再次优化规则,编写应急预案,然后攻击队再次进行实战攻击,防守队根据应急预案进行响应处置,接着双方复盘再次进行规则优化和预案优化,如此循环直到双方对监控效果和应急预案都满意为止。最终形成的预案,分为了如下几个部分:
①对攻击背景知识的描述,由shiro等具体攻击拓展到java语言的反序列化,主要是让预案使用人对相关攻击有一个基础的认识;
②列举反序列化攻击会在各个监控系统上产生的告警,说明预案适用的具体告警或告警类型(另有总的对照表明确具体告警对应的应急预案);
③介绍上述告警的分析研判方法,主要是根据攻击详情和威胁情报等其他辅助信息判断是否为误报;
④介绍事件遏制措施,如封禁IP、网络隔离、定制虚拟补丁等,判断为真实攻击后第一步就是要对攻击进行遏制;
⑤介绍了分析溯源的方法和思路,如shiro攻击内容如何解密、jndi攻击如何获取攻击者恶意代码、如何判断是否有后续横向攻击行为等;
通过上述的技术应急预案,覆盖技术人员在应急处置中的各方面操作,能确定操作方法的给出具体操作步骤,不能确定方法的给出思路,实现对技术人员的全面指引。
最终,我们归类梳理了77个攻击场景,不断总结归并形成了33个技术应急响应预案,不仅提升了分析处置的效率,同时通过标准化保障了分析处置的效果,还实现了经验的固化。
安全人员稀缺是整个行业都共同面临的问题,为了在人力有限的情况下做好安全运营工作,同时将人从重复繁琐的工作中解放出来,我们将提升自动化能力作为一项重点工作来抓,我们的观点是所有重复的工作都应该实现自动化。
首先,在日志收集阶段,我们通过在装机模板中覆盖日志采集agent以及自动化装机来保证主机日志采集的覆盖,然后通过自动化攻击的方式去验证日志收集、解析,告警产生等流程的有效性。
然后在对告警进行分析时,由于我们将所有的相关日志全部采集到了SOC平台,所以可以在SOC平台上完成所有的分析动作。当我们定制的新告警规则第一次产生告警时,我们需要对这个告警进行分析,其中涉及到对这个告警关联的原始日志以及其他相关的日志进行查询、统计、图表展示等。我们将整个过程记录下来保存为一个分析动作,然后将这个分析动作与这类告警关联,后续出现同类的告警则可以直接运行这个分析动作,将分析人员需要的中间分析结果直接展示出来。这样同类的告警都只用分析一次,从而极大提升了分析效率。
在处置方面,我们探索了安全编排、自动化与响应(SOAR)技术,实现了部分处置动作的自动化,我们准备逐步把前面总结的应急预案固化成流程,进一步提升效率和规范性。
只有通过不断的提升自动化水平提高效率,将人员从繁琐重复的工作中解脱出来,才能有更多的时间投入到运营优化工作中来,做好精细化运营。后续我们还会持续在监控响应的全流程引入自动化,不断提升自动化水平。
精细化运营成效如何?应对真实攻击表现怎么样?短板在哪里?这些问题都需要实战来检验,需要指标来体现。实践是检验真理的唯一标准,为检验监控响应能力,同时提升团队成员实战攻防能力,我们参考军队中红蓝军对抗的形式,定期开展信息安全红蓝演练。在具体实施上,我们通过整合内外部人力资源,将人员分为攻击队和防守队,以“黑盒”的形式完全模拟真实网络攻击。通过实战化的攻防演练和事后的详细复盘,全面验证监控响应体系的准确性、全面性和有效性,补充监控场景和监控面的缺失,优化应急响应预案,提升团队攻防水平。
除了全面的红蓝对抗,我们还不时进行指定场景的攻防演练。比如我们针对OA系统容易成为攻击入口以及攻防演练中外连情况监测能力不足的问题,分别开展了OA系统攻防专题和外连监测处置专题。为了提升效率,每次专题演练分AB两队进行,下一次演练则调换身份,A队负责进行研究和搭建靶场,并对B队进行讲解,两队一起完成攻防演练,B队总结输出知识库文档及技术应急预案。通过专题演练的形式,可以针对性的提升关键能力,补足短板。
在安全运营中我们还发现,安全工作中缺少有效的运营评价体系,很难对运营效果进行监控,无法明确运营体系的短板和问题,也难以体现工作成效。为解决上述问题,我们在应用安全、监控响应、基础安全、数据安全、安全管理五个方向总结了104个运营指标,以监控响应为例,体现效率的有告警响应时间、事件处置时间等,体现自动化能力的有告警自动化分析率、事件自动化处置率等,体现运营优化的有新增规则数、规则调优数、规则误报率等,体现监控覆盖能力的有红蓝演练未发现安全事件数等,这些指标基本都可以在安全平台进行自动化的计算和展示,通过运营指标辅助优化决策,为后续运营优化工作指明方向,同时有效的体现了工作成效。
国信证券的精细化运营工作发展路线可以总结为:搭好平台,夯实基础;建好团队,激发活力;日拱一卒,不断优化,增强能力,提高效率;实战验证,数据指路;循环往复,运营之路。
每一家企业的管理风格和IT建设成熟度,决定了安全工作边界和建设路径,由于发展过程和目标不同,直接照搬互联网企业的经验,很多时候解决不了小型安全团队面临的诸多问题。任何一种解决方案也都有“红利期”,我们自己蹚过的坑和历史成功经验,也不一定适用于未来,只有秉承“临事而惧,好谋而成”的心态,持续探索和创新,才能做好安全监控工作。
原文始发于微信公众号(君哥的体历):国信证券安全团队:安全监控响应的精细化运营观