案例应用解决方案>
机器数据实时分析平台鼎茂国产化替代解决方案
机器数据实时分析平台鼎茂国产化替代解决方案,旨在为各类正在寻找日志管理、数据分析、SIEM平台等国产化替代产品的机构,提供一个从数据底座到上层应用的整体性替代解决方案。
方案不仅全面满足技术自主和信创生态的要求,更注重面向“业务快速变化、数据指数级激增、稳定性要求更高”等方面的企业发展性需求。因此,除了功能角度的平滑迁移,解决方案更在吞吐能力、分析速度、AI赋能、架构弹性、可扩展场景构建等角度,为客户提供了更好的性能体验和更多的智能场景平滑扩展。
目前该解决方案已在多家金融、制造等行业客户中落地。本文的客户故事为某大型金融机构的实践案例,鼎茂解决方案帮助客户完成了平台的平滑迁移,并快速构建了符合业务发展需要的完整安全运营场景和IT智能运维场景。该案例为类似规模和数字化发展阶段的客户提供了有价值的参考。
案例背景 >
过去数年,大批金融机构在业务发展过程中,为了积极应对基于实时数据分析与决策的业务创新,采用Splunk等国外的技术平台,来实现对机器数据的管理和分析。近年来,随着监管要求的加强,以及数据量激增所带来的成本压力,对原有数据分析平台进行国产化替代,成为了众多金融机构的迫切需要。
金融机构拥有大量的敏感数据。在银保监会等监管机构对于数据安全和本地化存储的严格要求下,金融机构必须确保其数据处理平台符合国家及行业的监管要求。因此,符合要求的国产化替代方案,成为满足数据存储本地化、数据隔离等合规要求的必然选择。
金融业务近年来快速发展,业务系统数据量激增,基于每日数据增量的收费模式迫使金融机构在Splunk上的投入呈指数级增长。这种成本的不可控性使得机构迫切需要寻找性价比更高的替代方案。
与此同时,金融机构业务的快速发展也使得自身不断地迭代和扩展对数据实时分析的使用场景,因而对数据的处理能力、处理效率以及场景的可扩展性有更高的要求。而国产化平台厂商近年来在机器数据处理技术上的不断创新,以及灵活的本地化服务响应能力,能够有效地为金融机构的业务创新保驾护航。
本案例的客户,同样是这种替换需求的典型代表企业。
01
需求分析
01.1 管理规模
案例客户拥有同城双活数据中心,其网络架构被精细划分为五个主要区域:DMZ区域、专线区域、生产区域、办公区域和测试区域。在这些区域内,部署了上千个服务端点,支持着数十个关键业务系统的稳定运行。同时,为了保障网络安全,客户还部署了超过二十种网络安全设备。
在这样的IT规模下,替换后的数据平台需具备高效的数据处理能力,能够每日处理高达500GB的数据增量,并管理超过180T的总存储量。同时还需提供强大的数据分析能力、信息安全保障、以及良好的扩展性,从而满足不断增长的业务需要。
01.2 管理现状
案例客户之前使用Splunk作为管理运维日志和安全事件的分析平台。并以集群的方式部署在双中心架构中,采集包括:系统日志、交易日志、访问日志、用户行为数据、网络状态、性能指标以及IPS(入侵防御系统)、WAF(Web应用防火墙)、防病毒、情报等安全设备日志等多样化的数据。
·客户IT运维部门基于Splunk平台建设的管理场景包括:系统总览界面、业务系统请求监控、交易详情列表查询、在线用户分析、自动化可视化周报/月报、指标异常告警等,用以维护IT系统的可用性和业务的连续性。
·客户安全部门基于Splunk平台,设置了安全告警规则和可视化仪表盘,实现安全事件检测和告警通知,并利用告警关联资产/身份上下文信息的功能,进行告警流转,用以进行业务系统的安全合规保护。
01.3 使用痛点
·按索引数据量计价的方式过于昂贵
Splunk的软件许可费用根据日增索引数据量收费。客户系统在长期的运行过程中,随着业务的不断更新,产生更多的增量数据需要被采集,因而,所产生的软件许可费用更是指数级增加。对于数量极大而价值密度极低的日志数据来说,这种计费方式为客户造成太多的成本负担。
·本地化服务支撑不足,无法应对随需应变的业务变化
Splunk作为一家国外的厂商,为本地客户所提供的客户化服务支持比较有限。客户难以获得足够及时和高质量的厂商级服务。因而无法在快速变化的业务环境中,得心应手地对数据平台进行动态的优化和扩展,并及时应对各种技术问题所带来的系统可用性风险。
·大规模数据处理的响应时间过长
在大规模数据环境中,客户面临业务连续性和动态安全威胁的挑战,需要平台提供更快的数据分析速度。Splunk采用的是读时解析模式,在需要海量原始日志进行聚合统计分析时,响应时间较长。
比如:在系统故障排查场景中,客户需要平台迅速检索和聚合大量相关日志,才能快速定位问题并采取相应措施,一旦响应时间过长,会延误解决问题的时机。
在安全攻击事件分析场景中,客户需要平台实时关联分析大量多源日志,从而捕获潜在的安全风险和攻击模式,一旦分析结果有延迟,会带来不可控的安全风险。
·技术门槛较高,场景建设有赖于IT人员的技术储备
Splunk使用门槛相对较高,需要技术人员熟练掌握并灵活运用SPL搜索语言,这种局限性导致客户需要额外投入技术人员的成本,并投入更多的培训时间,以实现各类智能化管理场景的建设和扩展。
01.4 替换目标和要求
鉴于以上情况,客户希望能采用一套完整的国产化数据实时分析平台,并在平台之上实现对IT系统的可观测管理以及安全事件智能化场景管理,并保证这一方案的平滑性替代和智能化升级性。满足以下需求:
·满足监管合规:遵循监管机构对数据本地化与合规性的要求,提供必要的审计合规性报告功能。
·成本合理可控:替换产品采用更合理的计价方式,有效提升数据实时分析平台的投资回报率。
·功能满足:替换方案能够实现与现有IT基础设施和系统的无缝集成,并提供与Splunk相似或更优的功能,同时保障管理场景的快速建设和扩充。包括:日志管理与分析、安全监控告警、性能监控告警、自动化报告、可视化等。
·可扩展性与灵活性:产品能够适应业务发展变化的数据、架构、功能和场景扩展。
·服务与支持:获得更及时、更高效的厂商级本地化技术支持和服务。
·平滑过渡:实现0风险迁移,并提供直观、易用的界面,确保系统功能和用户体验的平滑过渡。
02
解决方案及思路
02.1 建设思路
该解决方案以鼎茂ARCANA平台(多模态数据智能分析与决策平台)作为数据底座核心,结合原子化AI算法引擎,并结合Di-SOC(智能安全运营中心)和Di-Monitor(智能监控中心)、Di-Alert(智能告警中心)等系列智能应用,形成替代方案的构建。
通过ARCANA内置的数据采控中心、ARC-ADP(智能数据治理平台)、ARC-IOC(数智运营中心)等组件,完成数据采集、解析、存储、查询、可视化、报告等功能替代,支持统一查询搜索原始数据,还同时支持SQL和SPL双语言查询,从而快速构建可视化仪表盘、告警规则和定制化报告。
平台增强了以下能力:多源异构数据支持能力;跨源统一查询能力;读时建模和写时建模能力;AI算法服务能力等。
解决方案采用了更为安全的替代方式。
通过这些有序的步骤,可以确保客户数据平台从Splunk到ARCANA的平滑过渡,保障了数据的完整性和平台的高效运行,并最大限度地减少对现有业务的影响。
02.2 方案实施
Step1 部署ARCANA多模态数据分析与决策平台,完成数据接入
·部署ARCANA平台。通过ARCANA采控中心的标准化日志接口和灵活的数据适配器,从源端和Splunk端接入原始数据,并确保数据的完整性和连续性。(包括网络、系统、应用、安全、资产/身份等各方面的数据)
Step2 基于ARCANA完成数据统一管理
·通过ARCANA平台的数据引擎进行字段解析,并基于Splunk 的索引分类将数据分配至不同的索引,确保数据组织的有效性和查询的高效性;
·支持多种先进的数据存储格式,包括列式存储和非结构化数据格式。这些存储技术专为处理大规模日志数据而设计,实现了数据的高效存储与快速索引,满足大规模日志数据实时处理对性能和灵活性的双重需求。
Step3 完成监控告警规则、可视化的等配置
·通过ARCANA规则管理和告警监控功能,根据业务需求进行日志分析规则、告警规则的配置。这些规则可以基于特定的日志模式、事件类型或时间窗口来定义,以识别潜在的安全威胁、性能瓶颈或操作异常。一旦触发告警,及时支持通过多种方式(邮件、短信、钉钉、企业微信、飞书等)将告警信息推送给相关人员;
·通过ARCANA直观、易用的可视化界面,方便用户查看和分析日志数据。通过丰富的图表、报表和仪表盘等功能,用户可以快速了解系统的运行状况、安全态势和业务趋势等信息;
·同时,ARCANA还提供了交互式查询和自定义报表功能,满足用户不同场景下的数据分析和展示需求。
Step4 完成上层智能场景构建和增强
·IT运维场景
完成系统总览界面、业务系统请求监控、交易详情列表查询、在线用户分析等可视化面板依照原系统的快速拖拽式构建;
完成自动化可视化周报/月报依照原系统的快速拖拽式构建;
针对运维指标异常的告警规则在Di-Alert中的配置构建;
增强自动化word 报告。
·安全运营场景
安全告警规则与可视化仪表盘依照原系统的快速拖拽式构建;
完成资产和身份的依照原系统的构建以及告警上下文的关联。
通过Di-SOC增强任务与值班管理,更好的协助运营一二线及运营经理进行运营管理;
通过Di-SOC增强白名单管理、工单管理,更好的帮助运维人员完成运营闭环;
通过Di-SOC增强漏洞管理,帮助安全人员进行漏洞的全流程管控;
通过Di-SOC增强知识库功能,明确运维人员针对安全事件的处理提供专家经验支持。
Step5 并行运行与测试验证后,完成全套系统替换
·在ARCANA和Splunk并行三个月的过渡期后,执行综合评估。
·全面验证通过后,完全将原始数据源的发送指向设定为ARCANA,完成从Splunk到ARCANA的全面替换。
03
项目成果
03.1 构建了 全面的日志管理和分析能力
在替换Splunk 平台的过程中,ARCANA平台全面覆盖了数据采集、解析、存储、查询、可视化和告警等核心功能,支持多数据源数据处理的开箱即用,即,无需复杂的配置即可对多种模态的机器数据进行快速接入和解析。这一特性保证企业即刻接入数据的同时,确保了数据的一致性和准确性。
其次,ARCANA平台提供了可拖拽式的可视化数据视图仪表盘,用户可以根据自身对于数据分析的需要快速生成不同展现形式的数据可视化组件。同时,ARCANA还提供了可自定义可视化报表/报告模板,用户可以根据管理的需求定制个性化的报告样式和内容,并通过自动化报告输出,大大提升了数据分析的效率。
03.2 实现跨数据源统一查询
ARCANA支持跨数据源查询,包括MySQL、ClickHouse(CK)和Elasticsearch(ES)等。平台可以通过统一的界面和查询语言进行实时跨源搜索和查询,从而打破数据源的界限,提供了可以更快更全面了解系统运行状况的分析手段。同时,ARCANA还提供了数据源的统一管理和配置功能,简化了多数据源集成的复杂性。
ARCANA提供了相较于旧平台大幅提升的查询性能。
ARCANA平台支持ClickHouse和Elasticsearch两种存储方案。这种存储方案,一方面充分释放了ClickHouse快速的 OLAP 查询性能,并结合鼎茂自研的ClickHouse数据源下推优化技术,使得查询效率更为优秀;另一方面完整发挥了Elasticsearch 在全文搜索和实时数据分析方面的出色性能。
依托这种技术支持,客户不仅可以根据数据特点选择最合适的存储位置,更能最大限度地提升数据处理的性能和效率。在案例客户的环境中,当数据平台替换为ARCANA后,平台对于千万级数据量的查询耗时,从分钟级降到了秒级。
03.3 低代码建设了数字化运营中心
ARCANA平台凭借其数字化仪表盘和低代码拖拽功能,通过实时展示关键指标和事件数据,使得运维人员能够迅速洞察系统状态。运维人员亦可借助低代码拖拽功能轻松构建自定义的监控和分析应用,大大提高了工作效率和响应速度。
03.4 实现了安全运营闭环管理
通过ARCANA平台+Di-SOC智能应用,实现了安全事件的闭环管理。能够实时监控IT 环境的安全态势,一旦发现异常行为或安全风险,平台自动触发告警,通过调查分析功能,确认安全事件的误报以及影响。调查分析后通过工单流转机制,将处理任务分配给相关运维/运营人员。对于严重的安全威胁,平台支持自动封禁功能,以迅速切断风险源。这一闭环管理流程确保了安全事件的及时响应和系统安全性的持续提升。
04
客户收益
鼎茂科技帮助该客户实现了数据实时分析平台的平滑的替换和智能化分析能力的升级。
即时收益:
·ARCANA根据分析节点计价(基于有效分析的数据量收费),费用合理可控,并有效提升了数据分析平台的投资回报率。
·搜索效率提升,在问题定位需要搜索大规模日志时,查询效率提升数十倍。
·ARCANA提供双语言SQL/SPL查询搜索能力,兼顾用户使用习惯的同时,极大降低了运维人员的使用门槛。
·通过ARCANA离线报告功能,实现报告自动化,显著提高工作的效率和准确性。
·通过ARCANA实时监控交易趋势,以及各渠道的流量来源等关键指标,及时响应非预期的流量突增,确保业务流程顺畅。
·通过统一跨源查询技术,实现不同业务数据的聚合分析,能够洞悉各类业务场景的深层次特征。
扩展性收益:
·通过弹性的扩容措施,客户能够灵活应对业务需求的波动,确保企业业务在任何时候都能提供稳定、可靠的服务,从而支持业务的持续增长和扩展。