安全419《数据分类分级解决方案》明朝万达篇

首页 / 业界 / 资讯 /  正文
作者:西西
来源:安全419
发布于:2022-03-16

关于数据分类分级工作的重要性和必要性,我们在 预告:安全419《数据分类分级解决方案》中有详细介绍,此系列后续更新将不再复述。今天,安全419将带大家走进北京明朝万达科技股份有限公司(以下简称“明朝万达”),看看他们在数据分类分级上的思考见解和解决之道。
 
 

 
关于明朝万达:明朝万达成立于2005年,专注于数据安全、公共安全、云安全、大数据安全及加密应用技术解决方案等服务。其产品理念基于“动态数据安全,数据全生命周期管控”,以数据安全为核心、自主可控的国密算法应用技术为基础,研发有Chinasec(安元)数据安全系列产品及解决方案,覆盖数据产生、存储、交换、使用等全生命周期重要环节,实现对服务器、数据库、PC终端、移动终端以及网络通信的全IT架构下数据安全的协同联动管理。
 
现状:企业盲目开展数据分类分级面临多重困难
 
明朝万达产品经理Period向我们介绍,目前市场对于数据分类分级的感兴趣度和接受度是比较正向积极的。各行业都能够比较明显地感知到国家数据战略的驱动和牵引,无论是主动还是被动,企业都必将迈出步伐——探索如何在保证合规及安全的前提下,促进自身数据的高效利用。当数据分类分级成为数据安全体系建设的一个基础能力和前置条件时,那么开展这项工作只是时间问题。在数据采集更频繁、数据利用更多的行业以及经济较发达的地区,这种趋势呈现得更明显。
 
虽然势头喜人,不过企业用户在落地实施时往往面临一些比较现实的绊脚石。首先,缺乏明确的规范性和指引性的政策文件,来指导不同行业以及不同规模的企业流程化地开展数据分类分级工作。Period对此解释,尽管目前陆续出台了相关的数据共享条例、行业数据分类分级指南对信息资源的流通进行规范,但还是缺少完整的流程和环节来完成从数据梳理、数据分类分级到数据存储保护、数据共享使用的完整过程。这就导致在实际的业务环境中,对数据的处理要求和人员角色的权责存在矛盾或模糊地带,让分类分级难以有效落实。此外,如果形成了完善的数据分类分级政策,企业下一步将面临如何把政策要求转换为企业的组织架构和管理制度,现有安全产品如何能够有效落实数据分类分级政策和公司管理制度的问题。
 
在安全419看来,正是由于数据分类分级必须深入业务场景和数据处理活动来规划制定,所以难以形成既通用又明确的模板,而且涉及数据的业务日益翻新,将驱使数据分类分级的框架也持续迭代,目前市场正处在监管单位、企业用户、安全厂商探索实践的进程中,尚未形成标准化和可复制(本身也难以直接复制)的样本,这也导致部分企业在面对数据分类分级时,心态上积极敏锐,但行动上仍然保守观望。
 
用自然语言处理技术赋能传统安全产品 解决数据分类分级落地难问题
 
怎么让现有的数据安全产品能够满足不断升级的数据安全防护需要,同时满足数据分类分级的要求,也是明朝万达一直在思考的问题。其核心产品之一, Chinasec(安元)数据防泄漏系统是针对企业面临的数据泄漏风险,采用内容分析引擎,利用关键字、正则表达式、文件指纹、自然语言处理等规则,对企业数据进行解析与扫描,实时识别、监控、保护企业敏感数据。对即将发生、正在发生的泄漏敏感数据行为按照预置策略及时阻断并告警,防止企业敏感数据传输到企业外部,有效避免数据泄漏带来的安全风险,实现对企业外发敏感数据的可知、可见、可控。
 
传统数据防泄漏系统将关键字、正则表达式作为唯一匹配规则,面对企业复杂多样的实际生产环境,导致大量的误报和漏报问题,针对非结构化数据基于上下文的内容识别,一直是亟需突破的难点和壁垒,同样也是做好数据分类分级的重要关键点。
 
据Period介绍,明朝万达在2020年对该系统进行了升级,新增NLP智能数据分类引擎,主要利用自然语言处理(NLP)技术对企业关键数据进行学习并归纳制定出规则,配合数据防泄漏系统,实时感知检测企业敏感数据的分布和使用情况,实现对企业存量数据和增量数据的精准分类,其具备的持续学习能力还将根据样本量的不断扩大持续改进算法参数,提高识别准确率。
 

这种将自然语言处理技术与传统的数据发现策略相结合的方式,能够帮助企业有效、高效识别关键数据,实现对数据的自动分类与归档,解决了数据分类分级实际落地难的问题,同时也方便后续根据数据级别制定细粒度、差异化的防护策略。
 
·支持主流数据格式——企业中的关键数据可能以各种数据格式存放,如 Office 文档、图片、数据库、压缩文件等等。NLP智能分类引擎支持多种数据格式的解码和转换,可以在前端抓取数据时自动识别文件格式,并转化成NLP智能分类引擎可理解的文本,然后送入自然语言处理模块进行分析和特征提取。
 
·基于人机交互的智能标注——为解决文档标注工作量大的痛点,NLP 处理引擎提供人机交互的协作标注方式,在手工标注少量数据后,系统会从数据集所有数据中筛选出最关键的数据优先标注,对剩下的数据进行系统自动标注。
 
·闭环的流程设计——NLP智能分类引擎对企业数据进行分类预测,预测后的数据经过系统自动或人工鉴别后又归到数据分类分级库中,为训练服务提供了新的语料,形成了产品闭环。
 
·智能标签技术——通过标签技术可将NLP引擎的分类结果自动嵌入在原始文件中,进而确保原始文件在业务流转过程中,DLP子系统可实时读取数据分类分级标签实现对数据全生命周期动态管控的能力。
 
这套系统在市场上的真实表现如何?Period也跟我们分享了一个金融行业客户的实践案例。某银行的数据安全治理体系不完善,关键数据的定义依靠纯人工识别的方式,效率低下。并且针对关键数据的管理采用一刀切的形式物理隔离,无法有效释放数据价值。
 
在引入了 Chinasec(安元)NLP智能分类引擎后,通过导入已人工识别的关键文档,分析大量人工标注的原始样本集,根据文本内容的语义特征和格式自动按照内容进行主题梳理,并可通过人工干预灵活调整语义相似度,获得满意的分类效果并生成预测模型。通过预测模型实时感知检测关键数据的分布和使用情况,实现了对银行存量数据和增量数据的精准分类,使银行的管理者真正掌握了关键数据的分布情况。
 
如果没有实时的数据分类分级和管控,企业可能低估或高估数据集的价值,导致不准确的风险评估。错误管理将带来安全隐患,甚至发生关键数据泄漏事件。而对所有数据都施以最高级别的保护,毫无疑问会造成巨大浪费,高额成本难以承受。
 
借助数据安全治理平台助力企业高效开展数字化业务
 
依据这些鲜活案例总结开展数据分类分级工作为企业数据利用和安全建设提供的价值时,Period认为,建立适合的数据分类分级制度,选择适合的数据分类分级工具,能够给企业组织甚至行业发展都带来崭新的变化。
 
业务数据种类多样,价值高低不一,缺乏差异化的粗粒度防护让企业开展数据化业务举步维艰。将多源异构的数据识别并划分,从而发现、监控、保护及可视化管理数据资源,数据使用链路的全视图防控与可视化展示是一切涉及数据业务及安全管控工作的基础。
 
一方面,就安全层面来讲,企业为先后建设的业务信息系统所部署的安全防护措施存在着孤立性,不仅增加了企业安全管理的难度,且缺乏以数据为安全视角的安全防护体系。数据分类分级能实现跟传统安全产品的有效集成,让其真正在实际业务环境中发挥价值,并且能够将分类分级的结果作为策略依据来改造提升安全产品的功能和规则,避免让安全成为业务的负担。
 
更进一步,由于各个安全防护设备的分散管理,缺乏联动,造成安全视图割裂、不易分析,无法获知全面的安全防护情况。在一体化建设的趋势下,顶层的安全运营中心通过调用数据分类分级的结果,能够统一制定、编排、下发最优化的安全响应动作,同时弥补各自为营时存在的安全空白区,提升效能的同时节约成本。
 
另一方面,针对数据业务而言,不仅是安全产品和安全运营中心能够调用数据分类分级的结果,通过开源API或SDK的方式,将数据分类分级的能力提供给业务系统,能够帮助业务端完整看到并且有序厘清日常工作中每天上传下载、分析挖掘、共享外发等数据处理活动中的信息资源的类别和级别,帮助规范数据的存储和使用的同时,也能够打通数据的流通瓶颈,启发数据的深层价值,为业务创新赋能。
 
 

也正是深谙数据分类分级与用户业务发展和安全建设的相辅相成,明朝万达持续升级,在2021年推出了Chinasec(安元)数据安全治理平台,主要包括企业数据全量采集、数据智能分类分级、数据保护策略实施三方面功能,数据采集模块借助数据安全管理系统和数据防泄漏系统的数据发现能力,通过调用通用 API 实现数据全量采集,为后续企业落地数据安全治理建设及实施数据分类分级奠定基础。分类分级模块即是内置前述的自然语言处理(NLP)智能分类引擎对企业数据进行自动分类分级,并完成不同级别数据授权。数据保护策略生成模块基于数据分类分级和数据的访问者、访问对象、访问行为自动生成不同的、有针对性的数据保护策略实时作用于明朝万达数据安全管理和防泄漏系统中,帮助企业建设基于自身数据的动态安全防护体系,完成“在合规安全的前提下,让数据高效利用”的最终目标。
 
写在最后:
安全419将明朝万达在数据分类分级领域所积累的能力及解决方案呈现于此,希望能够对打算开展或正在进行这项工作的用户提供一定的帮助。后续,我们将持续更新该系列选题,介绍更多安全厂商在该领域的探索和实践,方便读者及用户观察不同的解决方案在面对不同行业、不同数据场景、不同客户需求时能提供的差异化能力。同时,我们也欢迎有相关解决方案的安全厂商自荐,将自己的思考和经验展示出来,共同帮助全行业用户在数字化建设的道路上走得更坚实、更安全。