安全419《数据分类分级解决方案》数安行篇

作者：西西

来源：安全419

发布于：2022-04-12

关于数据分类分级的概念和价值，我们在预告：安全419《数据分类分级解决方案》系列选题有详细介绍，此系列后续更新将不再复述。本期，安全419带大家走进北京数安行科技有限公司（以下简称“数安行”），看看他们在数据分类分级上的思考见解和解决之道。

关于数安行：

数安行成立于2020年，是一家专注于数据运营安全（DataSecOps）的新一代数据安全技术创新公司，核心团队平均拥有超过十年的数据安全系统研发、安全服务和市场经验。公司建立了以零信任数据安全架构为基础，以人工智能为核心驱动的数据运营安全平台，致力于让用户的数据安全地创造价值。

普通企业难以独立实现高质量、高效的数据分类分级

数安行创始人兼CEO王文宇告诉我们，企业在进行数据分类分级之前，首先应当明确其目的。通常来讲，数据分类分级一方面是为了支撑业务的开展，更好地将数据资产化，持续性为企业提供精准的数据服务；另一方面，是为了满足合规和数据安全建设的需要，为精细化的数据安全策略提供依据和支撑。

在理想状态下，如果企业的数据治理已经做得足够完善，数据分类分级的结果是可以得到有效复用的。但考虑到绝大部分行业的数字化建设仍处于初级阶段，在目前的实践中，在不同目标牵引下，数据分类分级的方法和维度存在较大差异，几乎处于平行操作状态。因此，确立清晰的目标才好有的放矢地开展工作。

围绕安全领域的数据分类分级而言，企业着手面临着一系列比较棘手的挑战。

首先，分类分级的标准和规则难以定义。王文宇对此解释，一个企业的数据大致可以划分为通用数据和业务数据，通用数据即大家都会涉及的数据，比如网络拓普、IP地址、个人信息等，这类数据的行业差异性较小，仅仅是彼此侧重点有所不同，比较容易梳理和划分。而业务数据是复杂且独特的，行业差异性巨大，即使是同行业的不同运营主体，业务情况也可能是一家一个样。因此，在国家层面很难去制定一套通用而详尽的数据分类分级标准，企业也因为缺乏指导和参考样本而难以下手。

其次，对非结构化数据的分类分级存在障碍。随着企业的非结构化数据越来越多，由于其格式非常多样，数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现，在技术上比结构化数据更难标准化和理解。通过人工去厘清这些数据在效率和准确性上差强人意，而具有自学习能力的智能工具并非是普通企业在短时间内能够自研攻克的。

再者，企业业务属性差异大。业务主要围绕数据展开的互联网年企业大多配备有专门的数据团队，已经建立了常态化的数据识别、汇聚融合、标注、处理等流程，为数据分类分级奠定了基础。而各行各业更多的、并非以数据业务为核心的企业，可能对自身的数据资产情况并未有过全面的梳理，在缺乏标签化的打标规则，以及数据管理结构不清晰的情况下，直接开展数据分类分级就非常困难。

总而言之，传统的数据分类分级工作是一个依靠人力输出的、缺乏标准指引的苦差事，过程漫长，结果粗糙。企业需要的是数据类型覆盖全面的、智能化的、同时还能够满足其个性化业务的工具或方案来替代人工操作。

数据运营安全平台：全类型多源敏感数据资产发现及全景展示

数据分类分级是将杂乱无序的数据梳理归纳形成直观可视的数据台账的过程，具有极强的专家属性，据王文宇介绍，数安行建立了零信任数据运营安全平台，具备全类型数据识别及敏感数据资产梳理功能，通过对组织内全类型、多源头数据资产进行探测分析，帮助企业建立敏感数据资产全景视图，支持文件内容、个人信息以及数据血亲关系的多维度快速检索。其区别于市场同类产品的优势特点在于：

·全行业全类型开箱即用的数据模型

平台内置基于各个行业数据分类分级标准的敏感数据深度识别模型，支持上万种数据格式识别，覆盖所有业务数据类型。支持结构化、非结构化信息中敏感数据识别，包括商业数据、政务数据及个人隐私数据。王文宇表示，数据模型丰富全面是高质量分类分级的保障，数安行的核心团队拥有十余年网络安全与数据安全经验，依靠专家经验和对业务的深度理解建立起优势壁垒。通过这种便捷的、齐全的、开箱即用的敏感数据分类模型以及更细粒度的个人隐私数据等数据识别模型，企业可以快速定义符合自己数据业务场景的敏感数据合规及防护策略。

·基于小数据机器学习的敏感数据识别标注

平台支持基于少量数据样本的小数据机器学习技术，动态生成敏感数据智能识别模型，并对样本进行管理及持续样本规则学习。针对企业特有的业务数据，使用小数据机器学习的敏感数据智能分析工具，自动生成敏感数据分类模型，实现特有业务数据的精细分类标注。王文宇解释，面对各自特殊的业务数据，只有极少数情况下有足够的数据量进行深度学习，小数据机器学习的优势就在于，不需要投喂大量样本，对用户的要求不高，具有更实际的可落地性。

·动态数据内容深度解析与跟踪标注

平台支持多类型、多格式、多形态的数据内容深度解析和流转跟踪标注，可以完整支持动态的数据分类分级。王文宇阐释，这里的“动态”有两层含义，一是对于增量数据的持续性分类分级，数据资产在组织内并非一直保持静态存储状态，在整个采集、交换、使用、销毁的过程中，需要梳理新产生变化的部分。

而更重要的是，同样一份数据在流转过程中，也会经历其复杂的生命周期，比如一份DOC文件被复制并转换为FDF格式，是容易被识别出来的，再将这份文件进行压缩并加密，从静态的视角就无法识别其中内容了，这会导致数据流转的失控，并引发风险威胁。数安行的平台支持各种格式压缩包多层嵌套识别，支持加密文件识别，支持不同编码格式，支持基于文件指纹、文件DNA等文件生物特征检测，支持隐写数据、加密数据等包含敏感信息的不可解析数据识别标注，以保证敏感数据全链路智能聚合及溯源。

该功能可以较好应对如今比较频繁的数据运营活动和数据安全威胁。其一是正常的数据传输，复制、压缩、加密等都是常见的操作；其二是数据滥用，内鬼等恶意行为者为了逃过内部的监控系统，可能会通过多次的转移、加工等恶意处理，让数据变形，达到将其转移窃取的目的；其三是勒索软件或APT攻击为了偷走数据，也会对其进行特殊处理再外传，如果在内部没有识别到，边界处的流量识别往往只能捕获已知的威胁，而对于未知威胁束手无策。

数据分类分级无法单独存在 将与数据安全保护共同发挥作用

通过前面的交谈我们可以感受到，数安行的安全架构更多是基于匹配真实的数据运营场景来设计的，具有较高的实操性。王文宇对此表示，数据分类分级是为了指导后续的数据安全建设，其孤立存在本身没有意义，因此必须贴合数据安全风险的本质和数据业务的场景来规划。

也正是基于这样的考虑，数安行的数据运营安全平台践行诊疗一体的思路，围绕一致性安全策略的原则，在对各种来源的数据进行分类分级的同时，还会全程跟踪标注数据的使用及变化过程，以此来实时感知数据违规使用及流转风险。然后，使用无感数据安全沙箱、微隔离存储等技术，根据风险级别、使用环境、流转环节以及用户角色等差异提供最精准、最适宜的防护手段，同时不影响数据正常流转效率及业务的正常运行。

对于已经部署其他安全设备的企业，数安行也将敏感数据资产的识别及分类能力，甚至是敏感数据的全流程标注跟踪能力、扩散风险的态势感知报告以及自适应工具箱的防护能力对外输出，与其他品类的安全产品和应用系统实现能力的共享和有机流动，一方面可以将安全能力进行扩展延伸，另一方面也可以对用户的存量系统和产品进行能力激活，重新发挥这些产品在数据运营中的防护效果。

随着数据分类分级深入推进到各行各业，王文宇表示，数据分类分级是合规刚需，除了已经出台相关标准的金融、运营商等走在较前列的行业，各行各业都会紧随其后发布指南文件，形成更详尽的指导和监管。同时，数据分类分级很难成为独立的项目，更多是作为数据风险检测、数据安全保护的一个环节、模块，在数据安全策略和一体化建设上发挥效能，企业需要正确认识其综合价值和必要性，适时建立自动化、智能化能力或选择相关方案来支撑数据分利分级工作，在保护个人隐私和确保数据安全的前提下分步有序推动数据流通应用。

写在最后

安全419将数安行在数据分类分级领域所积累的能力及解决方案呈现于此，希望能够对打算开展或正在进行这项工作的用户提供一定的帮助。后续，我们将持续更新该系列选题，介绍更多安全厂商在该领域的探索和实践，方便读者及用户观察不同的解决方案在面对不同行业、不同数据场景、不同客户需求时能提供的差异化能力。

同时，我们也欢迎有相关解决方案的安全厂商自荐，将自己的思考和经验展示出来，共同帮助全行业用户在数字化建设的道路上走得更坚实、更安全。

数据分类分级数据安全数安行

下一篇：从网络钓鱼攻击数据看员工安全意识的重要性