随着新兴技术的不断发展,各行各业的数字化转型步伐明显加快,数据总量明显呈爆发式增长,催生出了海量多元化的数据,数据已然成为了一种新的生产资料。据IDC预测,2025年全球数据总量将达175ZB。与此同时,随着企业的业务系统不断云化,并跨各种容器和组件转移数据,识别和评估所有数据显得异常困难,暗数据“应运而生”。
什么是暗数据?
暗数据是指那些未被发掘或理解的数据,即企业在日常业务活动中收集、处理和存储但在一定时期内不具备特定用途的数据,而这些数据的数量远远超出了企业计划存储、保护或清除的范围。数据存储成本相对较高,2019年Netflix就曾每月花费近1000万美元将其数据存储在云中,而这些未及时清除的“暗数据”,为数据中心的运作无意间又增加了一定的负荷。
Gartner将“暗数据(Dark Data)”定义为企业在常规业务活动期间收集、处理和存储的信息资产,但通常不能用于其他目的,如分析、业务关系和直接变现。这一概念与物理学中的“暗物质”类似。暗数据可以包括来自客户或过去员工的个人信息,也可能包括非传统数据,如系统备份、日志文件、配置文件、电子邮件备份或内部应用程序等信息。Gartner曾表示,企业信息领域的大部分是由“暗数据”组成的,许多企业甚至不知道他们拥有多少暗数据。
管理暗数据的相关措施
在现有的数据安全法规之下,如果企业继续放任暗数据增长,将引发一系列的安全问题,浪费大量资源,同时,一旦敏感数据在暗数据中丢失,企业或将违反相关规定遭受处罚。以下有五种打破数据孤岛、消除暗数据的关键步骤,以整体、有序的方式来应对暗数据挑战:
1、提高数据的可见性
首先,企业需要构建数据清单以明确数据分布,然后,建立威胁模型以确定安全需求、定位威胁和漏洞、评估严重性并确定解决方案的优先级。这将帮助您了解您拥有哪些数据并探索它可能面临的风险。一旦对数据进行了分类和标记,企业就可以检索和直观显示结构化数据和非结构化数据系统中分布的敏感数据元素。同时,还可以了解和量化威胁,以便确定安全风险优先级。
2、模拟攻击
通过渗透测试,模拟黑客攻击路径或策略,帮助企业安全团队发现关键性安全漏洞,从而改善整体安全状态。
3、建立安全防御并持续修正
在全面了解数据分布和威胁模型后,企业需要在目标系统或应用上加强安全控制。例如,端点检测和响应、日志记录和监视、Web 流量内容拦截、检查、修补等。此外,企业还应将步骤 1-3 视为数据发现的持续改进周期。
4、过滤数据
删除不再需要的敏感数据,最大限度地降低数据存储量,并设计相关控件以支持数据保留期,极大程度地限制敏感数据在整个环境中的扩散。
5、避免对安全工具的“迷恋”
数据丢失防护 (DLP) 工具有助于避免安全事故,但不应将其视为数据安全的“万精油”。大多数 DLP 技术都相对薄弱,可能会使企业陷入虚假的安全感。与所有的网络或隐私安全措施一样,数据保护的目的是在安全和效率之间寻找平衡。通过清晰的流程(详细且有据可查的策略和蓝图)、工作流程和运行手册来强化安全工具的防护效果,并建立具有丰富安全实践、可靠的安全团队。
2022年12月,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》正式发布,就初步搭建我国数据基础制度体系提出了20条政策举措。《意见》多次提及“安全”“治理”“数据分类分级”等关键字,实行数据分类分级是数据全流程动态保护的基本前提,也是当前数据安全建设的痛点和难点,而暗数据的治理更是数据安全建设的基础。
据此前安全419采访了解到,美创科技的暗数据发现和分类分级系统能够帮助企业级用户实现自定义的数据含义识别和分类分级,并输出发现结果。平台基于机器学习与数据挖掘技术,对多种数据源进行接入和元数据扫描,按照发现模板对数据进行发现和分析,持续助力行业用户实现数据分类分级有效落地,为数据安全精细化管控、数据流动共享、数据价值提升奠定扎实基础。