一提到个人信息遭到泄露,我们作为个体,都会对收集、保存我们隐私数据的企业恨得咬牙切齿。转换到企业的视角,另一个问题同时出现了,如果数据不是从我这儿泄露的,为什么要我来背这个锅?
来看一个发生在2017年的真实案件,庞某通过去哪儿网购买了一张东航的机票后,收到与所购航班相关的疑似诈骗的短信,于是庞某诉至法院,主张去哪儿网和东航泄露其隐私信息包括姓名手机号及行程安排(包括起落时间、地点、航班信息),要求去哪儿网和东航承担连带责任。
北京市第一中级人民法院于2017年3月27日作出(2017)京01民终509号民事判决,要求去哪儿网和东航于本判决生效后十日内在其官方网站首页以公告形式向庞某赔礼道歉,赔礼道歉公告的持续时间为连续三天。东航向北京市高级人民法院申请再审,其认为“判决仅以我方持有涉案行程信息即当然推定我方为侵权人,显属主观臆断”,北京市高级人民法院经过再审,2017年11月29日作出(2017)京民申3835号裁定,驳回东航的再审申请。
举证责任分配成为该案的一大亮点。从收集证据的资金、技术等成本上看,作为普通人的庞某根本不具备对东航、去哪儿网内部数据信息管理是否存在漏洞等情况进行举证证明的能力。因此,客观上,法律不能也不应要求庞某证明必定是东航或去哪儿网泄露了其隐私信息。东航和去哪儿网均未证明涉案信息泄漏归因于他人,或黑客攻击,抑或是庞某本人。法院在排除其他泄露隐私信息可能性的前提下,结合本案证据认定上述两公司存在过错。
这是中国民航第二研究所技术部总助马勇先生在CIS 2020大会·CSO首席信息安全官闭门高峰论坛上分享的一个案例。据其分析,可能泄露旅客信息的渠道,除了航空公司和购票平台,其实还包括机场、中航信,甚至是酒店、租车平台、旅行社等等。
这类事件对于可能被冤枉的企业最大的困扰在于,客户信息到底是由谁、怎么泄露出去的。但是在急于甩锅之时,企业更需要明白,一方面因其经营性质掌握了大量的个人信息,另一方面亦有相应的能力保护好消费者的个人信息免受泄露,这既是其社会责任,也是其应尽的法律义务。
马勇表示,除了采用数据加密等保护措施外,数据安全审计也是一种非常必要的手段,不但是加强企业自身的数据安全管理水平的手段,也是相关监管部门的要求。那么,对于一个高度依赖信息化的企业,信息系统数据众多、应用系统格式不统一,如何集中对应用系统日志进行审计分析?结合民航实际情况,马勇提出基于流量的敏感数据异常访问识别方法,希望能为业界提供一种新的解决思路。
首先通过对网络流量进行采集、解析,然后对网络流量中敏感信息进行识别,并采用机器学习的方法对敏感信息的访问行为进行分类,以识别针对敏感数据的恶意访问行为。最终实现对多个应用系统敏感数据的使用的集中审计,提高民航企事业单位的数据安全管理能力。
民航旅客信息包括姓名、身份证、家庭住址、电话号码、微信账号、Email账号、银行卡号、航班号、电子客票号码、航班时间、出发地、目的地等内容。对数据包内容进行解析,识别网络数据包中是否含有敏感数据,并按照敏感数据分类模型中的方法进行分级。
马勇提出的民航旅客信息分级分类方法中,非常敏感信息包括身份证、电话号码、姓名、电子客票号码,不法分子获取上述信息后,不但可以实施机票诈骗,还可能对旅客造成其它方面的困扰。比较敏感信息包括家庭住址、银行卡号、即时通信工具账号、电子邮件账号,不法分子如果仅利用这些信息可用于人肉搜索等。一般信息包括航班号、航班时间、出发地、目的地等,不法分子如果仅利用这些信息仅可用于旅客的数量统计等。
民航旅客信息识别方法包括,1)使用模式匹配方法,匹配数据的长度、字符类型和格式;2)使用关键字匹配,对结构化数据的标头进行识别;3)使用关键字+模式匹配的方式进行识别,通过识别文件中的关键字例如:邮箱等关键字,然后在关键字附件进行模式匹配,识别是否存在敏感信息;4)采用NLP识别方法,识别数据包中的姓名或地址信息等。
接下来是采用机器学习算法对网络中针对敏感数据的访问行为进行分类。第一步进行数据预处理,本次数据分析只针对数据访问的源地址、目的地址、访问时间、访问频率、访问数据量、访问用户的权限进行分析。随后是数据分析,采用K-means算法,通过对网络中敏感数据访问的时间、敏感数据的数量、频率、IP地址等特征进行分析,采用机器学习算法对这些数据进行自动分类。识别出针对敏感数据的恶意访问行为,并采取针对性措施进行处理。
旅客信息作为民航的核心数据之一,近年来随着民航单位信息化建设的推进呈爆发式增长,相关信息泄露事件也屡屡发生,普通民众与演艺明星皆轮番遭殃。马勇分享的方法,其目的就是为了告诉大家,自证清白最好的方式,其实是做好未雨绸缪,保护客户个人信息的同时保护好企业自身。