2023年,大模型无疑是整个IT行业最火热的话题,AI大模型的出现为各行业的生产方式带来了全新的变革。在信息安全行业,无论是安全甲方还是乙方,也都在积极谋划布局,希望借助AI大模型技术重塑安全产品,乃至重塑整个行业。不难看出,AI大模型,或者说安全大模型正在成为网络安全产业进化的新抓手,为网络安全开辟出新的想象空间。
在大会主论坛上,斗象科技CEO、FreeBuf 联合创始人谢忱提出,2023年是科技爆炸的一年,AI大模型以“生产力工具”的身份,深刻影响和改变了安全行业。但必须意识到,大模型是否能找到实际应用场景,是否具备细分领域、垂直领域的语料,是突围而出的关键点。
同时他也宣布,斗象科技即将发布一个真正理解网安行业语言,具备网安行业细分知识的FreeBuf安全通识大模型。这一大模型通过对FreeBuf汇聚的海量网安行业开放性数据的有监督、无监督学习,目前在安全细分领域的知识问答和掌握方面,FreeBuf通识大模型的回答质量不差于ChatGPT。这一具备网安行业细分知识的AI安全咨询“智能体”安全通识大模型,预计在2024年与所有用户见面。
此外,从本届FCIS大会上我们也发现,AI安全大模型已经成为讲者们热衷分享的方向。包括腾讯安全朱雀实验室、亚马逊云科技、巴斯夫中国、vivo千镜安全实验室、字节跳动火山引擎等安全团队都围绕AI单模型在安全行业应用,为台下的观众带来了自身企业的最佳实践和踩坑经验。
FCIS 2023大会第二日,在人工智能安全与智能制造安全特色专场上,来自某集团信息中心高级总监孙琦,斗象科技安全专家刘晓飞,非夕机器人信息安全总监刘歆轶,联通(广东)产业互联网有限公司AI安全专家熊春霖,以及西安电子科技大学国家级人才,华山学者领军教授,博导王皓分别发表了AI大模型相关的主题演讲。
在详细阐述AIGC、深度学习、生成式AI等技术的发展历程,分享自身企业实践应用经验之余,他们也对于大模型新兴技术应用分享了自身的真知灼见,我们对各位专家的部分观点和见解进行了摘取,与大家分享。
图/某集团信息中心高级总监 孙琦
开场演讲的嘉宾孙琦,是一位连续多届在FCIS大会登台分享的嘉宾,也是我们的一位老朋友。
孙琦指出,当前在大多数人的感受中,如ChatGPT这样的增强式的对话模型,带来了生产生活方式的变革。但事实上,人机交互对话只是人工智能和深度学习技术的一个商业化应用场景。但将其放在网络安全领域,起码从目前来看,在安全场景的应用方面,ChatGPT这样的大模型对安全人员的工作辅助效果是有的,但也十分有限。
他表示,结合其自身企业内部生成式AI应用探索实践来看,无论是将AI大模型应用于日志分析还是安全助手的场景,都具有比较高的技术门槛。无论是数据的准确性问题,还是实现交互式信息获取及指令下达的问题,都需要更多的技术沉淀,需要更多时间打磨,不然很快就会发现预期和现实之间存在一道鸿沟。
生成式AI是一件非常美好的事情,但安全大模型还有一段很长的路要走。在整个学习和训练的过程中,需要结合自身的业务场景,准备非常多的知识储备去持续推动它的进步,尽管可能做了很多的工作后还是达不到预期的效果,但生成式AI值得持续去关注,这一定是未来的重要方向。
图/斗象科技安全专家刘晓飞
第二位演讲者是来自斗象科技的安全专家刘晓飞,他以“AI领航,体校网络安全运营新未来”为题,重点从技术的角度,分享了AI 大模型在安全运营工作中的价值。
他从如何构建安全领域大模型的话题开始,详细介绍了预训练到微调的训练过程,并提出了通过上下文学习和ID技术来增强模型对问题的理解,分享了使用Zero-ShotCoT和Manual-CoT两种让大模型更好理解任务的具体方法。
他表示,未来大模型会向更智能的自主推理(ARAs)方向发展,将不依赖于人工规定,由LLM自主进行推理并自主完善。
“当前的AI agent可能只是简单的根据指令进行任务的分解,但随着AI的进化,他将向更智能的自主推理进化,让大模型在每轮的学习中,根据所学习到的内容不断地完善自我数据库,进而去获得更好的自主性和更强的可扩展性。这样的大模型才可以真正地帮我们去解决问题,而不用人为地去要求他按照哪些过程去解决,甚至大模型会提出一些在你的认知之外的思考,这才是大模型未来的发展趋势。”
图/非夕机器人信息安全总监刘歆轶
第三位演讲者非夕机器人信息安全总监刘歆轶,重点从AIGC审计的角度分享了自己的一些思考。他指出,对于AIGC生成的内容,要关注准确性、安全性和可靠性,当前AIGC生成内容可能存在以下几点风险:
1.输出质量问题
由于其不可预测的性质,确保AIGC模型生成的输出质量极具挑战性;
2.虚构的事实和幻觉
模型编造“事实”时的“幻觉”问题,模型产生幻觉的可能性意味着,在需要准确信息(如搜索)的情况下使用这些工具之前,需要设置重要的防护机制;
3.有偏见的输出
基于用于训练模型的数据中的偏见,AIGC模型与其他模型一样容易遭受有偏见输出的风险;
4.易被滥用
AIGC的绝对力量使其容易被“越狱”。虽然GPT的训练主要集中在单词预测上,但它的推理能力是一个意想不到的结果。随着业界在AIGC模型方面取得进展,用户可能会发现绕过模型最初预期功能的方法,并将其用于完全不同的目标。
因此,AIGC生成式AI也需要考虑到数据安全和算法伦理方面的问题,数据安全涉及到数据采集、处理、流通和跨境等各个环节的合规性和保护问题,以及数据中可能存在的个人隐私和违法信息。算法和模型的可解释性、伦理偏见、逻辑推理错误等问题也引起了关注。此外,对于训练过程中的数据清除、知识产权保护以及运维和治理层面的风险也需要进行考虑。在数据层面,需要注意数据来源的合法性、数据污染和偏差等问题。同时,对于语料的标注和内容的准确性也需要进行审计和监管。
图/联通(广东)产业互联网有限公司AI安全专家熊春霖
第五位演讲者是来自联通(广东)产业互联网有限公司的AI安全专家熊春霖,他也提出了许多有见地的思考。
他指出,将大模型用于安全领域面临以下问题:
●到底有多少需要用到的安全知识?
●增量知识怎么解决?
●高质量标记数据极度匮乏;
●如何保证知识能被训练到模型里面?
●如何能保证训练到模型中后,知识能被符合人类理解的方式使用?
●性能和性价比如何平衡?
目前来看,通过重新训练/二次训练的方式,微调大模型的方式以及通过向量数据库查询的方式来实现安全领域大模型可能不是最优路径。
在非安全领域,一般假定模型发布后,需要预测的数据分布是保持不变的;然而,在安全领域,恶意程序的作者不停地创造与之前大相径庭的恶意文件各式的白样本也不停地产生,需要有对样本的运营周期的训练。因此,模型训练流水线的构建要比模型本身更重要。
他认为,传统安全领域过去的恶意文件、恶意流量和规则数据实际上并不能很好地给大模型带来训练效果。在安全领域应该通过构建一个安全知识图谱和大语言模型结合的方式,来实现安全垂类的大语言模型,而非是通过海量的数据学习,再去对数据进行微调的方式。尤其在冷启动阶段,应当人工去生成知识图谱,把数据标记的工作转移到安全运营过程中,逐步产生更高质量的数据,最终去构建一个真正符合安全人员需求的安全垂类大模型。
图/西安电子科技大学国家级人才、华山学者领军教授、博导王皓
最后一位讲者是来自西安电子科技大学的王皓教授,他重点从监管的角度讨论了大模型在数据安全方面带来的新机遇和新挑战。
王皓指出,2022年底chatGPT的爆发,带来了巨大的技术变革,在国内外引起了广泛讨论以及关注,国际上各类通用大模型迅速相继涌现。发展至今通用大模型已经突破自然语言屏障,升华为多模态的生成式人工智能工具,大模型的生态也初步显现。目前,国内外众多网络科技公司纷纷推出了自己的通用大模型,如华为的盘古系统,讯飞的星火系列以及百度的文心一言。
但大模型由于发展时间短,信息保护比较脆弱,容易导致信息泄露。攻击者也开始设计“邪恶大模型”,利用大模型快速构建攻击工具,如大模型生成钓鱼邮件、挖掘零日漏洞、生成恶意代码。
年初ChatGPT、Bard等聊天机器人暴露出的“奶奶漏洞”就证明了这样的事实,需要通过提示让这些聊天机器人扮演用户已故的祖母,便能欺骗它们在讲睡前故事的过程中透露大量限制信息,甚至是手机IMEI密码或Windows激活密钥。
因此王皓呼吁,要围绕“伦理、安全和法治”探索AIGC领域的立法和治理,不断提升人工智能技术的安全性、可靠性、可控性、公平性。从监管的角度,将大模型重新放回笼子里。
王皓最后表示,大模型在逐步发展和应用的同时,相关监管政策也在逐步跟进完善,促进大模型内容与隐私安全。大模型对于基础设施安全方面也赋予了新的能力和挑战,在持续升级的网络攻防对抗中,以AI对抗AI是未来网络安全领域的重要趋势。