大模型时代-引领无缝人机交互与应对AI安全挑战

641

来源：搜博网

2023-11-05 18:34

行业：安防

当前，ChatGPT正引领人类迈入无缝人机交互的新纪元。然而，随着大规模语言模型（大模型）的迅猛发展，其在实际应用中逐渐暴露出事实性错误、知识盲区和常识偏差等问题，同时面临着训练数据来源合规性、数据使用偏见性、生成内容安全性等多重风险。为了应对这些挑战，绿盟科技于9月1日正式发布了绿盟风云卫大模型（NSFGPT），并同期推出了《安全行业大模型SecLLM技术白皮书》，旨在分享安全行业大模型研发的最佳实践与经验教训，为行业提供定制化的解决方案。

一、AI大模型的训练数据来源

AI大模型的实现离不开海量数据和强大算力的支持。随着数据量的增加，模型能够学习到更多的特征和模式，从而提高泛化能力。AI大模型的数据来源主要分为网络开放数据、服务商数据和自有数据三种类型。

网络开放数据：互联网上存在大量的政府、机构及企业公开数据，这些数据为AI大模型训练提供了丰富的材料。爬虫抓取、开放数据集和交换共享是目前获取网络公开数据的主要方式。
服务商数据：数据服务商通常具备大量的数据资源和技术实力，能够提供高质量、多样化的数据服务。与数据服务商合作，可以快速获得符合自身需求和标准的数据集，缩短获取数据的时间和成本。
自有数据：自有数据是打造垂直领域AI大模型的核心资源。企业通过自己的软件，利用多种途径对用户画像进行精准收集，这些数据具有很强的目标导向性，侧重于某一属性、某一行业或某一特征的深层次收集。

二、大模型安全总览

与传统端到端模型不同，大模型采用预训练-微调的训练范式。尽管大模型具备海量参数和微调所需敏感数据更少的特点，一定程度上缓解了对抗样本和数据隐私泄露的风险，但仍面临多重安全威胁。

对内而言，大模型参数量剧增带来的涌现能力引发了新的偏见和不确定风险；多模态学习增加了对齐风险；大模型内部存在可解释性不足的风险。对外而言，大模型面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等威胁。

三、大模型安全防护策略

为了提升大模型的安全性，本节从鲁棒性、可靠性、隐私性、公平性和可解释性五个角度提出防护策略。

鲁棒性：反映模型抵抗外部扰动和输入噪声的能力。通过异常数据检测、数据增强、鲁棒训练和模型清洗等技术提升大模型的鲁棒性。
可靠性：描述模型在现实世界环境中一致工作、正确完成目标任务的属性。通过高质量的训练数据、多样化的评估策略、管理模型的不确定性以及提高模型可解释性来提升可靠性。
隐私性：确保未授权用户无法接触到入模数据和大模型的隐私信息。采用加密存储、差分隐私、同态加密、安全多方计算以及模型水印和指纹等技术保障大模型的隐私性。
公平性：确保模型在面对不同群体、个体时不受敏感属性影响的能力。通过收集设计具备代表性和多样化的问答对或数据集，采用分组比较、敏感性分析等策略识别大模型的偏见，并采用纠偏技术和思路削减偏见。
可解释性：确保模型使用者能够直观理解模型内部机制和决策逻辑。采用可视化方法、基于扰动的可解释方法、基于梯度的可解释方法以及注意力机制可解释方法等技术提升模型的可解释性。

四、应对大模型时代的AI安全风险

为了应对大模型时代的AI安全风险，北京瑞莱智慧科技有限公司合伙人、高级副总裁朱萌提出了稳固三角形的概念，构建“智能测评、攻击应对以及AI安全防御”的三角模型。从发现风险、处置风险和防范风险三个视角出发，系统提升金融领域在新技术条件下的安全水平。