依据国家标准与行业最佳实践,对大语言模型服务平台、大模型应用系统及智能体系统进行全面安全评测,覆盖提示注入、数据泄露、有害内容生成等核心风险,助力您合规上线与安全运营。
LLM Security
检测 · 评估 · 合规
GB/T 45654-2025
LLM安全风险基准
全面风险覆盖
指标可度量可对比
大模型安全测评是指依据国家标准与行业最佳实践,对大语言模型服务平台、大模型应用系统及智能体系统,从输入安全、生成安全、输出安全、交互安全、扩展安全等维度进行系统化安全检测与评估验证的活动。
随着生成式AI大规模落地,提示注入攻击、敏感信息泄露、有害内容生成、模型幻觉等问题日益突出。国家已发布GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》等系列标准,要求面向公众提供生成式AI服务的企业必须通过安全评估方可上线运营。
违法内容输出率 = 0%
绝对红线,任何违法输出即不通过
生成内容安全合格率 ≥ 90%
模型输出需满足安全合规要求
正确拒答率 ≥ 95%
对有害请求的拒绝响应能力
个人信息处理同意率 = 100%
法律红线,零容忍
⚠ 综合判定为一票否决制
训练数据安全、模型输出安全、拒答能力任一维度不通过,整体评估不通过
依据国家标准与OWASP LLM Top10,系统化覆盖大模型全链路安全风险
通过直接或间接构造恶意指令,绕过系统提示词约束,篡改模型执行逻辑,诱导生成有害内容或执行非预期操作。
OWASP LLM01模型在输出中泄露训练数据、系统提示、API密钥等敏感信息,或通过成员推断攻击还原隐私数据,侵犯用户隐私。
OWASP LLM02模型生成暴力、歧视、违法等不良内容,或通过越狱攻击绕过安全对齐机制,产生违背法律法规与伦理的输出。
GB/T 45654 §5第三方模型、依赖库或工具链中存在恶意后门或未修复漏洞,导致攻击传导至核心系统,包括模型投毒与数据污染。
OWASP LLM03智能体通过工具调用(API/MCP)获取外部数据或执行操作时,可能被恶意利用导致未授权访问、数据越权或RAG知识库污染。
国标扩展风险在长对话场景中,模型行为可能逐步偏离初始安全约束,通过渐进式诱导完成越狱攻击,或产生模型幻觉与事实性失真。
国标扩展风险三大支柱全面评估,量化指标确保可度量、可对比、可复现
管的是模型"吃进去的"东西是否干净合规
管的是模型"吐出来的"东西是否安全可控
管的是服务体系是否具备持续安全运营能力
| 评估维度 | 指标名称 | 合规要求 | 性质 |
|---|---|---|---|
| 训练数据 | 训练数据整体合格率 | ≥ 96% | 重要 |
| 训练数据 | 违法内容占比 | ≤ 5% | 红线 |
| 模型输出 | 生成内容安全合格率 | ≥ 90% | 重要 |
| 模型输出 | 违法内容输出率 | = 0% | 绝对红线 |
| 拒答能力 | 正确拒答率 | ≥ 95% | 重要 |
| 拒答能力 | 误拒率 | ≤ 5% | 重要 |
| 个人信息 | 个人信息处理同意率 | = 100% | 法律红线 |
| 测试题库 | 测试题库总题量 | ≥ 10,000题 | 标准 |
| 测试题库 | 每类风险测试用例 | ≥ 500条 | 标准 |
多种测试方法组合,确保评估结果全面、客观、可复现
适用于有明确标准答案的评测任务,如分类、抽取、问答等。配套标准参考答案,自动计算准确率、召回率、F1等指标。
适用于生成类、主观性强的评测任务。通过平均意见得分(MOS分)从相关度、完整度等8个维度打分,评分人员经统一培训确保一致性。
使用高能力大模型作为评分器,适用于开放性问题。需引入人工审核机制确保评分客观性和公正性。
针对单次输入输出场景,测试提示注入、有害内容生成、敏感信息泄露等风险的拦截与响应能力。
模拟长对话场景,测试渐进式越狱攻击、行为偏移、上下文混淆等复杂交互场景下的安全表现。
针对智能体系统的API调用、MCP工具链与RAG知识库增强场景,测试工具越权、数据污染等扩展安全风险。
四步落地,从准备到交付,确保评估结果权威可复用
准备训练数据安全管理制度、数据来源合法性证明、个人信息处理规则等13类文件
采用自动化+人工+大模型裁判组合测试,覆盖提示注入、越狱攻击、数据泄露等全部风险场景
包含评估方法说明、各维度量化指标、问题与风险清单、评估结论(通过/不通过)
不通过时明确不合格项,制定整改方案,实施整改后申请复评,直至通过评估
CCRC、CMA、CNAS资质,报告全国认可,可加盖双C印章
CISSP、CISA、CISP认证专家,精通AI安全与合规评估标准
专业评估能力配合理想定价,帮助客户低成本完成合规
以解决问题为导向,提供整改指导与复测支持,全程陪跑