依据 GB/T 45654-2025 · OWASP LLM Top10

大模型
安全测评

依据国家标准与行业最佳实践,对大语言模型服务平台、大模型应用系统及智能体系统进行全面安全评测,覆盖提示注入、数据泄露、有害内容生成等核心风险,助力您合规上线与安全运营。

国标合规

GB/T 45654-2025

OWASP Top10

LLM安全风险基准

6大风险维度

全面风险覆盖

量化评估

指标可度量可对比

ABOUT LLM SECURITY

什么是大模型安全测评?

大模型安全测评是指依据国家标准与行业最佳实践,对大语言模型服务平台、大模型应用系统及智能体系统,从输入安全、生成安全、输出安全、交互安全、扩展安全等维度进行系统化安全检测与评估验证的活动。

随着生成式AI大规模落地,提示注入攻击、敏感信息泄露、有害内容生成、模型幻觉等问题日益突出。国家已发布GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》等系列标准,要求面向公众提供生成式AI服务的企业必须通过安全评估方可上线运营。

哪些情况必须做安全测评?

  • 面向公众提供生成式AI服务(大模型备案前置条件)
  • 具有舆论属性或社会动员能力的AI应用
  • 政务、金融、医疗等关键行业的大模型应用系统
  • 智能体系统上线前的安全合规审查
  • 企业内部大模型应用的定期安全复测

GB/T 45654-2025 合规红线

违法内容输出率 = 0%

绝对红线,任何违法输出即不通过

生成内容安全合格率 ≥ 90%

模型输出需满足安全合规要求

正确拒答率 ≥ 95%

对有害请求的拒绝响应能力

个人信息处理同意率 = 100%

法律红线,零容忍

⚠ 综合判定为一票否决制

训练数据安全、模型输出安全、拒答能力任一维度不通过,整体评估不通过

SECURITY RISKS

六大核心安全风险

依据国家标准与OWASP LLM Top10,系统化覆盖大模型全链路安全风险

提示注入攻击

通过直接或间接构造恶意指令,绕过系统提示词约束,篡改模型执行逻辑,诱导生成有害内容或执行非预期操作。

OWASP LLM01

敏感信息泄露

模型在输出中泄露训练数据、系统提示、API密钥等敏感信息,或通过成员推断攻击还原隐私数据,侵犯用户隐私。

OWASP LLM02

有害内容生成

模型生成暴力、歧视、违法等不良内容,或通过越狱攻击绕过安全对齐机制,产生违背法律法规与伦理的输出。

GB/T 45654 §5

供应链安全

第三方模型、依赖库或工具链中存在恶意后门或未修复漏洞,导致攻击传导至核心系统,包括模型投毒与数据污染。

OWASP LLM03

工具调用与扩展风险

智能体通过工具调用(API/MCP)获取外部数据或执行操作时,可能被恶意利用导致未授权访问、数据越权或RAG知识库污染。

国标扩展风险

多轮交互与行为偏移

在长对话场景中,模型行为可能逐步偏离初始安全约束,通过渐进式诱导完成越狱攻击,或产生模型幻觉与事实性失真。

国标扩展风险
EVALUATION SCOPE

测评内容与指标

三大支柱全面评估,量化指标确保可度量、可对比、可复现

训练数据安全

管的是模型"吃进去的"东西是否干净合规

  • 数据来源合法性证明
  • 训练数据整体合格率 ≥ 96%
  • 违法内容占比 ≤ 5%(红线)
  • 个人信息脱敏与同意率 = 100%
  • 数据分类分级与安全管理制度

模型安全

管的是模型"吐出来的"东西是否安全可控

  • 生成内容安全合格率 ≥ 90%
  • 违法内容输出率 = 0%(绝对红线)
  • 正确拒答率 ≥ 95%
  • 误拒率 ≤ 5%
  • 内容标识与AIGC水印

安全措施

管的是服务体系是否具备持续安全运营能力

  • 服务透明度与用户须知公示
  • 用户权益保障与投诉渠道
  • 输入内容安全监测机制
  • 安全管理制度与应急预案
  • 监看人员配置与定期评估

关键量化指标一览

评估维度 指标名称 合规要求 性质
训练数据 训练数据整体合格率 ≥ 96% 重要
训练数据 违法内容占比 ≤ 5% 红线
模型输出 生成内容安全合格率 ≥ 90% 重要
模型输出 违法内容输出率 = 0% 绝对红线
拒答能力 正确拒答率 ≥ 95% 重要
拒答能力 误拒率 ≤ 5% 重要
个人信息 个人信息处理同意率 = 100% 法律红线
测试题库 测试题库总题量 ≥ 10,000题 标准
测试题库 每类风险测试用例 ≥ 500条 标准
TESTING METHODS

测评方法

多种测试方法组合,确保评估结果全面、客观、可复现

自动化评测

适用于有明确标准答案的评测任务,如分类、抽取、问答等。配套标准参考答案,自动计算准确率、召回率、F1等指标。

人工评测

适用于生成类、主观性强的评测任务。通过平均意见得分(MOS分)从相关度、完整度等8个维度打分,评分人员经统一培训确保一致性。

大模型裁判评测

使用高能力大模型作为评分器,适用于开放性问题。需引入人工审核机制确保评分客观性和公正性。

单轮测试

针对单次输入输出场景,测试提示注入、有害内容生成、敏感信息泄露等风险的拦截与响应能力。

多轮测试

模拟长对话场景,测试渐进式越狱攻击、行为偏移、上下文混淆等复杂交互场景下的安全表现。

工具调用测试

针对智能体系统的API调用、MCP工具链与RAG知识库增强场景,测试工具越权、数据污染等扩展安全风险。

EVALUATION PROCESS

测评流程

四步落地,从准备到交付,确保评估结果权威可复用

1

准备评估材料

准备训练数据安全管理制度、数据来源合法性证明、个人信息处理规则等13类文件

2

执行安全检测

采用自动化+人工+大模型裁判组合测试,覆盖提示注入、越狱攻击、数据泄露等全部风险场景

3

出具测评报告

包含评估方法说明、各维度量化指标、问题与风险清单、评估结论(通过/不通过)

4

整改与复测

不通过时明确不合格项,制定整改方案,实施整改后申请复评,直至通过评估

APPLICABLE STANDARDS

适用标准与法规

国家标准

  • GB/T 45654-2025 网络安全技术 生成式人工智能服务安全基本要求
  • GB/T 45288.1-2025 人工智能 大模型 第1部分:通用要求
  • GB/T 45288.2-2025 人工智能 大模型 第2部分:评测指标与方法
  • GB 45438-2025 网络安全技术 人工智能生成合成内容标识方法(强制性)
  • GB/T 45652-2025 生成式人工智能预训练和优化训练数据安全规范

法规与行业规范

  • 生成式人工智能服务管理暂行办法(国家网信办等七部门联合发布)
  • OWASP LLM Top 10(2025版,行业权威安全风险基准)
  • 大模型服务与应用安全评测技术规范(ISC行业标准,2026年编制中)
  • TC260 政务大模型应用安全规范(征求意见稿)
  • 生成式人工智能数据标注安全规范(配套标准)
WHY CHOOSE US

为什么选择格修科技?

权威资质

CCRC、CMA、CNAS资质,报告全国认可,可加盖双C印章

专业团队

CISSP、CISA、CISP认证专家,精通AI安全与合规评估标准

质优价实

专业评估能力配合理想定价,帮助客户低成本完成合规

客户至上

以解决问题为导向,提供整改指导与复测支持,全程陪跑