大模型安全测评 - LLM安全评估服务

ABOUT LLM SECURITY

什么是大模型安全测评？

大模型安全测评是指依据国家标准与行业最佳实践，对大语言模型服务平台、大模型应用系统及智能体系统，从输入安全、生成安全、输出安全、交互安全、扩展安全等维度进行系统化安全检测与评估验证的活动。

随着生成式AI大规模落地，提示注入攻击、敏感信息泄露、有害内容生成、模型幻觉等问题日益突出。国家已发布GB/T 45654-2025《网络安全技术生成式人工智能服务安全基本要求》等系列标准，要求面向公众提供生成式AI服务的企业必须通过安全评估方可上线运营。

哪些情况必须做安全测评？

面向公众提供生成式AI服务（大模型备案前置条件）
具有舆论属性或社会动员能力的AI应用
政务、金融、医疗等关键行业的大模型应用系统
智能体系统上线前的安全合规审查
企业内部大模型应用的定期安全复测

GB/T 45654-2025 合规红线

违法内容输出率 = 0%

绝对红线，任何违法输出即不通过

生成内容安全合格率 ≥ 90%

模型输出需满足安全合规要求

正确拒答率 ≥ 95%

对有害请求的拒绝响应能力

个人信息处理同意率 = 100%

法律红线，零容忍

⚠ 综合判定为一票否决制

训练数据安全、模型输出安全、拒答能力任一维度不通过，整体评估不通过

SECURITY RISKS

六大核心安全风险

依据国家标准与OWASP LLM Top10，系统化覆盖大模型全链路安全风险

提示注入攻击

通过直接或间接构造恶意指令，绕过系统提示词约束，篡改模型执行逻辑，诱导生成有害内容或执行非预期操作。

OWASP LLM01

敏感信息泄露

模型在输出中泄露训练数据、系统提示、API密钥等敏感信息，或通过成员推断攻击还原隐私数据，侵犯用户隐私。

OWASP LLM02

有害内容生成

模型生成暴力、歧视、违法等不良内容，或通过越狱攻击绕过安全对齐机制，产生违背法律法规与伦理的输出。

GB/T 45654 §5

供应链安全

第三方模型、依赖库或工具链中存在恶意后门或未修复漏洞，导致攻击传导至核心系统，包括模型投毒与数据污染。

OWASP LLM03

工具调用与扩展风险

智能体通过工具调用（API/MCP）获取外部数据或执行操作时，可能被恶意利用导致未授权访问、数据越权或RAG知识库污染。

国标扩展风险

多轮交互与行为偏移

在长对话场景中，模型行为可能逐步偏离初始安全约束，通过渐进式诱导完成越狱攻击，或产生模型幻觉与事实性失真。

国标扩展风险

EVALUATION SCOPE

测评内容与指标

三大支柱全面评估，量化指标确保可度量、可对比、可复现

训练数据安全

管的是模型"吃进去的"东西是否干净合规

数据来源合法性证明
训练数据整体合格率 ≥ 96%
违法内容占比 ≤ 5%（红线）
个人信息脱敏与同意率 = 100%
数据分类分级与安全管理制度

模型安全

管的是模型"吐出来的"东西是否安全可控

生成内容安全合格率 ≥ 90%
违法内容输出率 = 0%（绝对红线）
正确拒答率 ≥ 95%
误拒率 ≤ 5%
内容标识与AIGC水印

安全措施

管的是服务体系是否具备持续安全运营能力

服务透明度与用户须知公示
用户权益保障与投诉渠道
输入内容安全监测机制
安全管理制度与应急预案
监看人员配置与定期评估

关键量化指标一览

评估维度	指标名称	合规要求	性质
训练数据	训练数据整体合格率	≥ 96%	重要
训练数据	违法内容占比	≤ 5%	红线
模型输出	生成内容安全合格率	≥ 90%	重要
模型输出	违法内容输出率	= 0%	绝对红线
拒答能力	正确拒答率	≥ 95%	重要
拒答能力	误拒率	≤ 5%	重要
个人信息	个人信息处理同意率	= 100%	法律红线
测试题库	测试题库总题量	≥ 10,000题	标准
测试题库	每类风险测试用例	≥ 500条	标准

TESTING METHODS

测评方法

多种测试方法组合，确保评估结果全面、客观、可复现

自动化评测

适用于有明确标准答案的评测任务，如分类、抽取、问答等。配套标准参考答案，自动计算准确率、召回率、F1等指标。

人工评测

适用于生成类、主观性强的评测任务。通过平均意见得分（MOS分）从相关度、完整度等8个维度打分，评分人员经统一培训确保一致性。

大模型裁判评测

使用高能力大模型作为评分器，适用于开放性问题。需引入人工审核机制确保评分客观性和公正性。

单轮测试

针对单次输入输出场景，测试提示注入、有害内容生成、敏感信息泄露等风险的拦截与响应能力。

多轮测试

模拟长对话场景，测试渐进式越狱攻击、行为偏移、上下文混淆等复杂交互场景下的安全表现。

工具调用测试

针对智能体系统的API调用、MCP工具链与RAG知识库增强场景，测试工具越权、数据污染等扩展安全风险。

EVALUATION PROCESS

测评流程

四步落地，从准备到交付，确保评估结果权威可复用

1

准备评估材料

准备训练数据安全管理制度、数据来源合法性证明、个人信息处理规则等13类文件

2

执行安全检测

采用自动化+人工+大模型裁判组合测试，覆盖提示注入、越狱攻击、数据泄露等全部风险场景

3

出具测评报告

包含评估方法说明、各维度量化指标、问题与风险清单、评估结论（通过/不通过）

4

整改与复测

不通过时明确不合格项，制定整改方案，实施整改后申请复评，直至通过评估

APPLICABLE STANDARDS

适用标准与法规

国家标准

GB/T 45654-2025 网络安全技术生成式人工智能服务安全基本要求
GB/T 45288.1-2025 人工智能大模型第1部分：通用要求
GB/T 45288.2-2025 人工智能大模型第2部分：评测指标与方法
GB 45438-2025 网络安全技术人工智能生成合成内容标识方法（强制性）
GB/T 45652-2025 生成式人工智能预训练和优化训练数据安全规范

法规与行业规范

生成式人工智能服务管理暂行办法（国家网信办等七部门联合发布）
OWASP LLM Top 10（2025版，行业权威安全风险基准）
大模型服务与应用安全评测技术规范（ISC行业标准，2026年编制中）
TC260 政务大模型应用安全规范（征求意见稿）
生成式人工智能数据标注安全规范（配套标准）

WHY CHOOSE US

为什么选择格修科技？

权威资质

CCRC、CMA、CNAS资质，报告全国认可，可加盖双C印章

专业团队

CISSP、CISA、CISP认证专家，精通AI安全与合规评估标准

质优价实

专业评估能力配合理想定价，帮助客户低成本完成合规

客户至上

以解决问题为导向，提供整改指导与复测支持，全程陪跑

大模型
安全测评

国标合规

OWASP Top10

6大风险维度

量化评估

什么是大模型安全测评？

哪些情况必须做安全测评？

GB/T 45654-2025 合规红线

六大核心安全风险

提示注入攻击

敏感信息泄露

有害内容生成

供应链安全

工具调用与扩展风险

多轮交互与行为偏移

测评内容与指标

训练数据安全

模型安全

安全措施

关键量化指标一览

测评方法

自动化评测

人工评测

大模型裁判评测

单轮测试

多轮测试

工具调用测试

测评流程

准备评估材料

执行安全检测

出具测评报告

整改与复测

适用标准与法规

国家标准

法规与行业规范

为什么选择格修科技？

权威资质

专业团队

质优价实

客户至上

大模型 安全测评

国标合规

OWASP Top10

6大风险维度

量化评估

什么是大模型安全测评？

哪些情况必须做安全测评？

GB/T 45654-2025 合规红线

六大核心安全风险

提示注入攻击

敏感信息泄露

有害内容生成

供应链安全

工具调用与扩展风险

多轮交互与行为偏移

测评内容与指标

训练数据安全

模型安全

安全措施

关键量化指标一览

测评方法

自动化评测

人工评测

大模型裁判评测

单轮测试

多轮测试

工具调用测试

测评流程

准备评估材料

执行安全检测

出具测评报告

整改与复测

适用标准与法规

国家标准

法规与行业规范

为什么选择格修科技？

权威资质

专业团队

质优价实

客户至上

大模型
安全测评