首家！小荷医疗大模型通过医疗健康行业大模型四级评估

随着医疗健康行业大模型数量的不断增多，行业发展面临诸多挑战。一是，模型成熟度参差不齐，提供医疗健康大模型的企事业单位已超200家，但大多数模型在医疗领域的可靠性仍有待验证；二是，缺乏统一的参考依据和评估标准，行业客户难以难以有效甄别和选择适合的医疗健康大模型；三是，亟需构建科学的成熟度分级评估体系，推动人工智能技术更好地服务和赋能医疗行业。

为解决上述问题，在国家有关部门指导支持下，中国信通院依托互联网医疗健康产业联盟开展医疗健康行业大模型标准化研究工作，构建了医疗健康行业大模型技术标准系列、成熟度评估标准体系和能力测试方法系列，并于2024年11月率先发布《医疗健康行业大模型成熟度评估模型第1部分：健康咨询》，该标准由董家鸿院士牵头、北京清华长庚医院、航天中心医院、中国人民解放军总医院、中日友好医院等多家医疗机构和科技企业参与，关注直接面向用户服务的健康咨询服务场景，形成健康咨询场景下大模型应用的成熟度评估基准，通过定性定量相结合的评估细则，划分初始级、受监督级、可用级、可信级、可依赖级等五个级别，为医疗健康行业大模型应用的能力建设提出梯次进阶指引。初始级仅具备基础健康咨询功能；受监督级可生成用户画像和内容，但需执业医师监督；可用级建议经专业人员审核，具备一定实用价值；可信级基本符合安全标准，输出内容真实可靠；可依赖级为最高等级。其中，四级“可信级”代表模型专业度较高，已具备较为可靠的医疗健康服务能力。

2025年1月起，中国信息通信研究院依据标准，通过测试数据集、符合性验证、行业专家评分、多场景模拟测试等方式，对小荷医疗大模型开展模型成熟度评估。根据标准在场景应用能力和用户服务能力的可信级（四级）要求，消化、心内、呼吸、骨科等多个医疗专科领域专家重点围绕信息问询、疾病诊断、健康建议、用户需求分析、语言能力和服务体验等维度进行评估。同时，重点关注模型的鲁棒性、可解释性、一致性和专业性，围绕法律法规、医学伦理、意识形态等维度，开展模型安全能力评价。

通过标准规定的多场景测试数据集验证和第三方专家客观评分，小荷医疗大模型在场景应用能力和用户服务能力均表现突出，其中安全能力得到医疗专家的一致高分评价。综合各维度成绩，成为首个符合医疗健康行业大模型成熟度四级（可信级）的垂类行业大模型。

下一步，中国信通院将联合医疗机构、高等院校、头部信息化企业等各界力量，持续完善行业专科领域评估数据集，建设自动化医疗健康行业大模型测试平台，完善数据管理、性能优化、模型训练、服务运营等行业大模型成熟度标准，并开展首批医疗健康行业大模型成熟度评估，以标准引领推动产业高质量发展。

联系方式：

郭健 13301137272

李常来 13811152093