SpineGPT脊柱诊疗大模型发布,AI辅助诊断脊柱疾病能力大提升
## 脊柱诊疗大模型SpineGPT问世,AI辅助诊断能力实现跨越式提升
在解放军总医院的统筹下,联合浙江大学医学院附属第二医院、复旦大学附属华山医院等11家国内顶尖三甲医院,协同南京大学、吉林大学两所重点高校,并整合Pi3Lab、上海三友医疗器械股份有限公司等产学研多方资源,成功研发出首款面向脊柱诊疗领域的专业大模型。
该研究论文的共同第一作者为赵明、董文辉博士和张阳医生,核心贡献团队包括浙江大学医学院附属第二医院的陈其昕教授、夏顺楷医生,以及复旦大学附属华山医院的马晓生教授、管韵致医生等。通讯作者由解放军总医院骨科医学部副主任孙天胜教授担任,共同通讯作者为南京大学智能科学与技术学院副院长单彩峰教授。
全球范围内,脊柱疾病影响着约6.19亿人群,已成为导致残疾的主要因素之一。然而,现有AI模型在临床决策过程中仍面临显著的"认知鸿沟"。缺乏针对椎体层面的精准识别能力、多模态数据融合的指令集以及标准化的评估体系,成为制约AI辅助诊断发展的关键瓶颈。
研究团队提出了一套系统性解决方案,包括构建首个大规模、具备可追溯性的脊柱指令数据集SpineMed-450K,以及建立临床级评测基准SpineBench。基于这些基础设施训练出的专科大模型SpineGPT,在各项任务中均表现出显著优势,仅以70亿参数规模就全面超越了包括GLM-4.5V和Qwen2.5-VL-72B在内的顶尖开源大模型。
### 临床实践中的挑战:通用视觉语言模型的局限性
脊柱疾病的临床诊疗需要复杂的推理过程:必须整合X光、CT、MRI等多模态影像学发现,并将病灶精确定位到特定的椎体层面,以此评估病情严重程度并制定干预方案。这种综合推理能力恰恰是现有通用视觉-语言大模型的系统性短板。
在SpineBench的评估中,这一缺陷暴露无遗:
- **性能差距显著**:即便是参数量达到720亿的Qwen2.5-VL-72B,平均性能也仅为79.88%。领先的开源模型GLM-4.5V(83.26%)与顶尖专有模型Gemini-2.5-Pro(89.23%)之间仍存在近6个百分点的差距。在医疗报告生成任务中,差距更为明显,Qwen2.5VL-72B与Gemini-2.5-pro相差达30%。
- **跨模态对齐不足**:几乎所有模型在多模态任务上的表现都出现不同程度下滑。例如,GPT5在纯文本问答(87.41%)与图像问答(79.97%)之间的差距高达7.44个百分点。这反映出当前模型在医学图像理解和视觉-语言对齐方面存在根本性不足,限制了其在需要综合分析图像和文本的临床场景中的应用价值。
### 核心突破:构建临床级AI的基础设施
为弥合现有数据与临床需求之间的认知鸿沟,研究团队与一线脊柱外科医生共同设计并构建了SpineMed生态系统。
**1. SpineMed-450K:椎体级多模态指令数据集**
这是首个专门为椎体级推理设计的大规模数据集,具有以下特点:
- **规模与来源**:包含超过45万条指令实例,数据来源丰富多样,涵盖教科书、外科指南、专家共识、开放数据集(如Spark、VerSe 2020),以及约1000例去标识化的多模态医院真实病例。真实病例来自国内11家知名医院,确保了患者群体的多样性。
- **生成流程**:采用严谨的"临床医生介入"流程,包括使用PaddleOCR提取图文信息;通过创新的图像-上下文匹配算法精确绑定图像与文本上下文,确保可追溯性;采用大语言模型两阶段生成方法(起草和修订)产生高质量指令数据,且临床医生全程参与提示词策略和修订标准的审核。
- **任务多样性**:涵盖四种类型——多项选择问答(24.9万)、开放式问答(19.7万)、多轮诊疗对话(1100轮)和临床报告生成(821例)。数据覆盖七个骨科亚专科,其中脊柱外科数据占比47%,并细分为14种脊柱亚疾病类型。
**2. SpineBench:首个临床显著性评估基准**
SpineBench是与临床深度结合的评估框架,专门用于评估AI在细粒度、解剖中心化推理中出现的、对实践至关重要的错误类型。
- **基准构成**:最终包含487道高质量多项选择题和87个报告生成提示。
- **严谨验证**:为确保评估集的完整性,由17名骨科外科医生组成的团队分成三个独立小组进行了严格验证和校正。
- **报告评估**:针对临床报告生成任务,设计了专家校准的评估框架,从五大板块、十个维度进行全面评估:
1. 结构化影像报告:评估发现的准确性、临床意义和定量描述
2. AI辅助诊断:评估主要诊断的正确性、鉴别诊断和临床推理
3. 治疗建议:分为患者指导(语言清晰度、共情、安抚)、循证计划(理由、指南一致性)和技术可行性(手术细节、并发症预防)
4. 风险与预后评估:评估围手术期管理、随访安排和潜在问题策略
5. 推理与免责声明:评估证据覆盖范围、相关性、细节粒度和逻辑连贯性
### 实验结果:SpineGPT的突破性表现
SpineGPT基于Qwen2.5-VL-7B-Instruct模型,通过课程学习框架,分三个阶段在SpineMed-450K上进行微调,逐步提升其在脊柱健康领域的专业适用性。
**1. 超越开源模型,逼近顶尖专有模型**
SpineGPT达到了87.44%的平均分,大幅领先所有开源大模型4.18个百分点以上。在纯文本问答任务上(89.46%),SpineGPT甚至超越了所有参评模型,包括GPT5(87.41%)。
**2. 专科数据的关键作用**
消融实验显示:
- 模型仅在通用医疗数据上训练时,性能显著下降(74.95%对比65.31%)
- 纳入精心策划的非脊柱通用骨科数据后,性能大幅提升(82.14%对比74.95%),验证了领域对齐训练数据的重要性
- 最终纳入脊柱特异性训练数据(包括对话、报告生成和长链推理指令)后,模型性能进一步增强至87.89%
**3. 临床报告能力显著提升**
SpineGPT在医疗报告生成任务上的总分为87.24分,而Qwen2.5-VL-72B仅为63.80分,ChatGPT-4o为64.04分。
在"青少年特发性脊柱侧凸"病例分析中,SpineGPT提供了包含72个详细临床处理流程的全面报告,涵盖完整的影像发现、AI诊断、患者和医生导向的治疗建议、风险管理和术后问题管理。相比之下,ChatGPT-4o的报告更偏向于适合一般医疗文档的基础诊断和治疗建议。
**4. 获得人类专家高度认可**
人类专家对报告评分与大语言模型自动评分之间的Pearson相关系数达到0.382至0.949,大多数维度相关性在0.7以上。这有力验证了大语言模型自动评分作为专家判断代理的可靠性。
### 研究结论与未来展望
这项研究证实:对于脊柱诊断这类需要复杂解剖推理的专业领域,专科指令数据和"临床医生介入"的开发流程是实现临床级AI能力的关键。
SpineMed-450K和SpineBench的发布为未来AI研究提供了高实用性的基线。研究团队计划进一步拓展数据集、训练更大参数的模型,并结合强化学习技术,继续深化与领先专有模型的直接比较,确立更清晰的性能基准。
### Pi3Lab简介
Pi3Lab专注于AI Agent的行业落地,致力于通过RLaaS平台让通用模型在实际业务中实现低成本、高效率的应用。目前正在招聘强化学习研究助理,欢迎投递简历至:wenhui.dong@pi3lab.com
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/df1668eb-e261-4b04-9827-3eb5d1750aba
本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。