【AI资讯】AI医疗进入”深水区”:21款大模型临床评测出炉,鉴别诊断能力整体不足

AI新闻资讯2个月前发布 Aizns
27 0

科技圈传来消息:

由美国麻省总医院MESH孵化器团队开展的最新研究,对包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21款主流大语言模型进行了系统性临床推理评测。研究结果发表于权威期刊《JAMA Network Open》,揭示了一个对AI医疗产业颇具警示意义的结论:当前主流模型在独立承担临床诊疗任务方面仍存在结构性短板。

研究团队通过29个已知临床病例进行多轮测试,逐步释放患者症状、实验室数据与影像结果,高度模拟了真实诊疗的动态过程。数据显示,在获得完整信息后,所有模型给出正确最终诊断的准确率均超过90%——这一数字看似亮眼。然而,在临床推理的核心环节”鉴别诊断”中,超过80%的模型表现欠佳,无法对多种潜在疾病进行系统性分析与优先级排序,这一缺陷直接关乎临床决策的安全性。

研究引入的PrIME-LLM综合评价指标覆盖从初期诊断、检查决策到治疗方案制定的全流程,评测结果显示各模型综合得分在64%至78%之间。研究团队据此判断,当前AI更擅长在信息完备时”揭晓答案”,而非在信息不充分条件下进行开放性逻辑推演。尽管新一代模型较旧版本有明显进步,但AI在医疗领域的定位目前仍应停留于辅助工具层面。从“结果拟合”向“逻辑推理”的跨越,将是医疗大模型迈向专业化临床应用必须跨越的核心门槛。

以上内容仅供参考。

© 版权声明

相关文章

暂无评论

暂无评论...