由美国麻省总医院MESH孵化器团队开展的最新研究,对包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21款主流大语言模型进行了系统性临床推理评测。研究结果发表于权威期刊《JAMA Network Open》,揭示了一个对AI医疗产业颇具警示意义的结论:当前主流模型在独立承担临床诊疗任务方面仍存在结构性短板。
研究团队通过29个已知临床病例进行多轮测试,逐步释放患者症状、实验室数据与影像结果,高度模拟了真实诊疗的动态过程。数据显示,在获得完整信息后,所有模型给出正确最终诊断的准确率均超过90%——这一数字看似亮眼。然而,在临床推理的核心环节”鉴别诊断”中,超过80%的模型表现欠佳,无法对多种潜在疾病进行系统性分析与优先级排序,这一缺陷直接关乎临床决策的安全性。
研究引入的PrIME-LLM综合评价指标覆盖从初期诊断、检查决策到治疗方案制定的全流程,评测结果显示各模型综合得分在64%至78%之间。研究团队据此判断,当前AI更擅长在信息完备时”揭晓答案”,而非在信息不充分条件下进行开放性逻辑推演。尽管新一代模型较旧版本有明显进步,但AI在医疗领域的定位目前仍应停留于辅助工具层面。从“结果拟合”向“逻辑推理”的跨越,将是医疗大模型迈向专业化临床应用必须跨越的核心门槛。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...