AI医疗进入”深水区”：21款大模型临床评测出炉，鉴别诊断能力整体不足

15 0 0

由美国麻省总医院MESH孵化器团队开展的最新研究，对包括ChatGPT、DeepSeek、Claude、Gemini、Grok在内的21款主流大语言模型进行了系统性临床推理评测。研究结果发表于权威期刊《JAMA Network Open》，揭示了一个对AI医疗产业颇具警示意义的结论：当前主流模型在独立承担临床诊疗任务方面仍存在结构性短板。

研究团队通过29个已知临床病例进行多轮测试，逐步释放患者症状、实验室数据与影像结果，高度模拟了真实诊疗的动态过程。数据显示，在获得完整信息后，所有模型给出正确最终诊断的准确率均超过90%——这一数字看似亮眼。然而，在临床推理的核心环节”鉴别诊断”中，超过80%的模型表现欠佳，无法对多种潜在疾病进行系统性分析与优先级排序，这一缺陷直接关乎临床决策的安全性。

研究引入的PrIME-LLM综合评价指标覆盖从初期诊断、检查决策到治疗方案制定的全流程，评测结果显示各模型综合得分在64%至78%之间。研究团队据此判断，当前AI更擅长在信息完备时”揭晓答案”，而非在信息不充分条件下进行开放性逻辑推演。尽管新一代模型较旧版本有明显进步，但AI在医疗领域的定位目前仍应停留于辅助工具层面。从“结果拟合”向“逻辑推理”的跨越，将是医疗大模型迈向专业化临床应用必须跨越的核心门槛。

# AI新闻资讯