病例历史,病例未来

  • 儿科医生王志新
  • 2024-11-21 02:56:21
在医学临床诊断测试中,人工智能战胜了临床医生,这是为什么?

一项小型研究发现,在分析病历时,做出诊断时,即使医生借助ChatGPT,还是输给了人工智能单独做出的诊断

波士顿的内科专家亚当·罗德曼(Adam RodmanI)满怀信心地预计,使用人工智能打造的聊天机器人将能更好地帮助医生诊断疾病。

试验发现,他错了。

相反,在他参与设计的一项研究中,传统资源的医生再辅助ChatGPT-4一起做出诊断,仅比没有使用AI的医生好一点点。但是,令研究人员惊讶的是,ChatGPT本身的表现就超过了医生。

“我很震惊,”罗德曼博士说。

来自OpenAI公司的ChatGPT-4,在根据病例报告诊断疾病并解释其推理时平均得分为90%。随机分配使用聊天机器人的医生平均得分为76%。那些被随机分配不使用它的人平均得分为74%。

这项研究显示的不仅仅是聊天机器人的卓越表现。

它揭示了医生有时对自己做出的诊断毫不让步的信念,即使聊天机器人可能会建议一个更好的诊断。

这项研究还表明,虽然医生在工作中使用人工智能工具,但很少有人知道如何利用聊天机器人的能力。因此,他们未能利用人工智能系统解决复杂诊断问题,并为其诊断提供解释的能力。

罗德曼博士说,人工智能系统应该是“医生的延伸者”,为诊断提供有价值的第二意见。

但在实现这一潜力之前,似乎还有很长的路要走。

【病例历史,病例未来】

这项实验涉及50名医生,其中既有住院医生,也有从美国几家大型医院系统招募的主治医生。实验结果上个月发表在《美国医学会杂志网络公开版》(JAMA Network Open)上。

测试对象被告知六个病史,根据他们提出诊断,和解释他们赞成或排除这些诊断的能力进行评分。他们的成绩还包括最终诊断的正确性。

评分员是医学专家,他们只看到参与者的答案,而不知道他们是来自有ChatGPT的医生,没有ChatGPT的医生还是ChatGPT本身。

研究中使用的病例和病史都是来自真实患者的,是自20世纪90年代以来研究人员使用的105个病例的一部分。所选的这些病例都是未曾发表,以便医科学生和其他人可以在没有任何预知的情况下进行测试。这也意味着ChatGPT不可能被这些病例训练过。

为了说明这项研究涉及的内容,研究人员还是公布了医生接受测试的六个病例中的一个,以及得分高的医生和得分低的医生对该病例的测试问题的回答。

该试验案例涉及一名76岁的患者,他走路时腰背、臀部和小腿剧烈疼痛。疼痛是在他接受球囊血管成形术扩大冠状动脉治疗几天后开始的。手术后,他接受了血液稀释剂肝素治疗48小时。

病人抱怨说他感到发烧和疲倦。他的心脏病专家做的实验室研究表明,他的血液检查中新出现了贫血,氮和其他肾废物堆积。这名男子十年前曾因心脏病做过搭桥手术。

病例小插图继续包括该男子的身体检查的细节,然后提供了他的实验室测试结果。
正确的诊断是:“胆固醇栓塞”——一种胆固醇碎片从动脉斑块脱落并阻塞血管的情况。

参与者被要求给出三种可能的诊断,每种诊断都要有支持证据。他们还被要求为每一种可能的诊断提供不支持它或预期但不存在的发现。

参与者还被要求提供最终诊断。然后,他们要说出在诊断过程中最多要采取的三个额外步骤。

与发表病例的诊断一样,研究中其他五个病例的诊断也不是很容易诊断出来的。但它们也不是罕见到几乎闻所未闻的地步。结果是:医生的平均表现比聊天机器人差。

研究人员问道,到底发生了什么?

答案似乎取决于医生如何确定诊断,以及他们如何使用人工智能等工具。

【机器里的医生】

医生如何诊断病人呢?

布莱根妇女医院(Brigham and Women 's Hospital)的医学历史学家安德鲁·利亚(Andrew Lea)博士没有参与这项研究,他说,问题在于“我们真的不知道医生是怎么想的”。

在描述他们如何做出诊断时,医生们会说,“直觉”,或者“根据我的经验”,利亚医生说。

几十年来,当研究人员研究如何让计算机程序来模仿医生思考时,这种模糊性一直困扰着他们。

这项探索始于近70年前。

“自从有了电脑,就有人试图用它来代替医生做出诊断,”利亚博士说。

最雄心勃勃的尝试之一始于20世纪70年代的匹兹堡大学。那里的计算机科学家聘请了杰克·迈尔斯博士(Jack Myers),他是医学院内科系主任,被称为诊断大师。他有着过目不忘的记忆力,他每周花20个小时在医学图书馆里,学习医学上已知的一切。

计算机专家给迈尔斯医生提供病例和医疗细节,迈尔斯医生考提供诊断时的推理。计算机科学家将他的逻辑链转换成代码。由此产生的程序被称为内科医生-1,包括500多种疾病和大约3500种疾病症状。

为了测试它,研究人员给出了《新英格兰医学杂志》上的病例。“电脑表现得非常好,”罗德曼博士说。他补充说,它的表现“可能比人类做得更好”。

但是“内科医生一号”从来没有真正获得成功过。它很难使用,需要一个多小时才能提供诊断所需的信息。而且,它的创造者指出,“目前的程序形式对于临床应用来说还不够可靠。”

研究仍在继续。到20世纪90年代中期,大约有六个计算机程序试图进行医学诊断。没有一个得到广泛使用。

罗德曼博士说:“它不仅要便于使用,而且医生必须信任它。”

由于医生的想法不确定,专家们开始问他们是否应该关心医生是如何想的。尝试设计计算机程序来像人类一样进行诊断,就可以了?

“关于计算机程序应该在多大程度上模仿人类推理,存在争论,”李博士说。“我们为什么不利用电脑的优势呢?”

计算机可能无法对其决策路径给出清晰的解释,但如果它做出了正确的诊断,️何必纠结他们的决策路径呢?

随着像ChatGPT这样的大型语言模型的出现,对话就发生了变化。ChatGPT没有明确地试图复制医生的思维;他们的诊断能力来自于他们预测语言的能力。

“聊天机器人是一个“杀手”,

斯坦福大学的医生和计算机科学家、这项新研究的作者之一乔纳森·h·陈(Jonathan H. Chen)博士说。

他说:“我们可以把整个问题放进电脑里。”“几年前,电脑还不懂语言。”
但许多医生没能利用它的潜在优势。

【操作员错误】

在最初对这项新研究的结果感到震惊之后,罗德曼博士决定对这些数据进行更深入的研究,看看医生和ChatGPT之间的实际信息记录。医生肯定看到了聊天机器人的诊断和推理,那么为什么那些使用聊天机器人的人没有做得更好呢?

事实证明,当聊天机器人指出一些与他们的诊断不一致的东西时,医生往往不会被它说服。相反,他们倾向于坚持自己对正确诊断的看法。

“当人工智能告诉他们不同意的事情时,他们不听人工智能的话,”罗德曼说。

这是有道理的,在鹿特丹伊拉斯谟医学中心研究临床推理和诊断错误的劳拉·兹旺(Laura Zwaan)说,她没有参与这项研究。

“当人们认为自己是对的时候,他们通常会过于自信,”她说。

但还有另一个问题:许多医生不知道如何最大限度地使用聊天机器人。

陈医生说,他注意到,当他查看医生的谈话记录时,“他们把它当作搜索引擎,直接问问题:‘肝硬化是癌症的风险因素吗?眼睛疼痛有哪些可能的诊断方法?’”

“只有一小部分医生意识到,他们可以把整个病历复制粘贴到聊天机器人中,然后让它对整个问题给出一个全面的答案,”陈博士补充说。

“只有一小部分医生真正看到了聊天机器人能够给出的令人惊讶的聪明和全面的答案。”
病例历史,病例未来