AI询问比较全面,检查也做得比较全面,不太容易漏诊,但存在概念错误,比如AI医生在其中一个病例的问诊中说,“尿微量白蛋白在正常范围内,肾脏的过滤功能是正常的”,这句话就不准确。本文来自微信公众号:经济观察网 (ID:eeojjgcw),作者:瞿依贤,头图来自:视觉中国


“您好,麻烦您告诉我您的年龄及性别,以及哪里不舒服?”当真人医生和AI医生以同样的问题开始问诊,最后的诊疗结果、治疗方案会一致吗?


6月30日,国内首次AI医生与真人医生一致性评测完成。这场PK发生在成都高新海尔森医院,AI医生为互联网医疗公司医联推出的MedGPT,真人医生是四川大学华西医院的10位医生,包括副主任医师和主治医师,涉及科室包括骨科、内分泌代谢科、心内科、肾内科、老年呼吸科、消化科和泌尿外科。参与这场义诊评测的患者共120多位。


问诊过程中,真人医生和AI医生都没有与患者直接接触,患者与医生助理接触,医生助理通过电脑输入文字分别与真人医生和AI医生联系,真人医生和AI医生的问题也经由医生助理传递给患者。


引导患者说出完整病情、收集足够多决策因子后,真人医生与AI医生为患者开具检查单或诊断,患者直接在成都高新海尔森医院完成检查;获得检查结果后,患者再复诊,并由AI医生及真人医生提供临床诊断及治疗方案。


从开始问诊到评审结果,整个过程在网上直播。


8个小时的问诊结束后,形成有效病例91份,由北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授进行审核。7位专家教授的专业与前述科室对应,评价维度包括7个——问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互。


最终,真人医生综合得分为7.5分,AI 医生综合得分为7.2分。AI医生与真人医生在比分结果上的一致性为96%。5位专家给真人医生的打分都高于AI医生,只有2位专家给AI医生的打分高于真人医生,一位差1.6,一位差0.1。


在专家评审环节,北大人民医院肾内科主任医师蔡美顺表示,AI询问比较全面,检查也做得比较全面,不太容易漏诊,但存在概念错误,比如AI医生在其中一个病例的问诊中说,“尿微量白蛋白在正常范围内,肾脏的过滤功能是正常的”,这句话就不准确。


蔡美顺表示,这次一致性测评的样本量还不够丰富,总体来说,“人工智能对我们的工作有一些帮助”。


北大人民医院骨科主任医师薛峰对AI医生的评价是:总体不错,稍稍有些超出预期。MedGPT是一项非常有发展前景的技术,应该定位在常见病和基础病的诊断上。


薛峰以147号病例举例,这个病例的症状是膝盖痛,AI医生问诊非常详细,“MedGPT不嫌累,话多,问题也很多”,会关注女性患者是否正在备孕、怀孕,而现实临床工作中,骨科医生较少会问这类问题,“有些细节问题漏掉之后很容易犯一些错误,一些症状漏掉之后也可能漏诊”。对膝盖痛这种常见疾病,很多时候医生需要做一些科普,告知患者生活中需要注意的事项,AI医生的详细表达也会给患者更多信息。


薛峰还发现了一个“惊喜”:MedGPT根据患者脚底板疼痛判断患者有可能出现神经压迫,真人医生却没有想到这一点。


对于AI医生的不足,薛峰认为,AI医生无法查体,但AI医生也没有关注查体结果,比如关节的活动度、有无压痛点等等。此外,对检查结果,AI医生只会读报告,报告怎么写的就会认为是什么样的,但专科医生要自己会看片子,“片子上的细微改变,报告有时候是体现不出来的”。


中日友好医院心内科主任医师任景怡举例,对早搏问题,AI医生还关注了中度贫血,这在临床上可能跟早搏密切相关,但在实际工作中,专科医生比较聚焦自己的专业,可能会忽略相关症状。AI医生的知识储备比较全面。


多位专家认为,AI医生虽然问诊详细,但是针对性不够强,系统性和逻辑性也不够强,还有待训练。


本文来自微信公众号:经济观察网 (ID:eeojjgcw),作者:瞿依贤