本文来自微信公众号:出色WSJ中文版 (ID:WSJmagazinechina),作者:Laura Landro,翻译:万志文(熊猫译社),原文标题:《医院正如何利用人工智能拯救生命?》,头图来自:视觉中国


一、人工智能VS败血症


败血症是由感染引起的一种极端反应,可致命,而且往往难以诊断。目前,人工智能在帮助检测和预测住院病患是否患有败血症,以便及早发现和治疗方面好坏参半,医生和数据科学家正在对预测模型进行完善。


根据美国医疗保险和医疗补助服务中心的数据,2015 年,全美严重败血症和败血性休克患者只有不到一半获得适当的治疗。


自开始使用 Sepsis Watch(杜克大学的一款人工智能应用)以来,杜克大学医院的这些数字有所改善,获得适当治疗的患者比例从远低于全美平均水平攀升至远高于全美平均水平。


败血症发病和恶化很快,通常在病人进入急诊室的几个小时内发生。因此,杜克大学专注于为入院患者尽快检测和预测败血症发病风险,提高治疗速度。


Sepsis Watch 基于 4.2 万名住院病人的数据,其中 21.3% 曾患有败血症。这些数据包括 2500 万次生命体征测量、520 万次实验结果和 200 万次用药信息。


一名护士正在使用该应用检查病人状态<br label=图片备注 class=text-img-note>
一名护士正在使用该应用检查病人状态


Sepsis Watch 会不断监测病人的生命体征、用药信息和实验室结果,将所有这些数据用作诊断或预测败血症发病风险的基础。


第一步,Sepsis Watch 会对每一名进入急诊科的病人进行分析,应急护士负责监控 Sepsis Watch 的情况。


第二步则是病人分类。对于出现全身炎症反应综合征(SIRS)的病人——包括高体温、高心率和高呼吸频率以及内脏器官损伤,Sepsis Watch 会将其标记为符合败血症标准。对于不符合败血症标准的病人,Sepsis Watch 会用彩色标记卡片对其败血症发病风险进行标记,风险等级分为高、中和低。这些卡片每 5 分钟会根据病人的最新数据更新一次。


最后一步即为预警和治疗。应急护士与主治医生讨论被标记为患有败血症或患败血症风险高的病人情况。然后,医生独立审查医疗记录,评估病人的状况,做出败血症治疗决策。治疗方案分两个阶段进行:一套三小时的干预措施,然后是一套包括抗生素的六小时干预措施。


“掌控权还得在临床医生手里,但人工智能和预测模型让通过挖掘大量数据得出的深刻洞见变得触指可及,因而只要及时治疗,就可以改善病患疗效。”加州非营利医疗组织 Kaiser Permanente 的研究员兼重症监护专家 Vincent X. Liu 表示。


以下是正在进行的一些努力:


二、追赶关键的12小时


一旦病人的病情恶化引发紧急情况,一切往往为时已晚,病患通常需要生命维持治疗或重症监护。


Vincent Liu 说,借助数据分析,提前 12 小时预测出病人的病情恶化,就会避免这类紧急情况的出现,让病人避免进 ICU,即便需要重症监护,病况也会相对好一些


凯撒医疗(Kaiser Permanente)开发了一个名为 Advance Alert Monitor 的预测模型,它可以识别出约一半病情会恶化的病人。它会持续扫描分析病患数据,对病人转入 ICU 或死亡的风险进行评分。12 个小时的时间窗口可让医疗人员在病人状况相对稳定、可能只是需要加强筛查或监护的时候接触他们。Vincent Liu 指出,“这就像大海捞针,所以预测模型必须要仔细分析所有病患的情况,从中发现高风险病人。”


为了尽量减少“警报疲劳”,模型预测结果不会直接呈现给医院工作人员,而是由受过专门培训的护士远程监控,这样床旁护士就可以集中精力照看病人。


如果病人的评分达到特定的阈值,远程护士就会联系病房的应急护士,然后后者会启动正式评估,并联系病人的医生,医生可以启动救援计划,包括转入 ICU。


去年 11 月,《新英格兰医学杂志》发表了一项对凯撒医疗旗下 19 家医院持续将近三年的研究。凯撒医疗称,相较于没有使用该预测模型的医院,有使用的医院病患死亡率较低,ICU 进入率较低,住院时间较短。凯撒目前在 21 家医院推行该模型,护士每年处理超过 1.6 万次警报。


三、新时代的“作战室白板”


对病人来说,败血症是最危险的情况之一。败血症意味着,原有的感染在体内引发了危及生命的连锁反应,如果不及时治疗,就会导致器官衰竭和死亡。美国疾病控制与预防中心的数据显示,在医院死亡病例中,近三分之一患有败血症,87% 在住院之前就开始出现败血症


在大多数病例中,可以通过快速诊断和治疗对其加以预防,但研究表明,许多败血症病人可能没有得到相应的治疗。目前还没有诊断败血症的黄金标准,其症状也见于别的疾病,例如发烧和心率过快,所以很难确定病患是否患有败血症。


一些医院发现,外部供应商和开发者设计的算法是基于不相关的数据开发的,会引发错误警报和发生更多问题的隐忧。



据杜克大学医学院内科医生、助理教授 Cara O’Brien 说,在发现一个常用的败血症检测模型发出错误警报后,杜克大学医院决定开发自有的机器学习模型,利用自己的病人病历数据快速准确地预测败血症发病风险。


O’Brien 带领一个由医生和护士组成的团队,利用超过 3200 万个数据点对该模型进行训练,其中包括生命体征测量、实验室报告和药物管理。这些数据涵盖 14 个月内分析的 4.2 万多名住院病人的情况,其中 21.3% 曾被诊断出败血症。该模型每隔五分钟从病人的生命体征、药物和实验室测量数据中采集数据,分析 86 个不同的变量,进行多次数据采样,发现可能预示败血症发病的关联性。


Sepsis Watch 的控制面板包含按四种颜色标记划分的病人名单,其中患败血症风险高的的病人标记为红色。一名应急护士 12 小时轮班,负责在 iPad 上监控该控制面板,联系急诊医生,就任何一位败血症病人或有患败血症风险的病人的情况进行讨论。病人须经过医生同意才能接受治疗。



医院必须公开报告遵守败血症治疗指南(已被证明可以改善病情)的情况,治疗指南包括在病人到达急诊室后的特定时间内开抗生素处方、进行某些实验室测试等行动。在启动该项目后的 15 个月内,杜克大学对败血症治疗指南的遵从率提高到了 64%,而在此之前的 18 个月里,这一比例仅为 31%。共同领导该项目的杜克大学医生兼临床数据科学家 Mark Sendak 表示,对 Sepsis Watch 效果的最终分析正在进行中,但病患死亡率可见在下降,该算法现在也被用在急诊室的所有病人身上。


大型医院连锁集团 HCA Healthcare 则自主开发了名为“Spot”的预测算法,用于败血症的预测和治疗优化。在此之前,护士主要是在换班时,或病人被转到不同科室时人工查看病人数据,检查是否可能患有败血症。而该预测算法则可以持续监测生命体征、实验室结果、护理报告和其他数据,在多个预示即将出现败血症的信号同时出现时会直接向护士发出警报。


这些警报呈现给临床医生的不仅仅是预测结果,还是他们临床判断病人是否患有败血症的触发因素。


该连锁医院发现,Spot 检测出败血症的时间比临床医生早 6 个小时,检测准确率也更高;早期识别和治疗使得 160 家医院的败血症死亡率降低了近 30%。


HCA 首席数据科学家 Edmund Jackson 及其团队利用 Spot 平台开发了应用更广泛的程序 Nate。借助机器学习技术,Nate 可更快地发现其他危急或危及生命的病况,如创伤病人的休克、术后并发症、各类疾病的早期恶化迹象等等。


在设计新的算法时,数据科学家与临床工作人员进行合作,以确定哪些预测模型对后者最有用,以及如何将模型融入病人护理流程。其中一项努力专注于研究如何让妇产科部更好地引入预测模型,利用胎儿心脏监测器数据,助力主动管理胎儿宫内窘迫的风险。


HCA 神经外科医生兼护理转型与创新高级副总裁 Michael Schlosser 表示,“我们有一个专门的创新团队,他们会在医院与床旁护理人员密切合作。我们不会独自开发完,然后跟医疗人员说,‘这是一个专为你打造的、经过训练的人工智能。’”


新冠疫情期间,团队能够使用 Nate 平台开发针对感染者问题的算法,例如提醒重症监护医生、护士和呼吸治疗师留意使用机械呼吸机的病人,告知他们可能需要根据病情调整治疗方案。


Schlosser 称,算法也有望用于应对自然灾害,比如在飓风来临前迅速评估哪些病人可以安全撤离,以往工作人员则必须依靠“便利贴在作战室的白板上进行这种安排”。


四、再入院风险评估


医院也在利用机器学习解决一大棘手问题:如何判断哪些病人在出院 30 天内重新入院的风险最高。


医院通常使用标准的再入院风险评分系统,该系统所基于的数据点比较有限,包括病人住院时长、入院时的病情、他们身上的其他疾病和症状以及入院前六个月内是否看过急诊。但这些标准评分并没有考虑到医院各自的病人病历数据情况。


例如,在 2019 年发表的一项针对三家医院的研究中,马里兰大学的研究人员发现,与常用的再入院风险评分系统相比,基于各医院再入院数据的机器学习评分能够更好地判定哪些病人需要更多干预措施,以避免再次入院。


但根据这项研究,再入院预测只是预防再入院的第一步。防止病人再入院的干预措施往往费用高昂,需要大量人力,其中包括将他们转到出院诊所、过渡性护理和远程监护。他们也并不总能认识到健康的各种社会决定因素。


David Vawdrey 是宾夕法尼亚州拥有 10 家医院的 Geisinger Health System 的首席数据信息学官,在他看来,缺乏资源帮助再入院风险最高的病人是一个主要问题,不过预测算法有望帮助采取措施让病人一开始就不必住院,确保他们对严重疾病进行预防性筛查。


例如,Geisinger 与 Medial EarlySign 公司合作发现逾期未做结直肠癌筛查的病人,使用机器学习算法标记那些高风险病人。然后,由照护经理打电话给病人,告知他们所面临的风险,并提出安排进行结肠镜检查。根据 NEJM Catalyst 最近的一份报告,这两家公司能够为 68.1% 被标记的高风险病人安排进行结肠镜检查,其中约 70% 的检查有重大发现。


Vawdrey 指出,“人工智能的优先排序能力让我们能够更深入地接触病患,为那些风险最高的人采取额外步骤,告诉他们,‘你真的该来接受检查了。’”


五、发现模型缺陷


随着人工智能系统在医院中发挥越来越大的作用,研究人员也在设法更好地判断它们何时不起作用以及为什么不起作用。


算法使用统计方法从临床数据中学习重要模式,并预测未来的结果,但有许多因素可能会导致用于构建算法的数据不适合用于算法的现实用途。如果没有被发现,这样的缺陷可能会致使算法无法诊断重症病人,或者提供有害的治疗建议。


Karandeep Singh 是密歇根大学健康科学和内科医学助理教授,以及密歇根医学临床智能委员会主席。他说,开发者可能会采用在一个卫生系统中受过训练的模型,然后开始将其应用于其他有着不同病患群体的卫生系统,或者在一个医院中长期运行一个模型,但不使用新数据对其进行更新升级。


例如,当新冠病例开始在全美各地的医院激增时,常用的人工智能败血症算法无法区分细菌性败血症和新冠病毒;二者症状相似,但治疗方法完全不同。在护士报告了过多的败血症警报后,密歇根大学在 2020 年 4 月至 7 月暂时禁用了该算法。该大学目前正在研发替代模型。


研究人员正在探究算法模型可能失效的其他常见原因,设法减轻它们带来的影响。例如,Singh 说,主要针对白人群体训练的预测模型在其他种族或族裔群体的病人身上往往表现不佳,但改用涵盖更多群体的数据集重新训练或重新设计那些模型,使用专门的算法,或许是可行的。


“目前,医院可接触到的人工智能模型多得用不过来。”他说,为了在未来安全地使用这些工具,它们必须“了解人工智能何时产生不了预期作用,并根据问题是否可解决来确定问题的优先级,而不是仅仅根据有哪些人工智能工具可用。”


本文来自微信公众号:出色WSJ中文版 (ID:WSJmagazinechina),作者:Laura Landro,翻译:万志文(熊猫译社)