那些声称通用人工智能很快实现的人,在医学面前应该严谨谦卑一些。
多年来,几乎所有人工智能大咖,都会说最希望把AI首先用于医疗健康,但以往这一直是进展最慢的领域之一。
医院永远人满为患。“鲍莫尔病”是医疗健康行业的顽疾。多年来,科技巨头数度高调进入这个行业,希望让服务变得像药品那样,可以规模化复制,提升可及性,降低成本。大模型、生成式人工智能以及智能体,是最近也是最有希望的一次。
训练有素的医生,培养耗时耗力,他们最终又向大城市集中。目前,中国每万人口全科医生数为3.28人,离2030年每万人口5人的目标缺口甚大。近两年,很多从业者感到疲惫,萌生去意。在美国,新冠大流行后只有57%的医生愿意再次选择医学领域。在中国,临床专业毕业生期望成为医生的比例,从2019年的91%降至如今的86%。
科技巨头给出了两条路线:“每个降临世间的人都拥有双重公民身份,其一属于健康王国,另一则属于疾病王国。”苹果这样的消费电子巨头,乐于让大家留在健康王国里,直接向个人销售商品;微软这样的科技巨头,则服务于那些被迫承认自己也是另一王国的公民,通过医生向个人提供服务。
苹果将服务打包在商品里,渐进式地迭代传感器与算法。近十年来,苹果已经成功将Apple Watch卖给了近3亿人,它的2024年路线图还包括高血压与睡眠呼吸暂停监测,以及有望成为新的健康健身设备的Vision Pro。
在苹果看来,人们需要更少的单一功能的医疗设备,更少抽血,更少看医生。十年内,这将是一个2000亿美元的市场。其他消费电子厂商也在跟进。今年,在华为创下有史以来最高的季度业绩的推动下,全球智能手表连续两个季度复苏,三季度全球同比增长9%。
但尝试并不总是成功。苹果对健康的热衷,始于传奇创始人乔布斯。彭博社透露,在他胰腺患癌的那一年,他让高管们研发无创血糖监测。但这一技术至今停留在苹果的实验室里。谷歌已经放弃制造用泪滴测量血糖的智能隐形眼镜。华为取得了算法上的小小突破,可以给出模糊的风险提示。
面向医生的路线,门槛要高得多。IBM去年打折出售了运营了数十年的沃森健康(Watson Health),因为太多瑕疵暴露在专业的医生和研究者面前。亚马逊也放弃了它与摩根大通以及伯克希尔·哈撒韦联合成立的员工健康服务公司Haven。
上一轮人工智能热潮仍在努力改变这一切。近十年来,美国FDA批准了500多款支持人工智能或机器学习的医疗设备,截至今年7月,已经接近去年全年水平。其中,放射学诊断占了75%。在今年的北美放射学会(RSNA)会议上,一半的讨论话题涉及人工智能。
这是人工智能辅助诊断相对成熟的领域,仍在不断进步。上月,阿里巴巴联合多家医院通过“平扫CT+AI”, 在2万多真实病例的回顾性试验中,发现了31例临床漏诊的早期胰腺癌病例。Nature称基于医疗影像AI的癌症筛查,即将进入黄金时代。
如今的问题之一是不够泛化。已经获批的人工智能算法,往往倾向于专注于特定任务,而不是全面分析图像各种可能,或考虑到患者病史。有经验的放射科医生,经常会在阅片时,偶然发现求诊者患有另一种疾病。
人工智能推动者的解决方案是添加更多的人工智能工具,但这意味着算法过载。埃默里大学的放射科已经安装了140种不同的软件,医生不愿意浪费自己的时间一一调用,呼吁统一的平台。
医疗大模型的涌现,提供了新的解决方案。医疗保健数据,本质上由文本、图像和时间序列数据组成的,甚至可以把专业医生视为这些数据的“标注员”。2018年,谷歌提出了基于Transformer的BERT模型,它是多数早期的医疗大模型的基座。两年后,谷歌提出了ViT架构,打通了自然语言处理与计算机视觉之间的壁垒,不断推动大模型在医疗领域向多模态的范式转移。
今年以来,随着强大的预训练大模型尤其是开源模型相继问世,指令微调与垂直改进,成为应用落地的重要方式。这也导致了医疗大模型家族化的演进,迭代升级加速。中国也是重要的参与者,扁鹊、孙思邈、华佗GPT、本草、神农中医药大模型等相继问世。
科技巨头已经构造了可以理解多种数据模态的全科医疗人工智能(GMAI),包括皮肤照片、视网膜扫描、放射学和病理切片,还可以结合电子健康记录和基因组学数据等,并根据交互对象的不同,输出或专业或通俗的解释。谷歌的Med-PaLM 2是其典型,在医学考试中,它的表现已经基本接近“专家”水平,准确率达到了85%。
关键不在于它能在何时取代多少专家医生,而在于它能惠及多少缺少顶级医疗资源的患者。谷歌搜索每天都会有10亿个健康相关的搜索,医疗广告收入也是国内搜索引擎的重要收入来源。听得懂人话,又更懂医学知识的大模型医生,比以前更靠谱。它还可以是导诊台,帮助病人进行初步的分诊,将只需简单处理就可以解决问题的患者,分流至社区医院,减轻上级医院的压力。
特定任务的专家模型,在大型医院里也仍有其用武之地。分诊导航、辅助诊断、临床文档、预后追踪等这些相对较小的模型,甚至各类人工智能支持的细分科室的诊断工具,都可以集成到一个全面的人工智能平台中,智能体(Agent)就是它的中央调度中心,理解意图,分拆任务,调用模型,输出结果。最终,医生负责审核并给出最终方案。
比尔·盖茨相信智能体将通过跨模型、跨应用的联动来完成任务,而且,会随着时间的推移变得更加好用。
与自动驾驶一样,医疗服务涉及生命,安全至关重要,也是监管重点盯防的领域。短期内,生成式人工智能用于医疗服务,阻力最小,确定性最高的应用场景,是扮演医生的“文书助理”。医生希望人工智能带走他们工作中最无聊和最乏味的部分。
今年以来,美国至少有20家综合医疗系统,公开披露过正在试点生成式人工智能。这些应用几乎主要面向临床医生提供服务,作为他们的助手,在接诊过程中,捕获与患者的对话,自动记录符合规范的电子病历,供医生审阅;搜索病人的既往病史与检查结果、最新的临床指南手册、符合条件的临床试验机会等;对即将接手的护士,给出注意事项摘要;向患者解释报告上的术语,叮嘱按时按量服药;还可以生成转诊、出院文件,或者报销相关的文件。
它们的顶级开发者包括微软与谷歌等科技巨头,以及Epic这样的医疗软件巨头。今年,微软宣布将GPT-4集成到Nuance全新的DAX平台,减少了50%的临床文档记录时间,并与Epic合作,将生成式AI工具集成到后者的电子健康记录系统中。Nuance是微软于2021年花了197亿美元收购的语音技术公司,拥有55万名医生用户;Epic则是美国最大的医疗保健软件公司之一,超过35%的医院使用它的服务。
科技巨头已经展开全面竞争。亚马逊推出了自动生成病历的HealthScribe,谷歌则与梅奥诊所等测试类似的生成式人工智能工具。百度的灵医大模型,以及腾讯医疗大模型也围绕病历等场景展开。
远程医疗已经进入新常态,这是大流行时代的技术遗产;愿意尝试远程医疗的用户,将成为“医生助理”智能体的基本盘。Epic公司分析了近18个季度的4.75亿次就诊记录,发现虽然热度远不及大流行初期,但整体仍有6%的问诊需求留在网上,远超大流行前的0.2%。尤其是心理健康护理,以及一些小病、慢性病与常规处方的补充等。
监管途径也在逐步明确。美国、加拿大与英国的药监机构,联合发布指南文件,计划有条件地放宽对人工智能的全生命周期审核。以往,人工智能支持的医疗设备,每次软件层面的更新迭代,都要重新评估。在中国,卫健委召开了生成式医学人工智能应用发展研讨会,并明确规定严禁由AI生成处方。
还有很多技术需要突破。大模型在医疗场景落地,部分技术创新需要“反大模型”。谁掌握了提示技术,谁获得更好的答案,这种提示的“脆性”在医疗服务领域不可接受;要更好地辅助诊断,大模型要更多地输出针对性的“追问”,而不是一味扮演“回答”者的角色;要警惕业务数据飞轮导致的“数据漂移”,不加调整地将经治疗后的患者数据注入大模型,将逐步脱离对现实疾病世界的映射。
风投机构a16z合伙人,将人工智能在医疗保健领域的现状比作2000年代初期的互联网,经历过泡沫,已经开始渗透到日常生活中,但还没有像今天这样无所不在。
2024年,生成式人工智能扮演的“医生助理”,会先从文书工作与调度工作做起,逐步积累数据与经验,赢得医生与患者的信任;同时,继续与人类专家合作,探索更前沿的诊断与治疗技术。
参考文献:
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics
Towards Generalist Biomedical AI
人工智能大模型赋能医疗健康产业白皮书
中国医学生培养与学生发展调查报告
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究