2024年支付宝五福节活动收官,支付宝数据显示,今年春节期间,近6亿人次通过AI科技体验新年味,“大家来找福”成为最受欢迎的集福卡方式,共有近30亿个AI生成的福字被用户找到。在支付宝上用AI飙戏和拍照的人群中,“90后”和“00后”占了七成。
支付宝从2016年开始集五福,到2019年瓜分五福奖金的人数达到了3.27亿。从2020年开始,集五福活动人气趋于平稳。相对于互联网金融、移动支付的起步初期,今天的“五福”对于支付宝早已不只是造势、拉新的营销活动。
对于支付宝,以及整个蚂蚁集团来说,“五福节”和“双十一”一样,都是国民级项目,正在被赋予蚂蚁技术迭代的基因,通过在特别时点的大规模、爆发式人流,助推支付宝拉练技术”。
对于支付宝,以及整个蚂蚁集团来说,五福节、双十一这样的国民级项目,已经被赋予了蚂蚁技术迭代的基因,这样一次次的特殊时点、大规模、爆发式线上狂欢,成为了支付宝拉练技术的新赛场。
今天的支付宝,正在思考如何让“五福”红包里的钱,花的更值。
五福节背后的AI infra大练兵
1月28日晚上8点,蚂蚁A空间8号楼,支付宝那一层仍坐满了人。支付宝的全体员工在这里待命,准备迎接2024年的“五福节”上线。
在“五福节”上线前,支付宝内部做了几轮真实模拟“五福节”情境的压力测试。AI技术的加入确实增加了集五福的测试难度,在前期压测中发现并修复了数以千计的技术漏洞,AI游戏中的小Bug更是数不胜数。
“上线前夜,我们团队几百个人几乎盯了通宵。”陈亮,花名俊义,现任支付宝CTO,蚂蚁集团的17年技术老兵。历经数次集五福活动的陈亮认为,支付宝在这次五福节中,投入的资源和精力是历年最多的。
虽然前期准备充分,但这次上线的四款AI新玩法,仍给整个“找福周期”带来了前所未有的压力。
据本文作者测试,五福节上线第一天,在支付宝实测的“飙戏小剧场”,生成一支视频显示的等待时间为57秒,实际出视频的时间大约是三十几秒。
到了2月4日,再次测试时,生成时间只用了15秒。“时空照相馆”功能生成一张6人合照用时也只有几秒。
一直以来,集五福活动的技术需求主要集中在分布式技术上,如OceanBase。到现在支付宝在基础算力、异构计算、安全风控等方面都已有了深厚的技术积累。如今,加入了AI功能的五福节,对支付宝的AI Infra(AI基础设施)也提出了考验。
2022-2023年,支付宝建立了万卡规模的计算集群,不仅包括了传统的CPU资源,还大规模引入了GPU、FPGA等异构计算资源。这种资源的组合使用,使得支付宝能够针对不同的计算任务,选择最合适的计算资源,从而在保证高效计算的同时,也降低了计算成本。
在集五福活动中,支付宝利用其在异构计算方面的技术积累,成功地应对了海量用户参与带来的极端计算压力。从AI游戏的实时渲染,到用户交互数据的即时处理,支付宝都保证了五福节期间的平稳运行和快速响应。
通过对异构资源的高效管理和调度,支付宝能够更快地完成AI模型的训练过程,使得AI模型能够更快地迭代更新,从而更好地支持AI在支付宝各业务线的应用。同时,在处理大规模数据时,异构计算技术的应用也显著提高了数据处理的速度和效率,为支付宝提供了更加强大的数据分析能力。
算力的问题可以利用异构计算技术和万卡集群解决,但陈亮更想解决的是软件问题。“AI落地不能一直靠堆卡,要在软件、算法层面找到提效的突破口。”在五福节的AI游戏开发过程中,支付宝使用了蚂蚁集团的大模型开源分布式训练加速扩展库ATorch,针对不同模型和硬件资源,将深度学习自动资源动态优化和分布式训练稳定性提升了2.3倍。
“集五福历年的经验,都会有几亿人参与。如果蚂蚁的AI Infra能在可控的成本范围内支持五福节,那未来也一定能支撑AI在支付宝的大规模落地。”陈亮坦言,双十一和五福节这样的活动,为支付宝提供了一些极端场景的测试机会,这样的机会对于一款国民级应用来说,每一次都很珍贵。在这些特殊时点,会遇到很多传统技术难以解决的问题。这些极端场景不仅暴露了现有技术的不足,也促使支付宝乃至整个蚂蚁集团的技术不断进行迭代升级。
储备AI开发能力
“教AI写福字并不难,几个人做十几天就能完成。”陈亮介绍说,本次五福节中,集福字的主力:AI版“大家来找福”是一个Diffusion(扩散式)模型,制作流程其实非常短。
未经过特殊训练的文生图模型多数不会写字,不过如果只教AI学会写一个“福”字的话,训练过程倒也不复杂。
AI生成福字,与之前的AR扫福,有些相似之处,都需要预先收集一些“福”字。其实AI训练需要的“福”字数据量还要更小,只要几百个福字就能教会AI画一副融入福字的山水画。
不过,后续的训练和微调过程仍有一定难度。首先要利用数据增强技术(如旋转、缩放、扭曲)从有限的样本中生成更多的训练数据,提高模型的泛化能力。还要在预训练过程中,将所有样本调整到统一的大小和分辨率,并进行一些基本的图像处理,如二值化或去噪。
训练一个会写“福”字的Diffusion模型,很容易过拟合,特别是如果训练数据集不够多样化。需要通过正则化技术或数据增强来缓解这个问题。在评估模型的过程中,还要通过视觉检查或设置一些自动化的质量评估标准,避免输出过于简单。此后,则可以根据初步的输出结果对模型进行微调,以改进生成字符的准确性和风格多样性。
短时间内做出一款能稳定地为千万甚至过亿用户提供服务的产品,看似复杂,在陈亮眼里却很简单。因为在这些功能开发的背后,有蚂蚁的AI模型训练经验,自研的AI Infra,以及适合的AI开发工具。
“这次五福节与以往的差别是,既简单又困难。”陈亮认为,困难是因为这次上线的AI功能,AI是一个全新的东西,不像双十一那种它已经比较成熟了。简单则是因为这次的五福节中,蚂蚁自研代码大模型CodeFuse融入了编程工作,给代码开发提供了很多便利。
CodeFuse是蚂蚁基于自研百灵大模型开发的开源代码工具。它提供了代码补全、代码解释、代码优化以及生成单元测试等功能,目前在Github已经获得了3400多星。
“CodeFuse可以看做是蚂蚁研发大模型的第一阶段,目标就是服务好自己。”陈亮介绍说,目前50%的蚂蚁程序员在写代码时都用上了CodeFuse全站使用CodeFuse的蚂蚁程序员写的代码中,约10%的代码是由CodeFuse生成的。
蚂蚁大模型的第二阶段任务是要服务生态,陈亮介绍说:“CodeFuse是贴着支付宝的生态做的。”
支付宝有很多小程序,有很多开发者为支付宝去开发,很多的服务商也为支付宝去开发小程序。蚂蚁的AI代码工具,在服务自身业务的同时,也可以服务生态开发者,加速B端业务落地,强化自身生态。
支付宝的AI形态
除了服务代码的CodeFuse之外,围绕蚂蚁生态,还有很多垂直模型在服务不同的行业,比如租房有房产的大模型,挂号有医疗的大模型,出行、法律、民生等领域都有各自的大模型。
如果说落地垂类模型,是蚂蚁AI的第二阶段,那么再下一个阶段,或许将是对新一代交互界面的探索,尝试从GUI(Graphical User Interface,图形用户界面)转向LUI(Language UI)。
事实上,本次五福节中的AI,不只有“飙戏小剧场”“会说话红包”“时空照相馆”“大家来找福”,这几个AI小游戏。五福节的“智能助理”,其实是基于百灵大模型的功能比较完整的AI对话产品。
虽然“智能助理”这样的功能离LUI还有很远的距离,但是也让陈亮看到了希望。”以前基于对话去调用功能,我们想都不敢想。现在有了大模型,大家觉得还是能做的。”陈亮认为,当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能,不仅难以保持高准确率,而且维护困难,导致项目难以持续,大模型技术的引入给LUI提供了更多的可能。
基于大模型的AI开发能力、AI Infra,将是蚂蚁在AI时代的技术核心竞争力。而技术需要尽可能多地收集数据,了解用户需求,培养用户心智,并给技术迭代提供场景。
平稳支撑了五福节的蚂蚁AI,或许很快就会在支付宝中,迎来更多C端场景的AI产品。