8月30日下午,网上传出一则消息称:百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等8家企业/机构的大模型位列首批通过《生成式人工智能服务管理暂行办法》(以下简称“生成式AI管理办法”)备案的名单。
博主“李飞”的爆料微博
经过一晚发酵,8月31日,这则消息中的多家厂商对外官宣了全面开放服务的消息。
对于算法备案流程,2022年2月28日中央网络安全和信息化委员会办公室(以下简称“中央网信办”)发布的“关于互联网信息服务算法备案系统上线的通告”中,曾对此作出过解释:互联网信息服务算法备案仅对备案主体所提供的算法推荐服务及服务中使用的算法推荐技术进行备案,信息由备案主体自行填报,该备案不代表对有关主体、算法、产品、服务等的认可,任何组织和个人不得将备案结果用于宣传和其他商业用途。
目前这8家公司在宣传上均未强调“备案”,只是宣传产品和对公众开放的举措。 “其实这次的备案就是发放牌照的前奏。”参与了某大模型备案工作的张华(化名)告诉虎嗅,虽说备案不等于获得“牌照”,但目前这8家陆续对公众开放模型的动作,无一例外都在暗示他们已经非常接近牌照了。
AI新规何以闪电落地
有关部门上一次推出人工智能管理规定,是在不到一年前,2022年11月公布的《互联网信息服务深度合成管理规定》。这则规定的征求意见稿发布于2022年1月,2023年1月正式施行,到6月20日公布了阿里、腾讯、字节、美团等第一批备案企业。
相比于上一条规定,这次的生成式AI新规不可谓不快。
生成式AI管理办法自2023年4月开始征集意见,仅用3个月时间,就完成了暂行办法制定。新规8月15日正式生效,此后半个月时间就已经公布了第一批备案企业。
闪电出台,闪电落地,AI大模型市场的变化日新月异,规则的制定也不得不随着技术发展实时更新。
“最近我们和监管部门的交流几乎是一周三次,同时也不断在跟北京市相关部门报材料。”另一位参与了本次备案工作的杨明(化名)告诉虎嗅,从4月生成式AI管理办法征集意见开始,监管部门频繁与大模型技术供应商开会探讨技术、管理细节,并在内部对管理办法进行了几轮迭代。
在规则的迭代过程中,监管工作也是平行开展的。
“其实备案工作已经跑了几个月,远比8月15日早很多。”杨明告诉虎嗅,2021年底颁布的《互联网信息服务算法推荐管理规定》中规定,算法备案的法定时限为30个工作日。但在实际操作过程中企业往往会不断补充新材料,完成时间可能在2-3个月。在国内百模大战的情况下,这个工作难度更大了。
新规迅速落地的动力,一方面来自高层对生成式AI等前沿技术的重视,另一方面则来自巨大市场潜力的倒逼。
“在消费场景、劳动密集型的工作场景中,大模型工具都是面向公众用户的,缺乏监管会给技术供应商带来巨大的困扰。”在某数字化技术供应商6月召开的大模型应用产品发布会上,该公司技术负责人曾向虎嗅表示,他们被这家AI技术供应商要求严格保密,如果透露使用了谁的大模型,会被视为违约。而对于为何要对案例保密,这位负责人分析,很大一部分原因可能是要规避监管风险。
“生成式AI的安全风险在全球范围内都有共识,但它毕竟是一个商业化产品,其背后蕴含的市场潜力巨大,任何市场也不会因噎废食,一味封堵。”接近监管部门的冯清(化名)表示,对于生成式AI来说,符合商业化、市场化需求的监管或将是当前的重点。
“生成式AI管理办法出台后,政策会从问题导向转为目标导向发展就是我们的目标。”观韬中茂律师事务所合伙人王渝伟认为,从规定的条文来看,新规是重“疏”而不重“堵”。
备案之后还有多长的路?
杨明告诉虎嗅,目前生成式AI的责任主体仍是技术供应商,这对于技术供应商来说,存在很大的安全挑战。但要在技术上把控大模型输出的内容并不十分困难,真正的难点在于如何识别用户对模型的恶意引导。
在实际操作中,通过前后处理、SFT、Prompt微调,以及域内知识增强等多种方法,都可以减少大模型的错误和幻觉。某国产大模型研发经理周鑫(化名)介绍说,国内一些基于开源模型发布的对话产品曾出现过:在回答“你是谁”这个简单问题时,错把LLaMA当国产模型的情况,这就是因为开发者对“你是谁”这个问题进行了处理。
然而,在一些用户隐晦的表达中,这些技术手段并不能保证百分之百地过滤有害信息。在此前对ChatGPT的测试中,就曾有网友以电影剧本创作为陷阱,诱导AI描述了危险爆炸物的制作方法。
“我们曾经在大模型上做过多个测试,很多问题不一定会触发敏感词,但输出的内容却可能不太合规。”杨明表示,中文里有很多词语在不同语境中的表达意思完全不同,这也很容易导致生成内容“跑偏”。
虽然监管严格,但有了“合法身份”的大模型在研发和商业化方面,无疑会更加快人一步。首先,在研发方面,随着公众用户的涌入,大模型可以获得更多来自真实用户的数据反馈,对模型的优化迭代能起到很大的支持。
在商业化方面,二级市场对通过备案的AI公司表示了“热烈欢迎”。 8月31日收盘后,百度股价上涨2.12%,商汤股价上涨3.31%,未在备案名单中被提及的科大讯飞股价则下跌了1.14%。
然而,一些业内人士对此并不看好。多位AI大模型研发人员对虎嗅表示,取得牌照对大模型商业化的主力——B端、G端用户的刺激恐怕不会太大,因为这些应用本来都在强监管下,生成内容能产生的社会影响有限且可控。
通过备案真正获益的应该是C端用户,“最大的受益者应该是像百度这样,C端产品比较成熟的公司。”张华表示,国内C端用户对AI大模型的好奇心很强,但一直没有特别好的使用途径,开放公众注册,会大大降低生成式AI的使用门槛。
“不过大模型的运营成本太高了,国内大模型可能也会像ChatGPT一样,在开放初期免费,后续再逐步收费。”不过,张华认为,虽然很多人都对AI大模型感兴趣,但最终为AI付费、买单的人恐怕不会是使用AI的人。
彭博社在7月30日发布的一项对股票市场投资者的调查Markets Live Pulse显示,在514名受调投资者中,约77%的人计划在未来六个月内增加或保持对科技股的投资,且只有不到10%的投资者认为科技行业面临严重的泡沫危机。然而这些看好科技行业发展的投资者中,却只有一半人对AI技术持开放的接受态度。
50.2%的受访者表示,目前还不打算为购买AI工具付费,多数投资公司也没有计划将AI大范围应用到交易或投资中。
即便是在SaaS意识比较强的美国市场的专业投资人士,对AI工具的付费意愿都不甚强烈,国内的普通用户付费意愿可想而知。
百度、谷歌两大搜索巨头分别在最新一季度的财报中强调了AI对广告业务的推动作用。由此看去,AI时代的商业模式,很可能会与互联网时代一样。为ToC市场买单的人大概率还是那些互联网公司的广告主们。
下一波备案的可能有谁?
除中国科学院自动化研究所的紫东太初是多模态模型,本次提出的备案产品大多是文生文内容。不过,在6月20日公布的《互联网信息服务深度合成管理规定》备案算法清单中,百度的文生图产品文心一格已经完成了备案。
在安全方面,虽然文生图通过图片识别、prompt调整,在技术上很容易限制生成不安全内容,但对于一些细节内容的生成仍然存在风险,例如旗帜、地图的生成都很容易出问题。
杨明认为,本次备案的企业在筛选过程中,可能考虑到企业成分的平衡。有商业化公司,有高校背景的企业,也有中科院这样的研究机构。另一方面,也是考察大模型产品的能力。
在本次备案的模型中,并未出现备受关注的通义千问、讯飞星火,以及360智脑等。新华社研究院此前发布的《人工智能大模型体验报告2.0》中,上述3款模型均位列国产主流大模型测评榜前列,仅次于文心一言、商汤商量和智谱ChatGLM。
“我认为首批备案的模型,首先是考察能力和安全性,另一方面可能也会考虑到国产化的因素。”中国科学院自动化研究所主管刘昊介绍说,紫东太初的研发主要是基于自建的全栈国产化基础软件体系,在训练过程中,用到的算力也大多基于华为昇腾GPU的910和910b。
截至发稿,登录网信办官方的“互联网信息服务算法备案系统”,仍只能查到6月20日公布的, “根据《互联网信息服务深度合成管理规定》,公开发布境内深度合成服务算法备案信息”。前述消息中提到的,根据《生成式人工智能服务管理暂行办法》公布的备案算法名单仍无法在系统中查到。
互联网信息服务算法备案系统