智东西4月15日消息,据外媒报道,美国AI数据标签企业Scale AI于当地时间4月13日宣布,最新一轮融资后该公司估值73亿美元。
Scale AI由时年19岁的Alexandr Wang在2016年创立,先后为美国自动驾驶汽车公司Waymo、丰田汽车Toyota、美国网约车公司Lyft等客户公司提供用于机器学习的数据标记服务。
▲Scale AI创始人Alexandr Wang
一、19岁小伙创立,曾签下美国军方大单
2016年,年仅19岁的Alexandr Wang从麻省理工大学辍学,同年在完成了硅谷创业扶持公司Y Combinato的孵化项目后,和22岁的Lucy Guo一同创办了Scale AI。
Alexandr Wang出生在美国新墨西哥州,父母均是物理学家。早在高中的时候,Wang因在编程比赛上的出色表现,陆续接到科技公司的工作邀约,并在硅谷开启了自己的职业生涯。
在接受采访时,Wang回忆道,“我在硅谷工作的这段时间里,看到人工智能领域目前存在的形形色色的问题,因而了解到机器学习的重要性。”
▲Alexandr Wang(左一)和Scale员工
Scale帮助企业整理和标注用来训练AI系统的数据,这个过程通常需要为数万个示例添加标签。
从最初为自动驾驶汽车处理图像和视频数据,发展到如今为金融、物流企业和政府提供广泛的视觉和自然语言数据支持,Scale已经成为了这一领域主要的公司之一。
Wang告诉美媒Fortune,该公司去年的销售额翻了一番,并且有望在12个月内实现1亿美元的收入。
2020年9月,这家年轻的独角兽企业首次和美国军方达成合作,一举拿下美国国防部的9100万美元大单,协助美国军方试验、开发以及更新用于机器学习和AI的标注数据集。
在线支付服务商PayPal和社交网站Pinterest都曾是Scale的客户,该公司还曾与丰田、通用汽车等主要汽车制造商合作。此外,该公司的员工人数也从去年的约100人增至300人。
机器学习正在逐渐取代传统的软件编程,来帮助公司将任务自动化。“数据就是新的代码。数据是系统建设、培训和测试的基础,也是关键,”Wang说,“公司需要利用和操纵数据,就像他们过去利用和操纵代码一样。”
二、训练AI“黑科技”,数据标签助机器学习
创建五年以来,Scale的业务已经从简单的数据标记发展为一整套基于软件的服务。它可以帮助企业收集、注释、管理和清理数据,以及建立和监控基于这些数据的机器学习模型。
其中,一个名为Nucleus的软件包可以让客户在数据中快速找到可能会降低AI算法性能的错误标签,并给数据添加新标签,对AI系统的弱点进行更多训练来改进其性能。
▲Scale Nucleus系统示意图
“在所谓的90%或95%准确率下,失败率也并不是均匀分布的,”特斯拉前高级机器学习工程师、如今领导Scale Nucleus团队的罗素·卡普兰(Russell Kaplan)说。
所有的AI系统都有统计偏差,即犯错的倾向。这些错误通常涉及“边缘情况”,即在训练数据中没有充分体现的罕见事件。
卡普兰将Nucleus比作软件调试工具,但它被用于数据,而非软件代码。
三、半年内估值翻一倍,形势向好
美国时间4月13日,Scale宣布已在最新一轮投资中筹集3.25亿美元。此次融资使该公司自2016年成立以来筹集的风险资本总额超过6亿美元。
2019年8月,Scale获得美国风投机构创始人基金(Founders Fund)的1亿美元投资,凭借10亿美元的估值一跃成为硅谷最年轻的独角兽企业之一。Scale AI还陆续收到了Index Ventures、Accel、Coatue Management的投资。
2020年12月,Scale在上一轮融资后估值1.55亿美元,而此轮融资后其估值已经是这一数值的两倍多。
最新一轮的投资由美国投资公司Dragoneer、Greenoaks Capital,以及科技投资公司Tiger Global领投,投资管理公司Wellington Management和Durable Capital也参与了这轮融资。
Wang在接受采访时透露,公司目前没有计划上市,但“一直在关注市场”。亚马逊前高管杰夫·威尔克(Jeff Wilke)将作为CEO特别顾问加入Scale。
结语:由机器学习衍生,数据标注自动化
随着AI技术的发展,用于机器学习的数据标签催生了一个全新的行业。帮助企业对数据进行标签的公司如雨后春笋般涌现。对于想从人工智能热潮中获利的投资者来说,数据标签和管理已经成为一种流行的“掘金”方式。
旧金山初创公司Labelbox运营着一个软件平台,帮助企业管理数据标签任务,这家公司的融资总额达到了3900万美元。还有特拉维夫的初创公司Dataloop,在2020年10月完成了1100万美元融资。
AI算法大大提高了数据标注的效率,这种算法为主、人工为辅的标注模式指明了未来机器学习训练数据整理的趋势。