本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、韩智,原文标题:《小米造“人”比特斯拉还快:首款全尺寸人形仿生机器人CyberOne发布》,题图来自:小米发布会


什么?小米发布了全尺寸仿生人形机器人?


就在雷军在个人年度演讲快结束时,顺手扔出了这个王炸——全尺寸仿生人形机器人CyberOne。



并且这次不是PPT,也不是请人穿着道具上去跳舞,而是直接拿出原型机,现场和雷军互动了一番。



近些年,机器人俨然成为众多科技公司展现自己综合研发实力最好的产品。


从早年的波士顿动力、软银Pepper,到去年马斯克的一手“快闪”,每次发布都引来无数关注——小米这台CyberOne与其他家有什么区别?这个雷总的新宠到底有多少技术含金量?


老规矩,更多软硬件细节及幕后信息,一并为大家揭秘。


小米人形机器人,究竟是个啥?


纵观当下叫得上号的“网红”人形机器人,我们不难发现,各家公司对于人形机器人的描摹有很大差异。


按产品定位大致可以分为三个方向。


超越人,以大名鼎鼎的波士顿动力为代表,旨在追求极致机能以达到拥有超越人类的运动能力。


这个方向也吸引了国内外众多科研单位参与。可以说波士顿动力在姿态控制、动作预判算法、动力输出等领域走在了全球人形机器人领域的前列。


替代人,以去年宣布打造人形机器人的特斯拉为代表。


马斯克是个明白人,特斯拉出货量稳步提高,光超级工厂就规划了不下10个,如果能打造一个人形机器人来代替工厂中重复劳动的员工,只要综合成本低过员工工资,就是笔好生意。所以马老板也丝毫不掩饰他想通过人形机器人替代人的想法。


服务人,这是小米CyberOne选择的方向。


具体来说,是依托人形更好的研究人感知、认知、决策、执行过程从而更好服务于人。


这一定位方向,在产品细节上如何体现?我们一项一项看。


如果给CyberOne来个外科体检,高177cm,是一个标准的成年人身高。


体重则仅为52kg,别看现在身板有点单薄,其实也是为了后续进一步演进做重量冗余。



再查五官科,CyberOne的脸蛋没走拟真的精致五官路线。


头部前面是个面罩,外层半透明材质,内层为OLED与柔光特效,再加上2D弯曲贴合显示模组实时表达机器人情绪。



下一项该考察机器人的运动能力。


这其中,关节是核心,业内皆知,这块相关组件一般占人形机器人成本三分之一以上。


以CyberOne上肢关节电机为例,小米自研了一枚重量仅为500g,额定输出扭矩高达30N·m的高效电机,保证上肢灵活性。


CyberOne髋关节主要电机瞬时峰值扭矩可达300N·m,配合自研的人形双足控制算法,行走姿态更加平稳。


再有就是“手”了,CyberOne单手垂直抓握物体重量为1.5kg。



总体来看,极致运动能力非CyberOne的目标。


CyberOne更多的采用了以高性能、小型化电机为主的干系统作为运动能力支撑,并没有过多使用机械性能当下更强大的液压湿系统。


这种选择上的倾向还是较为激进的,迎合了新能源时代下例如智能汽车从湿系统逐步替换成干系统的大趋势。


传感器方面,CyberOne对外界信息获取来自听觉和视觉。


深度相机配合AI相机帮助机器人收入真实场景和物体,通过CV算法获得物体三维模型实现避障,自带小米传统艺能“万物追焦”技术,让CyberOne能够集中注意力看关键物体。


听觉传感器配合音频算法可识别6类45种人类情绪语音,外加85种环境音识别。



你大概好奇环境音识别有什么用?小米工程师举了一个有趣的例子——离家前忘关水龙头?它就能识别滋滋水流声并提醒你。


据了解,CyberOne还实现了“拖动示教学习”这项特别的功能。


所谓拖动示教学习,就像是父母手把手教你第一次学会用上了筷子。


这动作对人来说简单,但对机器就难度很大了。不仅要求硬件机械臂是“活”的,可被移动,反驱的形式对关键部位电机性能要求更高,也是小米团队最初要求的关键指标。


除此之外,机器人还要通过传感器和软件层能够记忆学习动作,重复执行,工程师们希望通过该功能实现,让机器人模拟人的学习过程。


看到这,大致能得出些不吹不黑的结论——


小米新发布这个人形机器人的确挺像样,不仅外观,其各方面组件的确满足人形机器人要求。


无论行动速度,还是抓握力,再到突出的交互能力和AI算法对环境语义的识别判断,能看出这台CyberOne更面向/服务于人本身。


不管怎么说,小米居然不声不响,闪亮登场一个全尺寸人形仿生机器人,还是出乎了所有人意料。


人形机器人,有多难?


人形是解决综合问题最高效的形态之一,是机器人领域公认的终极方向,同时也是技术难度最大、需要投入最多的。


毫不夸张的说,全尺寸人形仿生机器人是“机器人皇冠上的明珠”。


原因也不难理解。


身体结构上,人类双足直立行走、双手操作工具都是历经上百万年进化而来,靠的可是自然选择的力量。想用完全不同于生物的一套材料、靠人为设计去模仿逼近,工程难度可见一斑。


行为和决策上,人形机器人要做到和人一样、解决复杂问题问题,这就就需要做到对环境的全面理解,需要多模态结合的推理和交互,除了视觉、听觉,还要考虑更不成熟的嗅觉、触觉等。



最后还有点现实原因,人形机器人行业还没有机器狗那么成熟,不要说开源方案了,连论文都没有几篇可以参考。


小米人形机器人项目的负责人向迪昀表示,这次难度和去年的机器狗铁蛋不在一个level上。


看上去理论似乎很健全,但怎么做、技术如何演进,谁也没有正确答案。


纵观目前市面上成熟的项目,从产品迭代路线来看大概能分4步:先做下半身站立,到下半身行走,组装上半身,最后是全身的动作协同。


小米则通过在智能制造和之前CyberDog机器狗项目上的技术积累,最终决定下半身和上半身并行推进,项目进展较快。


机械方面对应人类行为的执行部分,一般由小脑控制。但如果只做到拟人运动能力,充其量可以称之为机器。


只有拥有了感知-认知-执行的大脑能力,才真的称得上机器人。而大脑能力也是仿生人形机器人的技术制高点。


从已公开的信息来看,CyberOne首先拥有空间感知、认知能力。


CyberOne搭载自研Mi-Sense深度视觉模组,结合AI交互算法,使其不仅拥有完整的三维空间感知能力,更能够实现人物身份识别、手势识别、表情识别,CyberOne真正做到了不仅看得到也能看得懂。



但相比于机器狗,人的世界中信息量级堪称爆炸。就以简单的路径规划为例,目前最全面、技术难度最高的路径规划为自动驾驶路径规划。


智能汽车路径规划除了解决机器人从A点到B点外,还需要在过程中针对各种情况进行语义标定,例如停止的障碍车辆、地上的行车线、运动中的行人等等,从而对其作出预判,保证安全舒适行车。


虽然CyberOne得到了来自小米自动驾驶团队的技术帮助,但自动驾驶仍然是在道路交通有限场景下的路径规划技术,而人形机器人则是全场景的路径规划,面对的情况更加丰富,需要对环境语义的标定更加复杂。


CyberOne同样拥有情绪的感知和认知能力,这部分能力则是师承小米内部小爱同学团队。


小米人形机器人项目的负责人向迪昀表示,小爱同学面向大众展现的能力只是冰山一角,其实小爱团队很早就开始搭建情绪训练模型和环境语音语义模型,这方面技术对软硬件平台要求较高,尚未开放给大众用户,而让CyberOne抢了“首发”。


解决了诸如上述的各类问题后,CyberOne有了基本的感知、决策、运动和交互能力,可以算是大小脑平衡发展了,所以这次发布会上雷总把他带上台进行了演示。


CyberOne和所有的人形仿生机器人一样,都是处在持续演进过程中。


接下来一段时间,CyberOne还需要改进的地方有很多,硬件上比如完善手指灵活性、学着像人一样使用工具,软件的架构也需要整合,从分布式迭代固化为集成式,智能算法更是需要持续迭代改进等。


不过摆在机器人行业面前的问题,从来就不局限于技术本身。人形机器人投入成本高、回报周期长,商业化进展上这几年也经历了一番波折。


波士顿动力公司7年内被3次转手,产品上机器狗Spot公布的销量只有数百台,人形机器人Atlas就更少。软银的人形机器人Pepper则在去年被曝出直接停产。


总之,迈过技术验证阶段之后,小米想要把机器人打造成一款产品推向市场,还有很长的路要走。


既然如此之难,为何还要做?


在外界看来,小米新技术研发更值得投入精力的地方,似乎应该是造车。分出人力物力来搞这么难的人形机器人,是出于什么考虑?


对于这个问题,小米给出的答案是:CyberOne并不是规划而来的。


它更像是人,是小米“科技生态”自然进化而来的产物,也是小米科技生态的代言人,可分为两个方面来看。


第一是技术方面。


小米自成立以来,从智能手机出发,到可穿戴设备、智能家居,再到智能制造、智能电动汽车以及仿生机器人,贯穿其中的是一套不断融合进化的技术体系。


融合进化,说的是看似已成熟的技术用在新的领域就会暴露出新的问题,然后才有机会做出改进。


举例来说,机器人自身可以移动,对视觉、语音算法的要求就和手机完全不同。这也印证了AI学术界最近呼声很高的”具身智能”——给AI一个身体,它理解这个世界的方式才能更贴近人类。


进一步来说,通过融合创新和改进的技术还可以在科技生态内的各个场景相互迁移。


如最初用在机器狗上的万物追焦算法也能用于手机;小米自动驾驶进展非常快,得益于2017年创办的小米人工智能实验室;未来人形机器人上验证成熟的技术也有机会支援造车。


正如小米机器狗项目发起人去年说过的,“手机就是没有腿的机器人,机器狗有腿但不需要显示屏,汽车则是四轮机器人”。


第二个是场景方面。


如果简单粗暴将人的行为分为四个状态:居家生活、工作办公、交通出行、睡眠休息。那么一个好的商业模型应该尽可能多地覆盖人的四个状态,并且越了解四个状态中用户不同的需求,从而提供更好的服务,那么这个商业模型的价值就越高。


小米目前提供的服务恰好对这四种状态全覆盖,前面也提到,人形机器人目前有三种发展方向。


一种是超越人,以波士顿动力为代表,专注提升机器人的运动性能。


一种是替代人,以特斯拉为代表,要让机器人进入造车工厂补充劳动力。


小米选择的是第三种服务人,要围绕人的生活和工作,更好为人服务,紧密连接人和万物。


从这个角度看,小米的科技生态在理解人方面还是有一定优势的。


原研哉在为小米设计全新LOGO的时候,就提到全新的小米LOGO能够体现小米的品牌精神:科技就越是进化,就越接近生命的形态。如此看来,小米能够率先推出仿生机器人也是顺理成章。


小米集团技术能力示意图<br>
小米集团技术能力示意图


关于机器人如此之难,为何还要做,国家也给出了相关答案。


在工信部等十五部门联合印发的《“十四五”机器人产业发展规划》中提到:


面向制造业、采矿业、建筑业、农业等行业,以及家庭服务、公共服务、医疗健康、养老助残、特殊环境作业等领域需求,集聚优势资源,重点推进工业机器人、服务机器人、特种机器人重点产品的研制及应用,拓展机器人产品系列,提升性能、质量和安全性,推动产品高端化智能化发展。


看了这么多,最后不妨一起来聊聊,你觉得人形机器人离广泛来到人们身边还有多远?


超越人、代替人、服务人这三种路线,你又更期待哪个?


本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、韩智