他们给机器人造“小脑”

《文摘报》（2026年05月20日 08版）

　　余工（化名）被自己训练的机器人踹过。每隔一段时间，这位工程师都会穿上动作捕捉服，在办公室里出拳、走路、旋转，做出一系列动作，以测试机器人运动控制算法效果。站在身旁的机器人，以毫秒级的延迟复刻他的每一个动作。有一回，伸展空间不够，他踢了下腿，机器人照单全收，一记猛踹落在他身上，剧痛让他至今难忘。

　　但争分夺秒地开发、训练机器人仍是他最重要的工作。2025年被认为是人形机器人量产元年，全球出货量约1.7万台，中国企业出货量占全球的84.7%，稳居第一。一时间，行业迎来资本追捧、政策加码、媒体追逐的热闹景象。但一个尴尬的现实浮出水面——这些能跑马拉松、能唱二人转、能后空翻的机器人，真正能“干活”的并不多。

　　大模型驱动人形机器人做出每个动作都需要消耗大量算力，也限制了业内主流思路的开发进度。因此，当下不少机器人企业都面临着普遍的困境，即完成了基础研究，却很难商业化。在上海浦东国家地方共建人形机器人创新中心（以下简称“国地中心”），为了能让机器人尽快干活，余工和他的团队另辟蹊径，在大模型接入机器人作为“大脑”之外，给机器人安上了支配动作的“小脑”。

　　给机器人当“老师”

　　如今的AI大模型已经可以写诗、写代码，但把它们装进机器人的身体里，将“大脑”里的“想法”落地成“动作”，是另一回事。“很多人以为，把大模型装进机器人的身体里，机器人就能自己动起来。但中间缺少的关键一环在于AI如何驱动这个物理身体。”余工解释。

　　人的身体有几百块肌肉，但人在做动作时完全感觉不到自己在控制肌肉，这是因为小脑在底层完成了对肌肉的精细控制。似乎脑海里产生“我要把手抬起来”念头的同时，手就自然地抬起来了。如果想要机器人也遵循这个过程，习得人类的诸多动作，就得收集到海量且高质的真实操作数据。最直接的办法是请人类来当机器人的“老师”。

　　在国地中心，刘强（化名）是机器人训练师之一。他每天的工作内容非常固定——穿戴好设备，指导机器人进行上肢训练。最近，刘强正在训练的项目是齿轮收纳，通过一遍遍演示，教会机器人将不同规格的齿轮放进收纳盒内。如何识别、怎么抓起、用多少力，“笨拙”的机器人并不知道，需要手把手教。为了让机器人变得更聪明，他还会在桌面上放一些干扰物，再进行训练。

　　训练的难度因任务而异。比如，叠衣服这项人类最普通的家务，对机器人而言，难度系数相当高。“由于涉及动作细节较多，对关节旋转的要求极为精细，控制需要更加精准，对遥控操作者的熟练度也提出了很高的要求。”刘强解释。

　　任务难度直接影响到数据的有效性。从前端采集的数据还需进一步校准、识别，再由研发团队运用于机器人的自主训练。之后，在没有训练师介入的情况下，机器人也能通过现有的数据在虚拟环境中独立完成训练。

　　有可能跑通的路径

　　所有机器人的动作学习，本质上都是“人”教的。通过人类反复演示，然后转化为数据，再用这些数据去反复训练模型，直至其熟练掌握。“人教人，聪明的一遍就会，笨一点的两三遍。但机器人，你得教它几百遍。”余工说，区别在于样本效率高低。

　　有没有办法让训练更高效且低能耗一些？余工团队正在努力尝试的是一种信息量更饱满的数据采集方式。传统的数据采集，只记录“轨迹”，比如手从A点移动到B点的路径。而通过动捕服和远程遥控，可以同时记录下机器人底层电机的控制数据，包括电流多大、扭矩多少、关节角度如何变化、身体倾斜了几度等。

　　“就像以前你只给了它一个答案，现在你把每一步的推导过程都写下来了。”余工说。这意味着机器人可以更高效地学会新技能。以前要学100遍的，以后可能10遍就会了。

　　但新的问题随之而来。“如果让一个大模型直接去控制每一个电机、每一个关节，频率太高。人做动作时，神经信号是毫秒级的，1秒钟可能要决策上千次。这么大的计算量，目前的算力根本扛不住。”余工和团队选择了“分层”的方案：底层相对较小的模型，以非常高的频率去控制机器人的每一个关节，保持平衡、执行动作；上层的大模型只需以较低的频率发出指令，比如“把手放到那个位置”，至于怎么放、用多大力、如何保持身体不倒，底层的“小脑”自己解决。“有点像混动车。”余工打了个比方，“电池容量没那么大的时候，加一个汽油发动机，电启动，油加速。”

　　这未必是行业里训练机器人的终极方案。随着硬件发展，未来可能出现完全不同的方案。但在当下，这是一种有可能跑通的路径。余工把这个底层模型叫作“小脑模型”。它或许算不上聪明，但反应极快。它要做的不是思考，而是执行。

　　不过，这仍不是最终目标。更为理想的状态是，底层有一个非常强壮稳定的“小脑”，能够执行几乎所有动作指令；上层有一个足够聪明的“大脑”，能够理解复杂的任务意图，像人类一样进行功能分区。

　　庞大的数据空间

　　“国内人形机器人才发展了两年，只有产业化落地之后，这个产业才能证明发展成功。”国地中心市场总监杨正叶说。

　　杨正叶介绍，目前，人形机器人业内的训练思路主要分为两种。国外市场走的是“大模型驱动”的路线，即在不同环境下，机器人通过视觉传感器和位置传感器不断计算，不断尝试抓取。通过反复尝试，直到成功为止，通常这样的过程需要巨大的算力支撑。国内走的是“数据驱动”路线。这虽然规避了算力需求，但对数据质量提出了更高的要求。比如，每次机器人必须复位到基准位置，数据才能用。想要换个位置抓取杯子，就得重新采集数据。

　　更麻烦的是，各家机器人的关节参数不一样。“国地中心要做的另一件事，就是把所有机器人的数据变成通用数据。”严格来说，国地中心机器人训练场，不仅仅是一个物理空间，还是一个数据空间。或许难以想象，教机器人拿杯子这样一个简单动作，背后的数据采集是怎样一个庞大的工程。

　　世界上存在的杯子类型众多，抓取方式更是千变万化。想让机器人学会抓杯子这一动作，需要把世界上存在的所有杯子泛化成不同种类，如马克杯、高脚杯、玻璃杯、塑料杯等，需要分门别类进行数据采集。此外，还需要处理更复杂的情况，比如倾斜的杯子、湿滑的杯子、被压住的杯子等。

　　“只有当机器人能解决问题的方式足够多，再给它下一个命令‘我要拿这个杯子’，它拿起杯子的成功率才能接近于人。它也会像人一样，判断杯子类型，再选择方案，究竟是擒住杯口拿起来、抓住把手拿起来，还是双手捧起来。”杨正叶说。

　　国地中心的训练场里，记录数据体量的数字在大屏幕上时刻跳动。不同厂商的机器人在海量的数据中不断地试错、校正、再试错，这些被清洗校对过的数据会用来训练机器人。

　　给未来的到来提速

　　在人形机器人行业内，变化是以周为单位计算的。但没有人确切知道，这个行业何时会“涌现”出新的突破。“它或许会突然变得很厉害，但你没法预测它什么时候发生。”余工说，“机器人上周还做不到的动作，这周可能就突然能做到了。不是哪个人类工程师写了新代码，而是模型自己学会了。”

　　当机器人越来越像人，最终会取代人类吗？

　　“我觉得人类制造机器人的初衷，就是成为社会发展或者工业发展的一个助力。”余工说。这个95后工程师职业的起点是大模型算法工程师，伴随行业更迭步入机器人赛道时，从小看“高达”长大的他，想要给未来的到来提提速。“这个行业无法停下进步的速度，不前进就意味着淘汰和死亡。”虽然压力不小，但他也享受这种创造未来的兴奋，而不是沉浸在未来会否由机器人接管人类世界的担忧中。

　　杨正叶也有类似的观点：“先让技术生长。至于过程中会出现的问题，相信都是可以解决的。”

　　（《解放日报》4.30 李楚悦朱雅文罗荣芬）