今天分享的是人工智能系列深度研究报告:《 2023人形机器人应用场景及市场空间分析报告 》。
人形机器人的“萌芽阶段”(1960-1990)。这一阶段的人形机器人特征为初具“人形 态”,研发重点着重在机器人的“下肢运动”。1968 年,美国的通用电气公司 (R.Smosher)试制了一台名为“Rig”的操纵型双足步行机器人机械,同年,日本 早稻田大学加藤一郎教授在日本首先展开了双足机器人的研制工作,并先后推出了 WAP-1、WAP-3、WL-5 等持续迭代的双足机器人版本,自此人形机器人产业步入萌 芽阶段。此外,除了日本在人形机器人研制上做出较大贡献外,包括英国、苏联等 国家也纷纷加入机器人的研制上,例如,英国于 1970 年研制成功的“Witt”型双足 机器人,苏联则研制出两轮双足行走机器人。
而我国在人形机器人的研发起步相对较慢,自 1985 年始,国内几所科研院校才陆续 开始人形机器人的研发工作,而直到 2000 年,中国国防科技大学经过多年的努力成 果才研制出我国第一台仿人型机器人“先行者”,哈尔滨工业大学也自 1985 年研发 双足步行机器人以来,先后推出 HJT-I、HJT-II、HJT-III 等型号的机器人
人形机器人的“发展阶段”(1990-2010)。这一阶段的人形机器人特征为附加更多功 能,研发重点从之前的“怎么来实现更好行走”到“赋予机器人更多其他的‘仿人特征’”。自 1986 年开始,日本丰田公司推出了 P 系列 1-3 型机器人,在 1997 年推出 了“P3”和 2000 年推出了“ASIMO”,“ASIMO”除了优化步行方式外,还增加了 对手部的操作和控制。同年,日本索尼于 2000 年推出人形娱乐机器人 SDR-3X,该 机器人较以往产品最大的不同之处在于配备了声音识别和图像识别功能,能够准确的通过音乐 实现节奏运动。丰田和索尼公司推出的新一代人形机器人,将仿人机器人的研制和 生产正式推向实用化、工程化和市场化。
人形机器人的“百花齐放阶段”(2010 至今)。这一阶段的人形机器人特征为 “智能化”,研发重点从之前的“赋予机器人更多其他的‘仿人特征’”到“机器人如何 衍生自主决策能力”。海外方面,波士顿动力、特斯拉、Engineered Arts、软银等海 外科技公司纷纷发布自主研发的人形机器人,比如 2015 年软银率先实现人形机器 人的商业化进程、2021 年波士顿动力展示运动能力出色的 Atlas、2022 年特斯拉发 布 Optimus 原型机等。国内方面,小米、优必选、傅利叶智能等厂商也积极入局。 该阶段的人形机器人除了运动模块和感知模块更为成熟外,最突出的特点是大模 型的应用,机器人的训练速度和效率大幅度的提升、强化机器人的自主决策能力。完整版《2023人形机器人应用场景及市场空间分析报告》来源于公众号:百家全行业报告 研究报告内容节选如下
人形机器人发展至今,涌现出适用于各种应用场景的产品,按照目前主流的场景应 用分类,可大致分为工业类、娱乐&服务类等两大类,对应用在工业场景、家庭&商 业场景。工业类人形机器人大多数都用在处理物流、制造、安保和复杂任务等领域的工 业场景,替代的是低级和高危人工劳动、以及部分传统工业机器人无法胜任的工种, 比如流水线的后道工序。娱乐类主要实现情感交互和表演展览等场景,而服务类则 主要是从事家庭服务、教育、引导、送餐等场景。
由于工业场景相较于家庭、商用场景而言,环境的可预测、可控性更强以及机器人 自身造成危害的影响性更低,对处于发展初期的人形机器人而言,工业场景的容错 率相对更高,因此更适合厂商作为人形机器人投放的第一站。纵观近几年的机器 人新品,工业类产品进展也相对较快,比如波士顿动力的 Atlas、特斯拉的 Optimus、 Agility Robotics 的 Digit 等。
波士顿动力:成立于 1992 年,公司先后借助美国军方、谷歌、软银、现代集团等股 东的支持,陆续发布了 Big Dog、Little Dog、Cheetah、Spot 等四足机器狗和 Atlas 等 双足机器人。于 2022 年和母公司现代汽车共同成立了 BDAII(波士顿动力人工智 能研究所),目标是“引领AI和机器人技术的进步”,目前在围绕 Spot 和 Stretch 这类机器人的商业道路和独立的完全专注于 Atlas 的技术探讨研究道路两条路线上齐头 并进。
Atlas:高约 1.5 米,重 80 公斤,拥有 28 个自由度,主动力来源为电池,驱动 方式为液压,配备 RGB 与深度相机,机器人本体共搭载 3 台 NUC/工控机负责 整体控制管理系统的运算。Atlas 最突出的亮点是能实现像人一样奔跑、跳跃和跨 越障碍,而实现这种跑酷动作的核心源于其独特的感知、规划、驱动以及驱动 背后的制造技术。
感知能力:基于配备的 RGB 摄像头和 TOF 深度传感器,Atlas 能快速生成环境的点云,再使用一种名为多平面分割的算法从点云中提取平面,机器人中的映射系统将 算法获取的信息构建模型,从而辅助后续的行为规划。
规划能力:一方面,设计人员通过离线优化,为 Atlas 不断创建新的运动轨迹,而在 这些给定的轨迹设计下,Atlas 会在实际行动中尽可能地选择与之匹配的行为动作,由此减少相关的计算量,提升运动准确性。另一方面,在实际的运动过程中,Atlas 会使 用 MPC(模型预测控制器,该控制器使用机器人动力学模型来预测机器人未来的动 作并计算出当前要做的最优动作)来调整实时的力、姿势和行为时间等细节,以完 成“没见过的动作”。进一步而言,MPC 的预测特性还允许 Atlas 跨越行为边界 来查看后续动作,使得机器人能实现从一个动作到另一个动作的平滑过渡。
运动能力:在完成感知和动作规划后,机器人要“跑起来”,而液压系统为 Atlas 产 生了强大的推力,在同样的空间内,用液压元件所做的功是电机的数倍甚至是数十 倍,因此液压系统能帮助机器人实现奔跑、跳跃、后空翻等高难度的动作。
制造技术:感知、规划、运动是 Atlas 跑酷的核心程序,而这些动作实现的背后离 不开“如何将重达 80kg 的物体推上天”的制造技术。波士顿动力将 3D 打印应用于 制造 Atlas 机器人的液压动力单元(HPU),用来生产稳态控制器、传感器、过滤器、 排污阀等部件,好处是可以制造紧凑、轻量型阀块,极大减轻重量并提高空间利用 率,从而赋予 Atlas 跳跃和翻腾所需的强度/重量比。
Agility Robotics:成立于 2015 年,公司以生产腿部行走机器人为主,专门为物流和 制造公司可以提供仓库机器人,以应对季节性需求波动造成的劳动力短缺,主要是可以 协助人工完成卸货搬箱、管理货架、最后一公里配送等任务。
Digit:高约 1 米,重 31 公斤,拥有 18 个自由度。Digit 在高难度动作、复杂环 境适应等高阶维度可能不如波士顿动力的 Atlas 以及特斯拉的 Optimus,但是作 为仓储的搬运机器人,其突出的特点是“实用”,即能在不充电情况下“暴走” 5km,意味着 Digit 能较好地自适应工厂中的各种复杂场地和实现高续航能力, 完美适配特定场所的使用需求,而能实现稳定敏捷的运动,核心源于其深度学 习能力和独特的运动设计。
学习能力:让 Digit 学会走路,要使用到强化学习和模仿学习。其中,强化学习解决 马尔可夫决策过程( Markov Decision Process, MDP)的最优策略,要使用到策略梯 度算法;而模仿学习则要解决参数策略问题。用关键算法 DASS 来搞定数据集, 再将 DASS 于强化学习、模仿学习结合在一起,为机器人设定策略。通过强化学习 和模拟学习,训练双足机器人模拟及适应不一样高度的地面变化,而且只需要稍加改 变现有的平地强化学习框架,就可以在楼梯、不平的地面等场景中稳健地行走。
运动设计:在下肢架构上,Digit 及其第一代产品 Cassie 最大的特点是他的“鸵鸟腿”,在动力学部分参考了鸟类步态,尤其是鸵鸟,膝盖设计成弯曲形状,能以比 较自然的方式去减缓震动。同时在自由度配置上,Digit 在下肢也配备了较多的自由 度,每条腿 5 个自由度,其中臀部 3 个,允许腿向前、后、侧三个方向摆动,胫骨 和脚踝各 1 个自由度,但区别于臀部由电机驱动,后两者是附着在弹簧上,有助于 机器人在遇到障碍物时也能保持平衡。另外,Digit V2 版本还对足部进行了优化, 增加了横滚自由度,使得 Digit 可以在不进行侧向踩踏的条件下抵抗侧向力冲击, 还可以实现单脚的静态平衡。
工业类人形机器人侧重点在“工作”,而娱乐&服务类则着重在“交互”,前者更多 是在传统工业机器人基础上增加“人形态”,使得机器人更适合替代人类工作,而后 者在某一种意义层面更符合“仿人机器人”的概念本质---能成为“人”。
Engineered Arts:成立于 2005 年,公司至今推出了 6 款机器人,最新型号 Ameca 是 Engineered Arts 机器人技术的集大成者。公司的产品已用于娱乐与教育行业。
Ameca:高 1.87 米,重 49 公斤,拥有 51 个主要关节并配置 52 个电动马达。 Ameca 最突出的特点是能实现复杂的脸部表情管理,而这样逼真的仿人表情 核心在于结合了 AI 与 AB(Artificial Body)技术。此外,Ameca 在近期接入 了 GPT-4 训练其语言能力、嵌入了 Stable Diffusion 赋予了自身绘画能力。因此,能够正常的看到 Ameca 除了运动能力外,在各方面都不断逼近人类的真实行为。而 Ameca 能实现这样的动作表现,离不开其底层系统,包括机器人操作系统 Tritium 和工程艺术系统 Mesmer。
Tritium:该系统类似于“大脑”,主要负责智能化和各个机械结构之间的联动。Tritium 可以直接在浏览器运行,适用几乎任何编码语言和多种软件,登录后就可以快速处理 各种数据,远程控制机器人面部、头颈、四肢等的各方面组件,使得机器人适应环 境的突然变化并即时做出响应,保证人机交互的安全和乐趣。
Mesmer:该系统负责展现身而为人的“灵魂”,像是给出人类的情绪表情和肢体语 言。为了让 Ameca 看起来像人,Mesmer 平台首先解决的是关节问题,通过对颈部 的设计,让头部可顺滑转移到任何方位,其次是通过搭配 LIDAR 设计侦测移动物 体,让机器人能一直注视和它说话的人类,然后通过对手臂、手腕、肩部等部位的 设计,让机器人能做出微妙的身体语言,比如“耸肩”,最后搭配上人工皮肤,使得 Ameca 从语言表达到行为动作,都表现得和人一样流畅自然。
人形机器人从提出概念到最近一年各厂商最新型号的推出,已经迈过了 60 个年头, 发展阶段也从“萌芽”到现今的“百花齐放”,工业类出现了以波士顿动力、特斯拉 为代表的优秀产品,娱乐&服务类进展也持续推进,特别是最近几年,人形机器人 的产业高质量发展持续超乎市场预期。而站在当前时点,我们大家可以看到整个人形机器人产 业自上而下都出现了推动产业和产品向下一阶段演变的新变化,另一方面从产品本 身角度来看,人形机器人也存在不少的问题有待解决。具体而言:
产业维度:今年以来,国内针对人形机器人的政策走向更为积极的方向,包括 对产业的顶层设计和产业链的各环节扶持都陆续出台了相关政策,人形机器人 的国内产业环境正逐步得到优化,我们认为,此举或类似此前新能源车和光伏 产业爆发前夕,政策的持续加码下的产业正逐步走出平台期、迈向下一阶段。
产品维度:人形机器人按照系统进行划分,可大致分为感知、控制、执行系统, 其中感知和控制系统主要依赖算法、模型等软件,执行系统则主要是通过执行 器及其中的零部件来实现。软件端,随着近年来大模型的爆发性发展,机器人 的算法训练、感知能力和人机交互等方面都得到极大地改善,可以说软件端在这一轮 AI 革命中迎来了奇点时刻,机器人作为 AI 技术的载体也跟随 AI 的变 革出现了巨大变化。硬件端,相较于软件端的问题不断得到优化,机器人在下 肢行走和手部集成等方面上仍存在一定的硬件问题。
简而言之,我们认为,虽然硬件端的问题有待完善,但受益于产业维度的政策催化 和产品维度的软件优化,人形机器人产业应该会比之前的三个发展阶段“走得更快”, 更多的优秀产品也有望加速落地,推动人形机器人最终走向人类社会。
一是从数量维度来看,2023 年提出的相关文件明显要比往年更多,根据不完全 统计,今年出台的政策文件共计 6 份,而 2019-2022 年间共计出台的相关政策 文件才 8 份,能够正常的看到国家在对机器人产业的扶持力度上不断加码;
二是发布政策的部门由中央层面逐步扩散到地方层面,比如在 2019-2022 年, 发行部门均为包括发改委、工信部、科技部等部委级以上的单位,但是今年以 来,包括上海、深圳、北京等一线城市均出台了相关的机器人行动方案,我们 认为此举意味着各地政府开始深入落实国家对于机器人产业的支持指导,有望 加速机器人产业的落地,推动相关企业在主流城市的发展;
三是从政策的内容来看,今年以来出台的政策更多提及“人形机器人”这一概 念,而非笼统的“机器人”,比如北京的《行动方案》中,提及“对标国际领先 人形机器人产品,支持企业和高校院所开展人形机器人整机产品、关键零部件 攻关和工程化,加快建设北京市人形机器人产业创新中心,争创国家制造业创 新中心。”,可以看出,政策的重点从最初聚焦在传统工业机器人逐步扩散到人 形机器人上面。
进一步而言,即使是今年发布的机器人政策也呈现出显著变化。我们将北京市在 6 月 28 日发布的《北京市机器人产业创新发展行动方案(2023—2025 年)》,与之前 上海、深圳、山东等省市发布的有关政策作对比,可以发现,最明显的区别在于: 之前的政策更多是立足在顶层设计维度对机器人及人形机器人产业作出指导,对产 业在发展趋势上提供了建议,而北京的《行动方案》除了顶层设计外,特别地将人 形机器人产业链中重要的零部件单独提出来,包括减速器、伺服驱动系统、控制器、 传感器、末端执行器等,对其也同样提出了对应的指导意见。
我们大家都认为,北京的《行动方案》有着更为重要的意义,一是代表着产业政策从顶层 设计落脚到具体的产业链环节,为各地方政府对相关企业的扶持提供了更为明确的 指导和要求,加速具体细则的落地;二是重点提及人形机器人产业链中的关键环节, 对技术难度大且价值量高的零部件环节和公司可以提供支持,有望加强完善我国人形 机器人产业链,为后续产业链降本奠定基础,加速下游人形机器人产品的迭代和商 业化落地。
在人形机器人的产品层面,软件端的变化显得很突出,特别是 AI 技术的发展,逐 步渗透到机器人研发和生产中,并在算法训练、感知能力、人机交互等多重维度对 人形机器人产生重大影响。
在现实世界中构建机器人需要从头开始创建数据集,这样做既耗时又耗费成本,并 且训练速度较慢。研发人员为了降低成本并加快训练,逐步开始采用合成数据生成 (SDG)、预训练 AI 模型(pretrained AI models)、机器人仿真(robotics simulation)、 迁移学习(transfer learning)等一系列工具。而以英伟达、谷歌为代表的大厂近几年 在这些工具开发上均取得较好进展,为机器人客户在研发和训练上提供更为成熟的工具。
Isaac 是英伟达推出的一款专门用于机器人环境模拟的引擎,提供从数据合成和训 练、到仿真和测试的全流程配套支持,他融合了机器人相关的深度学习、强化学习、 SLAM、图像处理等的算法。基于英伟达强大的硬件支持,相较于此前常用的仿真 器(VREP、ROS 等),Isaac 在性能、算法、渲染效果、生态支持等维度都明显更为 出色。
数据合成:Isaac Sim 是英伟达的一个机器人模拟应用程序及合成数据生成的工 具,而 Isaac Sim Replicator 作为其中用于合成数据生成的引擎,可以生成物理 级精确的 3D 合成数据,用以加速 AI 感知模型的训练和性能。
模型训练:NVIDIA NGC 汇集了通过 GPU 优化的 AI 软件、模型和 Jupyter Notebook 示例,包括各种预训练模型以及为 NVIDIA AI 平台优化的 AI 基准和 训练方式。研发人员通过 NVIDIA NGC 选择正真适合的预训练 AI 模型后,通过 NVIDIA TAO 进行进一步的训练和微调(NVIDIA TAO 作为一个可使用自定义 数据训练、调整和优化的框架,使用 NVIDIA TAO 工具包能帮助研发人员微调 NVIDIA NGC 目录中的预训练 AI 模型)。
仿真和测试:研发人员利用仿真器,检测物体之间的潜在碰撞和识别碰撞 物体之间的接触点,并计算机器人的传感器信号,借此来构建虚拟场景,在这 个虚拟世界中,研发人员创建了机器人、环境和机器人可能遇到的其他资产 的数字版本。这些环境可以遵守物理定律,并模仿现实世界的重力、摩擦、材 料和照明条件。在所构建的虚拟场景中,研发人员通过此前搭建的预训练模型 进行运动规划和任务规划,并让机器人执行任务。在对虚拟场景中执行任务的 机器人进行多次试错和调整,以此一直在优化控制信号,从而验证和优化机器人 的设计、系统及其算法,为机器人在现实世界执行任务实现最高效率打下基础。
至此,英伟达的 Isaac 平台从数据合成、模型训练到仿真测试等提供了全流程的配 套支持,帮助机器人客户实现 0-1 构建一个机器人,并大幅度的降低了训练的成本和提 高了机器人训练的速度。
2023 年 6 月 20 日,发布名为 Robocat 的 AI 模型,作为世界上第一个能解决和适应 多种任务的模型,能安装在不同的现实机器人上使用。Robocat 是一个用于机器人 操作的能实现自我迭代的智能体,可以在虚拟和现实世界中实现多项任务,包括对 文字、图像、语音等的处理。Robocat 最大的特点是在于“自我迭代”,所谓的自我 迭代是指基于少数的源于现实世界的数据集,对该数据集进行微调后衍生出新 的数据集,将现实世界和衍生出来的数据集进行融合,并在此基础上进行新的训练,以此循环反复继而不断扩充智能体的学习数据。具体来说,每个新任务的学习遵循 5 个步骤:
1. 使用由人类控制的机械臂收集 100-1000 个新任务或机器人的演示;
2. 在这个新的任务/手臂上微调 RoboCat,创建一个专门的衍生代理;
3. 衍生代理在这个新任务/手臂上平均练习 10000 次,生成更多的训练数据;
4. 将演示数据和自生成数据整合到 RoboCat 现有的训练数据集中;
而且这样的“自我迭代”具备良性循环的训练:学习的新任务越多,它学习其他新 任务的能力就越好。RoboCat 的初始版本在以前看不见的任务上只有 36%的时间成 功,每个任务从 500 个演示中学习。但是最新的 RoboCat,它已经训练了更多样化 的任务,在相同的任务上,成功率增加了一倍多。
简而言之,RoboCat 作为目前为止机器人控制 AI 模型的“最优形态”,核心优势在 于在合成数据生成维度的跳跃式发展,能快速根据模拟和现实世界中收集到的图像 和动作数据来进行训练,大幅度的降低了机器人对新任务的学习时间和障碍,极大地提高 了训练效率。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
电话:0535-6530223 0535-6528584
钟克利:18615357959
唐伟华:18615357957
邮箱:info@hhmg.cn
地址:山东省烟台市楚凤二街4号