人形机器人发展突破路径明晰,与物理数据世界基础模型模型结合的视觉语言动作端到端大模型VLA是目前人型机器人走向AGI的解决方案;美国 Figure发布端到端VLA大模型Helix实现机器人多业务协同突破;智元机器人将于3月10日正式发布首个通用具身基座模型——智元启元大模型,将集 合采训推一体,小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等能力。Helix是一个通用的视觉-语言-动作(VLA)模型, 它统一了感知、语言理解和学习控制,具有高速连续控制、多机协作、强大的物体抓取能力、统一神经网络、便于商业化部署等多种特性,使机器人 可实现协作交互,完成分拣等家庭任务,克服了机器人技术中的多个长期挑战。
一、Figure端到端VLA大模型Helix,赋能机器人进入感知交互时代
1.1. Figure发布Helix,突破人形机器人瓶颈
Helix 在多个重要方面成功实现了行业首创,为机器人领域的发展树立了新的标杆。
➢ 高速连续控制:Helix是首个能够以高达200Hz的高频率对人形机器人的整个上半身进行连续控制的VLA。其控制范围极为全面,涵盖了手腕、躯干、头部乃至每个手指的灵巧动作。如此精细化且高频的控制,为机器人赋予了前所未有的灵活性和操作精度,这使得机器人能够更好地适应各种复杂的任务和环境。
➢ 多机协作:Helix 首次实现了两个机器人同时运行同一模型,并且能够协作完成涉及陌生物体的长时段任务。这种多机器人协作的能力,不仅拓展了机器人在实际应用中的功能,还为一些需要多人协作完成的复杂任务提供了新的解决方案,例如在物流仓库中协同搬运货物、在灾难救援现场共同完成搜索和救援任务等。
➢ 配备了 Helix 的 Figure 机器人具有强大的物体抓取能力。它能够仅仅依据自然语言指令,就抓取任何小型家用物体,甚 至包括数千种在其训练过程中从未出现过的陌生物品。这一能力的实现,得益于Helix 对自然语言的精准理解以及对视觉信息的高效处理,使得机器人能够迅速分析物体的特征和位置,并规划出合适的抓取动作,极大地提高了机器人在家庭环 境以及其他场景中的实用性。
➢ 单一组神经网络权重:Helix 仅使用单一组神经网络权重,便能够轻松应对诸如多机器人交互等多种复杂行为,并且在这 个过程中无需针对任何特定任务进行额外的微调。传统的机器人控制模型往往需要针对不同的任务分别训练不同的模型,这不仅耗费大量的时间和计算资源,而且在实际应用中缺乏灵活性。而 Helix 的这种创新设计,使得它能够凭借一套通用 的神经网络权重,快速适应各种不同的任务需求,大大提高了模型的通用性和效率。
➢ Helix便于商业化部署。Helix 在技术实现上具有显著的商业应用优势,它是首个完全在嵌入式低功耗 GPU 上运行的 VLA。这一特性使得它无需依赖高端且昂贵的设备,即可直接投入商业应用。嵌入式低功耗 GPU 的使用,不仅降低了硬件成本, 还提高了设备的便携性和稳定性。这意味着在实际的商业场景中,无论是在家庭服务机器人、工业生产辅助机器人还是其 他领域的应用中,都能够以较低的成本部署 Helix 模型,为机器人的商业化推广和广泛应用提供了有力的支持。
1.2 Helix的核心运行原理基于双系统协同架构、端到端训练优化与高效部署策略。◆Helix创新性地采用“System 1(S1)-System 2(S2)”分层架构,兼顾语义泛化能力与高频实时控制。
➢ System 1(S1):实时动作生成层。这是一个拥有 80M 参数的跨注意力编码器- 解码器Transformer,以 200Hz 的高 频接收来自 System 2(S2)的潜向量、实时图像及状态信息,进而输出涵盖手腕位姿、手指屈伸、躯干和头部姿态等 35 自由度的连续控制指令。其核心技术包含多尺度视觉编码器,该编码器可从图像中提取细节特征,以支持如抓取微小 物体这类精细操作;潜向量条件化技术则将 S2 的语义信息与视觉特征相融合,用以指导动作生成;任务完成度预测技 术可输出 “任务完成百分比” 作为终止条件,以此支持多行为序列化。这些核心技术赋予了 S1 显著优势,它能够实 现类似人类上半身的协调运动,例如让头部视线跟踪手部动作,还避免了传统高维控制中常出现的稳定性问题。
➢ System 2(S2):语义理解与规划层。其是基于互联网预训练的7B参数视觉语言模型(VLM),以7-9Hz频率处理图像、 机器人状态(如手腕位姿、手指位置)及自然语言指令,提取高层语义目标(如“将饼干袋递给右侧机器人”),并生 成一个连续潜向量(Latent Vector),编码任务相关的语义信息(如目标物体属性、协作意图),作为S1的调控信号。优势在于利用大规模预训练VLM的泛化能力,实现零样本(Zero-shot)跨物体、跨场景理解。
S2与S1协同。S2可以针对高层次的目标进行 “慢思考”,而S1则可以“快思考”,实时执行并调整动作。S1能够在保持S2 语义目标的同时,迅速适应协作机器人不断变化的动作。S2低频更新语义目标,S1高频调整动作,形成“慢思考-快执行” 闭环。此外,在训练时引入S1与S2的输入时间偏移,匹配实际推理延迟,确保部署时控制连贯性。
与现有的方法相比,Helix 的“S1-S2双层架构”具备速度高、泛化能力强、可扩展性、架构简洁、系统独立等关键优势。
➢ 速度与泛化能力:Helix 能对数千个新测试物体进行零样本泛化,且速度与专门的单任务行为克隆策略相当。
➢ 可扩展性:Helix 能直接为高维动作空间输出连续控制指令,从而避免了以往视觉语言动作(VLA)方法中所采用的复杂 动作标记方案。此前的那些方案在低维控制场景(如二值化的平行夹爪控制)中已取得一定成效,但在高维人形机器人 控制方面却面临着可扩展性难题。
➢ 架构简洁性:Helix 采用的是标准架构 —— 系统2运用的是一个开源且权重开放的视觉语言模型,而系统1采用的是一 种基于简单 Transformer 的视觉运动策略。
➢ 系统独立:将系统1和系统2解耦,能够独立地对每个系统进行迭代优化,无需受限于寻找统一的观测空间或动作表征。
◆Figure 收集多机器人、多操作员高质量数据集,构建严谨的数据处理与利用流程。Figure收集了一个高质量的多机器人、多操作员数据集,其中包含各种远程操控行为的数据,总量约为500小时。为了生成以自然语言为条件的训练数据对,Figure使用了一个自动标注的视觉语言模型(VLM)来生成事后指令。这个视觉语言模型处 理来自机器人机载摄像头的分段视频片段,并给出提示:“你原本会给机器人下达怎样的指令,才能让它做出这段视频中展示 的动作呢?” 为了防止数据污染,所有在训练过程中处理过的物品都不会用于评估。
◆Figure采用端到端模式训练Helix。Helix采用完全端到端的方式进行训练,通过标准的回归损失函数,将原始像素和文本指令映射为连续动作。梯度通过用于 指导S1行为的潜在通信向量从S1反向传播到S2,从而实现两个组件的联合优化。Helix不需要针对特定任务进行调整;它保持 单一的训练阶段和一组神经网络权重,无需单独的动作头或针对每个任务的微调阶段。在训练过程中,Figure在S1和S2的输入之间添加了一个时间偏移。这个偏移量经过校准,以匹配S1和S2在部署时的推理延迟差距,确保在训练中准确反映部署时的实 时控制要求。
◆Helix的训练设计使其能在配备双低功耗嵌入式GPU的Figure机器人上进行高效的模型并行部署。推理流程在S2(高级潜在 规划)和S1(低级控制)模型之间进行拆分,每个模型都在专用的GPU上运行。S2作为一个异步后台进程运行,处理最新的观测数据(来自机载摄像头和机器人状态)以及自然语言指令。它不断更新一个共享内存中的潜在向量,该向量对高级行为意图 进行编码。S1作为一个单独的实时进程运行,维持着流畅的上半身整体动作所需的关键200赫兹控制循环。它同时接收最新的观测数据和最新的S2潜在向量。S2和S1推理速度的固有差异自然使得S1在处理机器人观测数据时具有更高的时间分辨率,从而为反应式控制创建了一个更紧密的反馈循环。这种部署策略特意模仿了训练中引入的时间偏移,以最小化训练和推理之间的分布差异。异步执行模型允许两个进程以各自的最佳频率运行,使我们能够以与最快的单任务模仿学习策略相同的速度运行 Helix。
1.2 VLA可赋予机器人精准控制、灵活协作与强大抓取能力
◆细粒度VLA上半身控制实现精准协同
VLA(以Helix为例)以200Hz频率协调35自由度动作空间,能精准控制手指、末端执行器、头部及躯干动作。过去,头部与躯干控制因反馈回路易致不稳定,如今VLA可平稳应对,机器人能头部追踪手部、调整躯干抓取,且全程精确控制手指。以往,在高维动作空间实现此精度极难,而VLA系统(如Helix)不仅能实时协同,还可跨任务和物体泛化,这是先前VLA系统未做到的。
◆零样本多机器人协作展现VLA适应性与灵活性
VLA助力零样本多机器人协作。在双Figure机器人协作存储杂货这一挑战场景中, Helix表现出色。如机器人能操作训练中未见的全新杂货,展现对不同形状、大 小、材质物品的强大泛化能力。而且,两机器人用相同Helix模型权重,无需针 对个体训练或明确角色分配,通过自然语言提示(如“递饼干袋给右边机器人” 等)就能协同作业。这是VLA首次实现多机器人灵活、持续协作,且成功处理全新物品。
◆“拾取任意物品”能力凸显VLA语言到动作的转换优势
VLA赋予机器人“拾取任意物品”能力。配备Helix的Figure机器人,仅凭“拾取 [物品名]”指令,就能拾取各类小型家用物品。系统测试中,机器人成功处理杂 乱环境里数千种新物品,无需预先示范或定制编程。VLA代表Helix能有效连接互 联网级语言理解与精准机器人控制。比如,指令“拾取沙漠物品”,它能识别玩具仙人掌符合要求,还能操控最近的手精准抓取。这种“语言到动作”的通用抓取能力,为非结构化环境部署类人机器人带来新机遇。
1.3 端到端大模型VLA有望带领具身智能进入感知时代
Helix是第一个真正运行在人形机器人上面的端到端大模型。在Figure发布Helix大模型之前,端到端大模型主要运用于自动驾驶,人形机器人方面未使用此模型。端到端模型嵌入人形机器人是人形机器人行业的一大重要突破。
◆VLA(Vision - Language - Action 模型)是具身智能新范式,赋予机器人对复杂环境的解决能力。它能依据语言指令与视觉信号,直接生成机器人可执行动作。它打破单任务训练局限,推动机器人朝通用、泛化方向发展。VLA 模型整合视觉、 语言与行动决策,极大提升机器人对复杂环境的理解适应能力。这一新范式让机器人可在多样场景自主决策,灵活应对未知 环境,在制造业、物流、家庭服务等领域广泛应用,并且,它能适配机械臂、四足机器人等人形机器人平台,为智能机器人 发展带来巨大潜力与实用价值,是智能机器人领域关键驱动力。
◆由 VLA 构成的机器人系统主要涵盖视觉感知处理模块、语言指令理解以及生成机器人可执行动作的策略网络。根据不同需求,当前 VLA 主要分为三类范式:显示端到端 VLA、隐式端到端 VLA 以及分层端到端 VLA。
➢ 显示端到端 VLA 是最常见经典的范式,一般把视觉语言信息压缩成联合表征,再基于此表征重新映射到动作空间以生成 相应动作,该端到端范式借助先前广泛研究先验,通过不同架构(diffusion/transformer/dit)、不同模型大小、不同应用场景(2d/3d)以及不同任务需求(从头训 / 下游微调),衍生出各类方案并取得不错性能。
➢ 隐式端到端 VLA 与之不同,更注重工作可解释性,利用当前 video diffusion 模型预测未来状态,再依据未来状态按 逆运动学规律生成未来可执行动作,显式生成未来观测既提高了可解释性,也增加了避开机器人动作来扩展 VLA 模型的潜能。
➢ 分层端到端 VLA 则聚焦于充分发挥大小模型特点,在提升模型泛化性的同时保持对下游执行频率的高效性,近来成为研究热点。
二、智能驾驶端到端模型可迁移至具身智能,众多车企纷纷布局
2.1 汽车智能驾驶端到端模型可迁移至具身智能,均强调模型的泛化能力
传统自动驾驶系统采用模块化串联,存在信息传递损耗及延迟等问题。传统智能驾驶方案核心模块分为感知、定位、预测、决策和控制等,在模块上的划分使得每个模块的独立开发更加容易,在进行问题追溯时也更加简单快速。但传统方案面临每个模块的输入通常来源于前一传递过程中可能出现的损耗、计算延迟以及累积误差等问题,限制了模块及整个系统所能达到的灵活性和泛化性的上限。
端到端架构强调感知信息无损传递、可以实现自动驾驶系统的全局优化。车端智能驾驶系统朝端到端架构演进,与具身智能具有通用性。端到端模块化自动驾驶的核心在于不同子模型在各个模块中的嵌套与协同工作,随着Transformer架构等先进算的发展,模型间的界限正逐渐变得模糊。原本独立的子任务模型正逐步被更大规模的神经网络模型所取代,不断提升系统的能力上限。根据CSDN,VLA(Vision Language Action)具备高度的通用性,由于它是建立在一个通用的大规模预训练基础上,理论上具身智能经过微调后都可以使用相应算法。
2.2 大模型提升泛化能力,辅助端到端架构应用于具身智能领域
对于车端而言,大模型可提升智能驾驶泛化能力,辅助端到端架构逐步上车。大模型并非是实现端到端的必要条件,端到端的最终目的是让车辆能够 自主导航并安全行驶,而大模型为端到端实现提供了优良的可选方案。大型语言模型、大型视觉模型以及多模态大模型等基础模型可通过预训练获得 智驾相关的推理能力和丰富的知识,用于升级传统的基于规则的if-else系统。其出色的泛化能力能够应对自动驾驶技术发展中的挑战,提升在感知、 预测、规划等关键领域的性能,升级自动驾驶仿真和测试环节的技术手段。
对于机器人而言,大语言模型是人形机器人“大脑”实现智能化的关键。在人形机器人的应用中,大模型集成了多模态的感知模块,这些模型在自然 语言处理、计算机视觉、语音识别等领域展现出强大的语义理解、逻辑推理以及多模态学习等能力。结合端到端方案可直接处理多模态传感器输入并生成运动控制指令,打通了感知到控制的全流程,被视为人形机器人应用大模型的潜在主流技术路线,端到端架构与大模型的深度融合,有望推动人形机器人系统向更高水平的鲁棒性、效能和灵活性演进,显著增强其复杂环境适应能力与任务执行效率。
2.3 车企跨界竞速,机器人赛道开启 “狂飙” 模式
2.4车企跨界竞速,机器人赛道开启 “狂飙” 模式
2022年8月期间,小米亮相了其人形机器人产品CyberOne。CyberOne身高177厘米,体重52公斤,是一款具有高度仿生设计和强大运动能力的机器人。其智能和机械能力由小米机器人实验室全栈自研完成,研发难度较之前的机械狗更高。在全身控制算法方面,CyberOne配备16个关节,拥有 21个全身自由度,最高时速可达3.6km/h。其情绪感知模块包括显示模块、听觉传感器和视觉传感器,能够实现“视听显”多方面的功能需求。音频算法上,CyberOne支持85种环境语义识别和6类45种人类语义情绪识别。
2.5 车企跨界竞速,机器人赛道开启 “狂飙” 模式
上汽集团通过旗下全资子公司成立了赛创机器人科技有限公司。公司希望通过机器人企业的技术和创新能力,为自身的汽车制造与服务领域带来新的发展机遇。近年来,上汽集团在产业金融投资方面持续加大对人工智能、集成电路等“硬核科技”的关注。同时,上汽集团以投资机器人企 业的形式布局人形机器人,2024年3月,上汽创投参与人形机器人本体企业智元机器人的A3轮战略融资。除了上汽创投,上汽金控旗下私募股权 投资机构尚颀资本、恒旭资本也在加大对“投早、投小、投科技”的探索,积极布局新赛道。尚颀资本于2024年7月参与通用机器人初创公司逐际动力LimX Dynamics A轮战略融资,恒旭资本正在研究推进相关潜在标的。
车企布局机器人赛道,有望推动供应链降本与零部件复用
产品供应链重合度高,车端降本经验有望复用于具身智能。目前人形机器人与汽车的部分零部件具备一定技术相通性,二者在感知端的视觉、决策端的芯片以及执行端的丝杠等产品供应链重合度较高,汽车领域有产品和技术储备的玩家有望实现车端向人形机器人产业的延伸,对精度及轻量化进行针对性优化后有望持续推动人形机器人的产业化降本。
三、众多类型传感器广泛应用于人形机器人,是实现智能化的核心部件
3.1 传感器是人形机器人实现智能化的必要部件
◆传感器是人形机器人的核心部件,是人形机器人实现智能化的必要部件。人形机器人传感器是安装在人形机器人上,用于感 知外部环境和自身状态的设备。感知是人形机器人控制和执行的前提。传感器是一种检测装置,能感受到被测量的信息,并能 将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控 制等要求。感知层的传感器是软件控制和硬件零部件的桥梁,是物理世界与数字世界的接口,是实现具身智能的关键。
◆人形机器人的传感器几乎遍布机器人全身。人形机器人传感器包括视觉传感器、惯性测量单元IMU、力/扭矩传感器、触觉传 感器、位置传感器、听觉传感器、温度传感器、电流传感器、气压传感器等。其中最主要的是力矩传感器、触觉传感器和视觉 传感器这三大传感器。
3.2 特斯拉等头部人形机器人厂商均配置各类传感器
◆特斯拉
➢ 特斯拉的人形机器人(Optimus)在感知系统方面使用了一系列传感器来支持其功能和性能。
✓ 六维力传感器:Optimus最宝贵的传感器之一,主要用于精确测量力和力矩,Optimus使用了4个。
✓ 关节力矩传感器:用于检测和测量机器人关节处的力矩,Optimus使用了28个。
✓ 视觉传感器:包括摄像头和其他视觉组件,用于环境感知和导航,Optimus使用了3个。
✓ 惯性测量单元(IMU):用于检测和保持机器人的姿态,Optimus使用了4个IMU芯片。
✓ 触觉传感器:用于感知接触和物理交互,Optimus使用了10个。
➢ 先进性:具有移动中的灵活作业能力;一体化大模型趋于完善。
◆优必选
➢ 优必选的人形机器人(Walker S1)所拥有的传感器如下:
✓ 视觉传感器:集成化头部设计,配备双耳鱼眼相机,拥有 3D 立体视觉功能,可实现 360°多模态感知,Walker S1使用了2个。
✓ 触觉传感器:仿人灵巧手装备 6 个阵列式触觉压力传感器,可使其操作更加精准灵活。
✓ 力和力矩传感器:配置六维力传感器 4 个,其中脚部及手腕各 2 个。✓ 高精度姿态传感器:1 个。
➢ 先进性:具有面向通用任务的多模态规划大模型、语义VSLAM、学习型运动控制等具身智能关键技术。
◆宇树科技
➢ 宇树科技的人形机器人H1所拥有的传感器如下:
✓ 视觉传感器:配置3D 激光雷达1 个,用于环境感知和定位导航等;配置深度相机 1 个,与激光雷达配合实现 360° 全景深度感知。
✓ 力矩传感器:4个
➢ 先进性:H1 是国内第一款能跑的全尺寸通用人形机器人,也是全球同类规格中功率性能最高的机器人—— 94 斤、最大关节扭矩 360N.m。
3.3 力觉传感器-精密行动的关键
◆力矩感知不仅关乎机器人运动的稳定性和精确性,还直接影响机器人与环境的交互能力。力矩传感器能够实时测量机器人关节或末端执行器受 到的力和力矩,为控制系统提供关键的反馈信息;可以让机器人在执行操作时能够自主调整其姿态,从而确保操作的稳定性和精确度。
✓ 运动控制:力矩传感器通过感知机器人关节的力和力矩,实现精确的轨迹规划和运动控制。这使得机器人能够更加平滑、稳定地完成各 种动作。
✓ 姿态调整:根据传感器提供的力和力矩信息,人形机器人可以调整其姿态,确保与环境或目标的交互更加精确和安全。
✓ 平衡控制:实时感知机器人的重心位置和平衡状态,通过调整机器人的姿态和动作来维持平衡,防止因外部扰动导致的倾倒或失稳。
✓ 力反馈:在人机交互场景中,力矩传感器能够感知到机器人与人类之间的交互力,并将这些力学信息转化为电信号反馈给控制系统。这 有助于指导机器人的动作调整和姿态优化,实现更加自然、安全的交互体验。
✓ 数据采集:力矩传感器通过内部的传感元件将力和力矩的物理量转化为电信号输出,这些电信号需要被数据采集设备实时捕获,并传输 到计算机或数据处理系统中进行后续处理。
◆力矩传感器市场空间广阔。2021 年全球力矩传感器市场规模为 68 亿美元,2023 年达到 76 亿美元,年均增长率(CAGR)为 5.7%。预计到 2026 年将达到 90 亿美元左右。
力觉传感器技术壁垒极高
六维力矩传感器是性能最优、力觉信息最全面的力矩传感器,但六维力矩传感器技术壁垒极高,涵盖多 个方面。
◆制造难度较高六维力传感器要考虑多通道信号的温漂、蠕变、交叉干扰、数据处理的实时性,再加之六维联合加载标 定的复杂性除了传统力传感器的关键技术外,为了保证六维力传感器的稳定性和精确度,其核心技术包 括解耦方法、六维联合加载标定检测系统、降低零点漂移和温度漂移等。
◆结构解耦设计六维力矩传感器需同时测量三个方向的力(Fx、Fy、Fz)和三个方向的力矩(Mx、My、Mz),但由于各 维度间的力与力矩存在耦合干扰,如何实现精准解耦是核心难题。需通过结构设计(如竖梁、横梁或 Stewart并联平台)和算法优化,降低维间耦合误差。例如,结构解耦设计直接影响传感器的灵敏度、刚 度和动态性能。
◆标定与校准技术传感器在装配过程中所受外部接触力,需要消除六维力传感器系统自身误差以及装配轴重力作用两方面 的影响,需要通过标定与辨识算法。标定成本高、周期长,且需解决加载点随机变化带来的误差问题。并且标定程序对于传感器的精度也有一定要求。
◆高精度信号处理难度高传感器在使用中面临零点漂移与温度漂移问题,长期使用或环境温度变化时易出现信号漂移,可通过优 化材料稳定性和采用算法补偿(如温度补偿电路)来抑制;其抗干扰能力要求在小信号放大、电磁干扰 环境下保持高信噪比,这对电路设计和封装工艺要求极高;在动态性能方面,需在高频响应时保证精度, 如机器人关节力矩传感器需在毫秒级响应时间内完成数据采集与反馈 。
图:六维传感器结构示意图
四、灵巧手:对外交互的核心硬件模块,新变化孕育新机会
4.1 灵巧手是人形机器人对外交互的重要窗口,包含驱动/传动/感知三大细分模块
灵巧手是末端执行器的细分品类,在训练数据易得性、环境适应性等方面更具优势,是人形机器人的重要组成部分。灵巧手是典型的抓手类末端执行器,其形态和功能均类似人类手部,能够进行抓取、捏取等精细多样的操作,是人形机器人与外 界环境实现较好交互的重要窗口。
灵巧手的硬件模块包括三部分:驱动系统、传动系统及感知系统。驱动系统的核心作用是产生运动和力,传动系统将运动和 力从驱动系统传导至灵巧手各关节,感知系统提供灵巧手内部的运行状态及外部环境感知反馈。根据不同应用场景的特定需 求,在驱动结构、驱动方案、传动部件等方面存在多类不同方案。
4.2灵巧手在一定边界条件下追求“灵巧性、抓握力、精度”的提升
灵巧手诞生自上世纪70年代,朝着多自由度、集成化、仿生化发展。灵巧手概念自20世纪70年代产生,随着计算机技术等领 域的发展,朝着集成化、智能化、灵巧化方向持续迭代。灵巧手应用广泛,已在医疗、航空航天、工业等领域实现应用。灵巧手的硬件架构底层逻辑在于小体积/重量、低成本、耐用可靠的边界条件下追求“灵巧性、抓握力、精度”的提升。与通用自动化部件不同,人形机器人驱动器的硬件设计和制造需要适应小空间下的集成需求和功率密度需求。结合应用场景、对外交互等因素, 我们认为灵巧手的硬件架构选择核心在于在小体积&重量、低成本、可靠耐用的边界条件下, 追求灵巧性、抓握力、精度的提升。在现有硬件技术条件下,【灵巧性、抓握力、精度】这 三者需求往往存在互斥的情况,需要根据应用场景、远期优化空间等因素综合考量。
驱动结构:可分为全驱动/欠驱动结构,欠驱动方案应用更广泛
驱动系统是力量之源,产生运动和力,在驱动结构、放置方式、方案选型等方面均存在不同技术路线,但当前方案基本采用欠驱动下的电机方案。落实到电机选型上,可选方案包括直流无刷电机、空心杯电机及无框力矩电机,需根据不同场景的需求进行相应配置。
根据自由度、驱动源数量的关系,灵巧手驱动结构可分为全驱动及欠驱动:
• 全驱动灵巧手的驱动源数量等于自由度,操作更精巧,但体积、重量、成本存在劣势:全驱动灵巧手的所有关节均单独配置驱动器,每个手指关节均能独立控制,整手具备更强的精细操作能力。但全 驱动结构下,驱动器等硬件零部件用量更大,整手 成本更高、结构复杂、体积更大。
• 欠驱动灵巧手的驱动源数量少于自由度,在牺牲控制精度的情况下实现更优的体积、重量、成本,应用更为广泛:欠驱动灵巧手存在部分不配置驱动器的关节(多位于手指末端),进行耦合随动。该结构下驱动器少,结构简单下体积相应较小,成本也较低,且抓取包络性好。但对应的,欠驱动灵巧手的控制精度也较低。
放置方式:外置、混合置或为短期优解
按照驱动系统安装位置的差异,可分为:外置、内置、混合置。在现有电机技术下,内置方案下执行器数量增长往往对应着灵巧手本体重量及体积的增加,因此我们认为短期来看外置、混合置或为较优解,但未来随着驱动/传动系统出现新技术变革,内置亦有广阔发展空间。
• 外置是早期主要方案,但存在难控制、难维护等问题:外置方案下,驱动系统安装于灵巧手外部,需要用腱绳 连接驱动源与手指末端,可将灵巧手本体做小,采用体积、力矩更大的电机,但传感器难以直接测量手部状态,非模块化设计也导致后期维护困难。
• 内置随技术发展而逐步应用,但在自由度提升趋势下,可能会导致手部体积、重量的提升:即驱动系统安装于灵巧手内部,解决了外置存在的系列问题,但手部体积、 重量有所提升。
• 混合置结合内置、外置方案的优点,但仍需采用腱绳传动:驱动系统在本体及前臂均有安装,此模式下能够 结合内置、外置的优势,在提升手指输出扭矩的同时减 少本体体积,但由于部分执行器距离关节的位置较远,仍需采用腱绳传动。
方案选型:电机驱动更契合灵巧手的需求,为当前主流方案
• 电机驱动是当前时点最优方案,应用最为广泛:电机驱动通过电机产生力/力矩,直接或通过传动机构将力传导至关节促 其运动。在电气化率提高背景下,电能获取及储存相对容易且电-力的转化技术相对成熟,电机具有输出力矩稳定、精度较高、响应迅速、体积较小等优势,是当前时点的最优驱动方案。针对人形机器人第一性原理,电机未来或朝着减重 、提功率密度等方向发展。
• 气压驱动在精度、稳定性、体积存在一定劣势:气压驱动通过压缩空气产生的压强差作为动力源,兼具低成本、操作简 易、响应迅速、柔性强等优势,但气压受温度、海拔等因素影响,因此精度、稳定性相对受限,且该方案下的大体积架构 不利于远期集成化发展。
• 液压驱动输出力矩大,但同样在精度、体积等方面受限:液压驱动通过液体介质的静压力作为动力源实现驱动,输出力矩大。但其在体积、稳定性、液体泄漏/后期维护等方面存在劣势。
• 形状记忆合金驱动是新兴技术路线,在灵巧手应用相对较少:该方案通过变化温度来对形状记忆合金的形状、机械性能形成影响,其中镍钛记忆合金 材料应用最广泛。其兼具位移大、功率重量比高、 方向灵活度高等特点,但在成本、寿命等方面受限, 更适用于高速/高精度/小负载的装配场景。
电机选择:可选方案包括直流无刷电机、空心杯电机及无框力矩电机
• 直流无刷电机使用寿命、成本更优,但响应速度慢、体积大,适用于高功率密度、高负载的场景:其转子结构更稳固, 因此在稳定性、寿命更具优势,但其转动惯量较高,因此响应速度慢于空心杯电机。
• 空心杯电机的核心优势在响应迅速、能量转换效率高,但成本、输出扭矩存在劣势,适用于快响应、空间/能耗要求高的场景,是当前机器人电驱方案的主要选择:是微型伺服直流电机的一种,其最大特点是采用无铁芯转子,消除铁芯形成涡流而产生的电能损耗影响,同时重量、转动惯量显著更小,在响应速度、功率体积比、运行精度、效率等方面具备优势, 能量转换效率普遍超85%。但在输出扭矩等方面较其他两种方案存在劣势,所以常需要行星齿轮箱以提升扭矩,同时其杯型绕组成型工艺复杂,产品良率、成本存在劣势。
• 无框力矩电机:其可直接耦合,无需齿轮等传动装置即可驱动负载,具有低转速、大扭矩的优势,较空心杯电机具有一定成本优势。
· 钛祺智库·
1、如欲获取完整版PDF文件,可以关注钛祺汽车官网—>智库,也可以添加钛祺小助理微信,回复“报告名称:人形机器人行业深度报告:从硬件1.0走向智能交互2.0时代”
2、钛祺智库目前已收录2000+篇汽车行业最新技术报告,供行业朋友查阅、参考。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.