一村资本研究社 | 慧智硅基灵巧手:具身智能新纪元
2024-04-11 10:02:49 来源:今日热点网
上篇力求以通俗易懂的方式表达了我们对当前“模型周期”的研究与思考,包括不同模型的差异、功能、优劣势以及迭代规律,我们发现Agent很可能成为AI应用时代的核心要素与焦点。
而在这个演进的过程中,不可避免地涉及一个问题:这些算法、模型最终如何“行动起来”?我们发现具身智能也许不会以当前热门的人形机器人形式呈现,我们认为“人形”可能只是其中一种存在方式,或者甚至可能不以“人形”为表现形式。
根据小编目前的认知,无法明确描述出具身智能的具体表现形式,但这并不妨碍我们脑洞大开地去想象具身智能的能力!我们认为,具身智能最终会以某种超级硬件来实现各种模型、算法的融合与集成,即具身智能汇聚形成“终极集成大杀器”。举个例子,像智能汽车这个庞大的智能Agent中,智能底盘可能会是最大集成器;智能底盘会将算法、控制、运控、物理规则集于一身,解决软硬解耦的问题,实现一体化,统一协调并发号施令。在这个前提下,或许才能最有效地解决目前大模型无法很好应用于智能汽车上的问题,甚至可能是一个规律的本质问题。对于这颗“大Agent”的集成器,我们将在后续的文章中分享研究成果,这里不再详述。
所有模型算法将集中于具身智能这个“大杀器”中,它将能够实现各种异构数据的解耦、算法软件的统一标准(使用一种标准)、硬件的统一驱动,从而实现软硬件、AI以及外部环境(包括人文环境)的“同频共振”!
我们认为大模型和Agent离不开具身智能,而具身智能则离不开灵巧手。我们选择灵巧手作为首要研究领域的原因如下:
1、在拆解特斯拉机器人供应链后,我们发现灵巧手成本占比约31.64%;
2、“AI+机器人”的能力体现,在家庭还是工业等场景中,灵巧手扮演着重要的角色;
3、脚代表人类的运动能力,手代表人类的聪慧程度;而机器人灵巧手则代表着人类智慧的延续。
因此,本文将以灵巧手作为“载体”,展示我们对于机械硬件与软件载体的感悟与研究,为读者朋友提供对于AI+机器人的构想及思考鸣笛。
01 灵巧手的定义和发展历程
机器人灵巧手属于末端执行器之一,手指数目与人手类似,设定为3~5个,各手指具有3个关节。灵巧手的研究始于20世纪70年代,硬件端已经相对较为成熟了。比如,人类手部动作灵活多变,约有23个自由度,部分厂商的产品(例如Shadow Hand)已达到了接近人手的自由度水准。
02 灵巧手的“骨干”
硬件构件是灵巧手的“骨干”,主要分为传动方式、驱动方式、智能传感各个类别。硬件构件各细分体系经过多年的研究及发展已较为成熟,同时也衍生出“三个需求”,即国产替代需求逐步上升,成本下降需求不断加强,工艺要求不断提高。
灵巧手运动链接的“桥梁”
传动方式是灵巧手各部件运动链接的“桥梁”,传动方式的不断演进提高了灵巧手运作的效率及灵活性。现传动方式主要分为腱传动、连杆传动、齿轮传动。
腱传动:腱传动是最常用的灵巧手驱动方式,是模拟人手“肌腱”运动的重要传动方式,特斯拉Optimus、Shadow Hand、PISA/IIT SoftHand皆以腱传动为主。我们认为,腱传动是灵巧手未来的主流传动方式。
连杆传动:采用多个连杆串并联混合的形式传递运动和力矩,是现今灵巧手多采纳的传动方案。
齿轮传动:驱动器通过齿轮或蜗轮蜗杆将旋转变成直线运动,拉动驱动器和手指之间的弹簧来驱动手指产生动作。
灵巧手运作“发动机”
驱动方式是灵巧手运作的“发动机”,主要分为电机驱动、气压驱动、液压驱动。
电机驱动:电机驱动是灵巧手较为成熟且应用广泛的一种驱动方式,多采用直流电机,优点是稳定性高、响应速度快和精度高。
空心杯电机:被誉为电机领域“皇冠上的明珠”。空心杯电机没有铁芯,结构轻巧、体积小,功耗损失低。它能与灵巧手良好地匹配,目前是灵巧手主要采用的电机类型。
气压驱动:通过在管体中补充或排撤气体时,管体发生形变使手指产生弯曲运动进行驱动,成本低廉且在部分工业夹具中采用气压驱动。
液压驱动:当充液时,手指关节处的柔性流体执行器会驱动手指关节产生弯曲运动。当放液时,执行器内的压强减小,此时手指关节在关节处嵌入扭簧,产生的扭力作用下恢复到初始的状态。
灵巧手的“数据源头”
各类型传感器的不断丰富为灵巧手的智能迭代提供数据基础,各种传感数据的加持下,灵巧手的抓取精度、动作规划更加精确及智能。
触觉传感:触觉传感器主要覆盖于灵巧手指尖位置,部分厂家采用整手覆盖触觉传感器的方案。触觉传感器能为灵巧手在抓取、持物动作中提供数据信息,有效识别抓取物体的形状、特征,并决策抓取的力度、姿势。
近期,一种鲜为人知的传感器-视触觉传感器(GelSight)引起了我们的注意,GelSight是由“Gel”和“Sight”两个单词组成,Gel(凝胶)是传感器弹性接触表面使用的材料;Sight(视觉),是使用摄像头采集视觉图像。在GelSight接触物体时,内置摄像头在LED灯光的辅助下捕捉拍摄接触物体的凝胶产生的形变,通过计算机视觉的算法将凝胶形变信息与触觉信息进行整合映射。我们认为,这种将“视觉”和“触觉”形变巧妙结合的传感器将大有可为。我们大胆畅想,将近期获得快速发展的AI视触觉模型植入传感器中,这样传感器可与人手触觉类似获取法向力(垂直于皮肤)、切向力(平行于皮肤)、相对滑动和物体的位姿等触觉信息。
畅想《复仇者联盟》中,灭霸毁天灭地的手套(形似灵巧手),其实也是一个超级集成器。我们认为,“AI视触觉”便是赋予这个超级集成器无与伦比能力的重要“宝石”之一,理由如下:
1、以Sora、Gemini、llama为演进方向的大模型,本质上是要实现世界(物理)模拟器,但矢量感知、计算及决策是所有世界(物理)模拟器目前最欠缺的能力,而这个能力需要以AI视触觉的升级迭代、产品更新为核心,来补齐短板;
2、触觉的核心或许是“摩擦力”这种切向力的理解能力;
3、目前作为万物最具普适性触觉感知(如摩擦力)的表征方式或许是各种灵巧的触角,而对于人类而言,最容易联想到的就是手脚(当然此篇文章着重论述手部)。
力传感:力矩传感器主要分布于灵巧手的关节部位,用于提供灵巧手关节处收到的实时扭矩信息,这对于灵巧手稳定、灵活的抓取和操作来说是必需的。六维力传感器是维度最高的力觉传感器,可实时测量XYZ三个方向所受到的力和力矩。
位置及姿势传感:关节角位置传感器布置在灵巧手末端,通过获得关节角度位置,对抓取动作、姿势进行判断并执行。常用的角度位置传感器有电位计式传感器、编码器和磁敏传感器等。
03 灵巧手的“灵魂”
软件算法的嵌入使得机器人真正拥有“灵魂”,我们觉得灵巧手未来的发展核心是在抓取决策算法的演化。回顾我们的成长历程,当我们在牙牙学语、蹒跚学步时,我们对于物理世界的感知和探寻多数依靠手部的触摸、抓取和把玩实现,灵智的大脑赋予我们灵巧运用双手的能力。与我们智灵人类相比,机器人灵巧手的运动使用需要算法不停地进行“0或1”的转置-规划、协调和指挥。在此,我们通过介绍6个灵巧手典型算法模型,帮助大家了解灵巧手抓取算法的发展。
物体抓持定向
即依据特定的方式抓取物体;对于人类而言,物体(包括悬浮物体)的抓取方式自动在我们脑中形成思路,我们不假思索就知道如何抓取物体,甚至是悬浮在空中的物体。我们可以通过吊取、抓握等手势来克服物体向下的重力。对于灵巧手而言,这一切都需要算法统筹。源于MIT的团队使用强化学习进行训练并采用硬件成本不到5000美元的开源硬件设备,训练灵巧手在手朝上和手朝下的情况下,重新定向多个几何不规则的物体,并在定向过程中抵消重力,实现稳定控制。
扔接互传
扔接互传在人类活动中十分常见,尤其是球类运动中。但对于机器人来说,这不是一件容易的事:源于UCSD等高校团队发表了这一研究,机器人需要通过视觉传感器,高速判别物体运动轨迹并协调动作与各形状体互动。研究工作使用机械臂和Allegro Hands作为硬件系统,使用多智能体强化训练迁移并逐步泛化到与真实硬件设备进行结合。这项研究结果对于训练机器人的手部灵活操作以及快速反应活动奠定了基础。
机器人包饺子
UIUC和清华等高校团队合作了两个名为RoboCraft和RoboCook的项目工作,体现机器人运用多种工具完成“包饺子”的任务操作。RoboCraft使用RGBD视觉+图神经网络模型(GNNs),通过获取底层系统结构及运动测算,将学习及拟合的模型与预测控制算法(包括使用模具的算法)相耦合,来规划机器人的行为,完成“包饺子”等复杂任务,模型同时具备泛化到其他复杂任务的能力。
切割系统训练
源于哥伦比亚等高校团队,做了一个很有意思的研究,试用机械臂及工具进行切割操作训练,用于结构材质软硬相间的物体(例如,软外皮中带有硬核的水果,如核桃或芒果)进行切割操作。目标是通过切割过程中不断规划调整,去除物体的软部分,遇到硬核部分调节切割路径,保留刚性部分。
远程操作+端到端模拟
一套低成本遥操作系统ALOHA近期在互联网引发广泛热议。ALOHA采用自定义远程操作+端到端模仿学习。他们开发使用ACT算法-基于变换器的动作分块,通过数分钟的演示数据以及操作训练的情况下学会,如叫电梯、开柜门、擦桌子、插入电池等难度较大的任务,成功率达到80-90%。
据了解,国内初创企业自变量机器人(X Square)也实现使用低成本硬件,完成对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务。
触觉传感+灵巧操作
UCSD团队提出了Touch Dexterity模型,使用触觉数据实现机器人手部灵活操作。与部分厂商类似,机器手的掌部和手指上安装了16个FSR触觉传感器,只显示接触与否信号。该模型使用触摸信息辅助控制进行手上的物体旋转及操作,并泛化到不同形状物体上。(部分厂商认为,没有触觉信息的灵巧手是没有“灵魂”的,多种传感形式的触觉传感器接下来会在灵巧手广泛运用)
04 灵巧手业界翘楚
在灵巧手领域,国内外诸多企业都在奋力拼搏,力求突破。让我们一起来看看这些"选手"的独特亮点:
1. 某机器人公司:这家中德合资公司深耕机械臂和灵巧手多年,尤其在力控和操作系统上颇有建树。德国人严谨的工匠精神,或许是他们技术过硬的"秘诀"。
2. MD机器人:前不久,一款酷炫的人形机器人让项目一夜"出圈"。装卸搬运、递送服务……这双灵巧的机械手,能让机器人胜任更多任务,改变生活。
3. SY机器人:切入微型电机,在力矩控制上精益求精,进而延伸至灵巧手领域。团队善于在细分市场深耕,未来必将开枝散叶、硕果累累。
4. SYHY团队:他们将灵巧手与类脑智能"联姻",探索大脑奥秘,优化控制算法。这种跨界融合的思路,值得业界关注与学习。
5. CR机器人:该公司专注气动夹具,广泛应用于工业场景,是提升生产效率的"神器"。公司在细分领域持续发力,必将继续绽放异彩。
6. 月泉仿生:向大自然学习,充分汲取灵感。月泉仿生对人手结构和运动规律有着深入研究,这为设计机器人手提供了宝贵的借鉴。
05 感悟与体会
我们认为近年来AI人工智能领域的突破推动了灵巧手往智能化、拟人化的方向不断发展。作为“第二大脑”,人手点亮了人类时代的智慧星辰;而灵巧手作为具身智能的末端执行器,或许能够推开“硅基智能”的大门。本文是我们在AI领域探索感悟的续章,也是我们对具身智能、灵巧手和AI触觉的领悟和体会。我们将持续不断深耕研究,挖掘最先进和前沿的的赛道资讯,并期待与对此感兴趣的朋友们进行更多的交流和探讨。
对具身智能、AI衍生机会的研究,一直是淞灵团队的坚守与渴望,我们希望能与全球优秀的创业企业家、科学家保持交流与互动,在淞灵“感知”→“思考”→“行为”周期不断积累形成自己的长期生态体系,这些都离不开优秀科技人才、企业家对我们的帮助,欢迎大家联系我们,保持交流!
References:
1. "Visual Dexterity: In-hand Dexterous Manipulation from Depth", by Tao Chen, Megha Tippur, Siyang Wu,Vikash Kumar,Edward Adelson,Pulkit Agrawal
2. “Dynamic Handover: Throw and Catch with Bimanual Hands”,Binghao Huang*, Yuanpei Chen*, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, Xiaolong Wang, CoRL 2023
3. “RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects with Graph Networks” byHaochen Shi*, Huazhe Xu*,Zhiao Huang, Yunzhu Li, Jiajun Wu,RSS 2022
4. “RoboNinja: Learning an Adaptive Cutting Policy for Multi-Material Objects” by Zhenjia Xu, Zhou Xian, Xingyu Lin, Cheng Chi,Zhiao Huang, Chuang Gan, Shuran Song,RSS 2022
5. Learning Fine-Granined Bimanual Manipulation with Low-cost Hardware, byTony Z. Zhao,Vikash Kumar,Sergey Levine,Chelsea Finn, RSS, 2023
6. “Rotating without Seeing: Towards In-hand Dexterity through Touch." by Zhao-Heng Yin*, Binghao Huang*, Yuzhe Qin, Qifeng Chen, Xiaolong Wang, RSS 2023.
7. 公众号-机器人大讲堂
8. 公众号-银创智库
9. 公众号-石麻笔记
10. 公众号-机器之心公众号
11. 企业- X Square、月泉仿生
12. 光大证券_《人形机器人行业系列报告(二):动力、传动、传感:灵巧手分析框架与零部件选型》
13. 德邦证券_机械设备_《人形机器人深度系列报告:机器人运动的“心脏”,电机》
14. 信达证券_机械设备_《机器人系列报告(三):人形机器人打开丝杠成长空间,国产替代有望加速》
15. 东方证券_机械设备_《人形机器人系列报告:灵巧手与传感器,拟人化与智能化》
关于一村淞灵
一村淞灵是一村资本位于深圳的全资子公司,专注AI早中期投资,打造淞灵AI生态朋友圈。
关于深圳一村淞灵私募创业投资基金管理有限公司(简称“一村淞灵”或“公司”)一村淞灵成立于2013年,是一家位于深圳的长期聚焦人工智能、数字经济的私募股权投资管理机构。自成立以来,以其深植产业的投资逻辑、成熟专业的投资能力,公司先后发起并受托管理了国家科技部、国家发改委、深圳市引导基金、青岛市经信委、深圳市天使引导基金、前海引导基金等多支政府参股基金,在管资产规模达20亿元。
通过践行产融结合的投资策略和管理模式,经典案例包括:生命科学智造企业华大智造、医药数字化平台“药师帮”、光电半导体企业“纵慧芯光”、全球领先的AI视觉服务商“视比特机器人”、全栈式3D视觉解决方案提供商“光鉴科技”、致力于颠覆式创新的AI芯片设计商“墨芯科技”、专注于云计算和数据中心数据处理器芯片(DPU)和解决方案的领先半导体公司“云豹智能”。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
关键词:
相关阅读