纽约大学冲破:接触点指令提拔机械人物理世界
发布日期:2026-02-21 22:20 点击:
持久使命规划取技术组合是实现更复杂机械人行为的环节。研究若何更无效地组合原子技术,以及若何处置技术组合中的失败恢复,将使系统可以或许处置更具挑和性的现实世界使命。
为了最大程度地削减数据收集取现实摆设之间的差别,研究团队设想了一套奇特的数据收集东西。这个东西的精妙之处正在于它既适合人类手持操做,也能间接安拆到机械人上利用,就像是一把既妙手持又能机械操做的全能钥匙。
对于抓取使命,仿线个Objaverse资本的物体库中随机采样,生成各类姿势和陈列的物体设置装备摆设。对于和封闭使命,系统可以或许正在运转时法式化生成带有随机几何参数的门和抽屉。每个使命还会随机化概况纹理并添加干扰物体,进一步添加场景复杂度。
这个手持夹具采用了轻量化设想,几乎完全由3D打印部件形成。夹具的触发器设想得合适人体工程学,让数据收集者可以或许长时间利用而不感应委靡。更主要的是,它的玲珑尺寸使其易于照顾,研究者能够随时随地收集数据,大大添加了数据的多样性。
研究团队发觉,大都失败是因为验证器的误判导致的。当策略现实上曾经部门完成使命时,验证器可能错误地判断为成功,导致后续步调呈现硬件碰撞。这个发觉指出了当前系统的改良标的目的:需要更切确的使命完成验证机制。
正在抓取使命评估中,系统正在五个完全目生的场景中面临25个从未见过的物体,单次测验考试成功率达到了83%。当插手验证器指导的沉试机制后,成功率进一步提拔至90%。这种机能程度曾经接近人类正在雷同前提下的表示。
基于这些失效模式的发觉,研究团队对数据处置流程进行了针对性改良。例如,当发觉某个查抄点存正在大量举升不脚失败时,他们引入了静态帧过滤机制,移除了演示数据中那些夹爪接触后几乎没有活动的片段。
A:接触锚定策略间接告诉机械人正在三维空间中取接触的切确,避免了言语的笼统性问题。言语描述往往缺乏机械人需要的切确空间消息,而接触点供给了切当的物理坐标,让机械人能更精确地定位和操做物体。研究显示这种方式比现有的视觉言语行为模子机能超出跨越56%。
和封闭使命的成果同样令人鼓励。正在面临五个分歧的柜门和五个抽屉时,系统的单次成功率别离达到了81%和96%。插手沉试机制后,这两个数字别离提拔到91%和98%。出格是封闭使命的近乎完满表示,展现了接触锚定方式正在需要切确定位的操做中的劣势。
验证器指导沉试机制的端到端集成代表了一个现实的改良标的目的。当前系统依赖外部验证器来决定能否沉试,将这种能力间接集成到策略中,通过实正在世界或仿实强化进修来实现。
分歧机械人平台的活动学差别需要特地的适配层。虽然策略输出同一的结尾施行器空间活动号令,但每个机械人需要本人的逆活动学求解器将这些号令转换为关节空间节制指令。研究团队为每个测试平台开辟了特地的节制接口。
跨具体实现的泛化能力测试进一步证了然这种方式的通用性。除了次要的Stretch机械人平台外,研究团队还正在Franka FR3、XArm 6和Universal Robotics UR3e上评估了统一个策略查抄点。仅需适配机械人夹爪安拆和逆活动学节制器,无需任何模子沉锻炼,系统就能正在分歧机械人上实现相当的机能程度。
接触锚点的空间暗示和坐标变换是系统的焦点手艺挑和。正在推理过程中,系统需要持续接触锚点正在挪动相机坐标系中的。这通过机械人正向活动学实现,比视觉惯性里程计供给更高的精度。
成果显示,仿实中的机能排序取现实世界的表示高度分歧。这种强相关性证了然EgoGym做为开辟东西的无效性:研究者能够通过仿实快速筛选和改良策略,而不需要进行高贵的现实世界测试。
接触锚定策略的立异之处正在于跳过了言语这个两头环节,间接为机械人供给物理世界中的切确坐标。这就像是给机械人安拆了一个物理GPS,告诉它切当的接触。每个接触锚点都是一个三维空间中的坐标点,标了然机械人该当取发生接触的精确。
为了加快开辟过程,研究团队还建立了一个轻量级的仿实EgoGym。这个仿实就像是机械人的场,虽然正在视觉逼实度上做了,但正在场景多样性和施行速度长进行了优化。这使得研究团队可以或许正在摆设到现实世界之前,快速识别失败模式并改良模子和数据集。
仿实到现实的迁徙能力还有很大的改良空间。虽然EgoGym曾经展现了优良的相关性,但进一步缩小仿实取现实之间的差距,出格是正在接触动力学和材料属性建模方面,将使仿实阐扬更大的感化。
策略进修利用了Vector-Quantized Behavior Transformer架构,这是一个两阶段的进修系统。第一阶段利用VQ-VAE进修动做的离散暗示,第二阶段锻炼自回归transformer预丈量化后的动做序列。这种设想比拟扩散模子愈加曲不雅,而且可以或许发生更小、更快的模子。
正在数据收集过程中,夹具的手动触发器节制着夹爪的开合。当摆设到机械人上时,同样的夹爪模块由伺服电机驱动,但机械布局连结完全分歧。这种同一设想确保了从人工演示到机械人施行的无缝过渡。
最环节的消融尝试验证了接触锚点的主要性。研究团队锻炼了一个仅利用RGB图像输入的对照模子,正在封闭使命长进行测试。虽然封闭使命的方针正在视觉上很是较着,纯视觉模子的成功率仅为58%,而包含接触锚点的完整模子达到了96%。这个庞大的机能差距清晰地展现了物理接触消息的价值。
锻炼数据的质量阐发也发生了主要洞察。通过比力分歧锻炼阶段的模子机能,研究团队发觉数据多样性比数据量更为主要。正在不异的锻炼时间内,利用更多样化和对象收集的数据可以或许发生更好的泛化机能。
说到底,接触锚定策略的成功证了然一个主要概念:有时候最好的处理方案不是让机械人变得更像人类,而是让机械人以最适合它们的体例理解和操做物理世界。通过间接利用物理接触消息而不是依赖言语笼统,这种方式为建立更高效、更靠得住的机械人系统斥地了一条新径。对于那些但愿正在无限资本下开展机械人研究的团队来说,这项工做供给了一个既适用又无效的处理方案。跟着更多研究者采用和改良这种方式,我们有来由等候机械人正在日常中的表示将会有质的飞跃。
为了确保评估的客不雅性,研究团队还取三个外部机构合做进行了验证。Hello Robot、大学分校和AI2的研究者别离正在各自尝试室中复现了尝试,成果取内部评估高度分歧,证了然系统的不变性和可复现性。
接触锚定策略的实现涉及多个手艺层面的细心设想,每个环节都颠末深图远虑的优化。正在数据预处置阶段,系统需要处置RGB-D图像的尺寸调整和数据加强,出格是程度翻转加强帮帮策略理解摆布对称性。
为了深切理解接触锚定策略成功的环节要素,研究团队进行了系统性的消融研究。这些尝试就像是拆解一台细密机械,一一查抄每个部件的感化。
仿实还支撑分歧的机械人具体实现和动做空间设置装备摆设。研究者能够选择利用接触锚定策略具体实现或DROID具体实现,动做能够是相对的或绝对的。还能够包拆视觉言语模子以供给非,支撑Moondream、Gemini-Robotics-ER-1。5和Molmo等多种模子。
为了验证EgoGym仿实对现实世界机能的预测能力,研究团队进行了一项细心设想的单盲相关性研究。他们选择了四个分歧机能程度的抓取策略查抄点,让不晓得仿实成果的评估者正在现实世界中测试这些模子。
最初,这种方式的理论根本值得更深切的研究。理解为什么物理接触消息比笼统言语指令更无效,以及这种方式的理论极限正在哪里,可能为机械人进修理论供给新的洞察。
多机构的评估验证了系统的摆设稳健性。Hello Robot、大学分校和AI2的研究者都成功复现了尝试成果,证明系统不依赖于特定的硬件设置装备摆设或前提。这种可复现性对于科学研究和现实使用都至关主要。
这种仿实驱动的迭代开辟方式显著加快了研究历程。保守的机械人进修研究往往需要正在每次模子点窜后进行大量的现实世界测试,成本昂扬且耗时漫长。EgoGym使得研究团队可以或许正在现实世界摆设之前快速验证和改良策略。
正在桌面清理使命中,机械人需要识别桌上的多个物体并将它们一一挪动到垃圾桶中。这个使命的不只是单次抓取的能力,还有序列规划和的能力。系统成功地完成了所有物体的搬运,展现了抓取策略的不变性。
跟着机械人的挪动,系统会持续这个接触锚点正在相机坐标系中的。这种机制确保了机械人一直朝着准确的接触点前进,即便正在挪动过程中视角发生变化也不会丢失标的目的。
这个发觉了当前视觉言语模子正在复杂场景中的局限性。就地景变得拥堵时,模子更容易被干扰物体,选择错误的接触点。这种阐发为将来的改良标的目的供给了明白:需要更强大的视觉理解能力来精确识别方针物体。
EgoGym基于MuJoCo物理引擎建立,正在视觉逼实度和施行速度之间做了衡量选择。研究团队认识到,对于验证泛化能力而言,场景的多样性比视觉的逼实度更为主要。因而,他们将计较资本更多地投入到生成丰硕多样的测试场景中。
保守的机械人锻炼就像是让一个盲人通过别人的来进修若何切确操做物体。目前支流的机械人策略都成立正在大型言语模子的根本上,通过天然言语指令来指导机械人行为。然而言语做为机械人消息前言存正在着致命缺陷:言语过于笼统,难以传达机械人需要的切确空间消息,并且理解言语需要复杂的模子规模,这些模子充满了对机械人而言完全无用的消息,好比地球到月亮的距离。
夹具配备了一个刚性安拆的iPhone 13 Pro做为次要传感器套件。这个选择看似简单,现实上很是伶俐:iPhone不只供给了高质量的RGB-D图像流,还通过ARKit手艺供给了切确的6度相机姿势消息。这种集成设想确保了数据收集和机械人推理利用完全不异的察看空间。
这种方式的焦点雷同于一个孩子若何利用东西。取其说请拿起阿谁红色的杯子,不如间接指着杯子的把手说正在这里抓住。研究团队将这种曲不雅的指点体例为机械人可以或许理解的三维坐标系统,让机械人可以或许切确定位该当取物体发生接触的。
策略进修中的双模态决策机制是一个值得深切研究的问题。接触锚定策略同时依赖视觉消息和接触消息,理解这两种模态若何彼此感化以及系统若何衡量它们的主要性。
接触锚定策略的模块化设想为实现复杂的持久操做行为斥地了新的可能性。研究团队展现了若何将这些原子级技术组合成更复杂的使命序列,就像用简单的乐高积木搭建复杂的建建布局。
研究团队正在多个维度对接触锚定策略进行了全面评估,成果展示出了令人印象深刻的机能劣势。正在零样本泛化测试中,系统正在三个焦点操做使命上都表示超卓。
对于抓取和使命,系统会从动检测机械人夹具遏制收缩的时辰,这凡是意味着夹具曾经取方针物体发生了物理接触。此时,系统会记实夹具核心点的三维坐标做为接触锚点。对于封闭使命,研究者正在数据收集过程中手动标识表记标帜接触时辰。一旦确定了接触锚点,系统会将这个消息向前到整个操做序列中,就像是为每一帧画面都添加了一个方针标识表记标帜。
保守机械人进修面对的最大挑和就像是让一小我仅凭文字描述来完成细密的手工操做。当我们说拿起桌子上的水杯时,这个看似简单的指令现实上包含了大量的恍惚消息:水杯的切当正在哪里?该当从哪个角度抓取?用多大的力度?这些环节的物理细节正在言语中往往被忽略或无法精确表达。
视觉夹爪形态估量采用了立异的SAM2朋分方式。系统正在每个视频序列起头时利用少量正负样本点提醒SAM2生成夹爪朋分掩码,然后计较摆布夹爪指尖的质心距离来估量夹爪开合度。这种方式避免了保守的机械传感器,完全依托视觉消息实现形态。
接触锚定策略做为一种新的机械人进修范式,为将来的研究斥地了多个令人兴奋的标的目的。这项工了然特地化的模块化方式能够正在资本受限的下实现强大的机能,这对于学术研究机构具有主要意义。
更令人惊讶的是,这种方式的效率远超预期。研究团队仅用23小时的人工演示数据就锻炼出了可以或许正在三个根基操做使命上表示超卓的机械人系统:抓取物体、以及封闭门和抽屉。正在零样本评估中,这套系统正在完全目生的和物体上的表示比最先辈的视觉言语行为模子超出跨越56%。这就像是一个只学了23小时的学生,正在测验中击败了那些进修了数千小时的同窗。
仿实还支撑大规模的消融研究,例如测试接触锚点正在干扰物体存正在时的鲁棒性。通过系统性地添加场景中的干扰物体数量,研究团队发觉具有接触锚点消息的策略连结不变机能,而依赖视觉言语模子生成接触点的策略机能会随干扰物体添加而下降。
视觉编码器的预锻炼也是机能的环节要素。研究团队利用MoCo自监视进修方式正在收集的演示数据上预锻炼ResNet-50从干收集。这种使命特定的预锻炼比利用通用预锻炼权沉可以或许获得更好的机能。
正在具体实现上,这套系统采用了一种巧妙的后见之明标注方式。正在收集锻炼数据时,研究者会记实整个操做过程,然后回过甚来标识环节的接触时辰。这就像是旁不雅一场出色的乒乓球角逐后,回放环节的击球霎时并标识表记标帜球拍取球接触的切确和时辰。
研究团队还比力了分歧视觉言语模子生成接触锚点的机能。他们测试了Gemini-ER、Moondream和Molmo等多个模子,发觉这些模子正在简单场景中表示相当,但正在复杂场景中的鲁棒性存正在差别。这种比力研究为选择合适的视觉组件供给了根据。
更有价值的是,仿实还可以或许供给细致的失效模式阐发。通过正在仿实中施行大量试验,研究团队识别了五种次要的失型:空抓取、接触但未抓取、抓取错误物体、举升不脚和成功完成。这种细粒度的阐发帮帮研究者理解策略的具体弱点。
另一个主要的消融研究关心了视觉干扰对分歧策略的影响。研究团队正在EgoGym中系统性地添加场景中的干扰物体数量,从一个方针物体添加到五个物体的夹杂场景。成果显示,利用接触锚点消息的策略机能连结相对不变,而依赖视觉言语模子生成接触点的策略机能跟着干扰添加而显著下降。
A:研究团队仅用23小时的人工演示数据就锻炼出了可以或许处置抓取、和封闭三种根基操做的机械人系统。这比保守方式需要的数千小时锻炼数据大大削减。此中抓取使命用了16。3小时数据,使命4。7小时,封闭使命2。0小时,展示了极高的数据效率。
正在咖啡豆获取使命中,机械人需要施行一个四步序列:柜门、抓取咖啡豆袋、将袋子放到桌上、封闭柜门。每个步调都由响应的接触锚定策略模块处置,而高级视觉言语模子充任协调者,决定何时挪用哪个技术模块。
研究团队出格沉视数据的多样性收集。他们正在424个分歧的中收集了跨越20000个演示,涵盖了各类照明前提、布景芜杂程度和使命对象形态。这种多样性就像是为机械人供给了一本丰硕的操做百科全书,让它可以或许应对各类意想不到的环境。
这种多样性驱动的设想使得EgoGym可以或许快速策略的弱点。若是一个策略正在多样化的仿实中表示优良,那么它更有可能正在实正在世界中成功泛化。研究团队将EgoGym间接整合到锻炼轮回中,可以或许屡次评估查抄点以检测过拟合现象。
正在推理阶段,系统需要一个初始的接触锚点来启动操做。这个锚点能够通过多种体例获得:用户能够手动点击方针物体,或者系统能够挪用现成的视觉言语模子,通过文本提醒从动识别方针。一旦获得了二维像素坐标,系统就会连系深度消息将其转换为三维空间中的接触锚点。
iPhone使用的开辟展现了轻量级摆设的可能性。因为模子只要5200万参数,它可以或许正在现代iPhone的神经引擎上及时运转。这个使用利用ARKit进行姿势,用户触摸屏幕供给接触调理,系统及时显示预测的夹爪活动和方针。
多接触点使命代表另一个主要的研究标的目的。某些操做可能需要同时正在多个成立接触,或者需要接触点的分布而不是单一点。这种扩展需要从头设想接触暗示和策略架构,可能涉及接触分布的建模。
将接触锚定策略从尝试室摆设到现实机械人系统需要处理多个工程挑和。系统需要正在分歧硬件平台上连结分歧的机能,同时满脚及时性要求。
系统的容错机制包罗多个层面的。软件层面有非常动做过滤和告急遏制机制。验证器模块持续使命施行形态,正在检测到非常时可以或许及时介入。
为了加快模子开辟和失效模式识别,研究团队建立了EgoGym仿实。这个的设想哲学雷同于汽车工业中的风洞尝试室:虽然不克不及完满复制实正在世界的所有细节,但可以或许快速测试环节机能目标。
模子参数的选择颠末大量尝试优化。抓取模子利用16个码本大小的VQ-VAE,而和封闭模子利用32个码本大小。这些看似细微的差别现实上对最终机能有主要影响。进修率、批次大小和锻炼步数都针对每个使命进行了精细调整。
这种东西挪用方式的环节劣势正在于其模块化和可扩展性。每个根本技术都颠末充实锻炼和验证,当它们组合正在一路时,全体系统的靠得住性获得了保障。这就像是锻炼有素的专业团队,每个都通晓本人的职责,团队协做时可以或许阐扬出更大的效能。
正在Stretch机械人上,策略间接正在搭载Intel NUC的板载CPU上以2Hz频次运转推理。这种边缘计较方案避免了收集延迟,提高了系统的响应性和靠得住性。对于固定臂机械人如Franka和XArm,系统正在NVIDIA RTX A4000 GPU上运转,获得更高的推理速度。
夹爪设想采用了角形双指机构,可以或许发生更大的夹持力并处置小物体。机械人版本的夹爪配备了和婉的可回驱手指和可变形的泡沫衬垫,确保可以或许不变抓取各类刚性和可变形物体。这种设想考虑了实正在世界物体的复杂性和多样性。
研究团队还采用了一种奇特的模块化设想思。他们没有建立一个试图处理所有问题的复杂通用模子,而是将系统拆分为一系列特地的适用模子库。每个模子就像一个专业工匠,专精于特定的操做技术。这种设想不只提高了效率,还使得系统更容易和改良。
当前机械人进修范畴面对着一个看似矛盾的现象:我们投入了数千小时的人工数据收集、复杂的GPU集群以及成千上万次的现实世界评估,但机械人的泛化能力仍然不如一个小孩或家养宠物。这种庞大的资本投入取无限报答之间的对比,促使研究者们起头从头思虑当前的手艺径。
A:能够。研究团队正在Stretch、Franka FR3、XArm 6和Universal Robotics UR3e等分歧机械人平台上测试了统一个策略模子,仅需适配机械人的夹爪安拆和节制接口,无需从头锻炼模子就能实现相当的机能。这种跨平台兼容性是该方式的主要劣势之一。
验证器指导的沉试机制正在持久使命中阐扬了主要感化。当某个步调失败时,系统可以或许识别失败并从动沉试,而不是放弃整个使命序列。这种容错能力对于现实使用至关主要,因实世界的不确定性老是存正在的。
取现有基准的对比愈加凸起了接触锚定策略的劣势。正在抓取使命上,系统显著超越了AnyGrasp基准47%和π0。5-DROID基准56%。正在使命上,系统比Stretch-Open基准超出跨越33%。这些对比成果表白,用物理接触消息指点机械人比保守的言语指点方式愈加无效。
这项由纽约大学、大学伯克利分校、大学分校、Hello Robot公司、AI2研究院和滑铁卢大合完成的研究颁发于2026年2月,论文编号为arXiv!2602。09017v1。有乐趣深切领会的读者能够通过该编号查询完整论文。
面临这一窘境,研究团队提出了一个看似简单却极具性的处理方案:用物理接触点替代天然言语做为策略调理前言。他们开辟的接触锚定策略系统就像是为机械人供给了一套全新的感官言语——不再依赖笼统的言语描述,而是间接告诉机械人正在三维空间中的哪个具体取发生接触。


