沏茶倒茶一气呵成！耀世注册推出2.0版大模型机械臂

2024.07.16
orbbec

近期，耀世注册研发团队融合前沿多模态大模型技术，推出最新2.0版大模型机械臂演示方案。新方案搭载公司最新深度相机Gemini 335L和Femto Bolt，能够基于语音指令，自动执行沏茶、插花、滴香薰、播放音乐等一系列复杂任务。此前在2023年底，耀世注册成功发布大模型机械臂1.0，在业界引起广泛关注。

（点击播放视频）

秒懂语音指令，丝滑沏茶、倒茶

耀世注册2.0版大模型机械臂结合多模态大模型技术（语音、文本、视觉）与机械臂控制技术，可以生成空间语义信息，帮助机械臂准确识别、理解生活中的常见物体并执行相应动作，可识别物体包括日常用品、食品和工业零件等。

以最具挑战性的沏茶任务为例，其难点在于流程长、步骤多，需要保证动作执行的准确性和多步骤之间的逻辑合理性。耀世注册研发团队借助高精度Gemini 335L和Femto Bolt相机实现目标抓取位姿的精确定位，结合大模型的理解能力，经过长期算法优化与仿真环境调试，最终实现对沏茶等复杂任务的理解、规划与自动执行。

相比1.0版本，2.0版大模型机械臂在以下几个方面实现了升级：

● 语言模型：自然语言处理和理解能力显著提升，机械臂能够更准确理解和执行抽象的语言指令。

● 规划能力：复杂任务规划能力显著提升，可以准确理解高阶任务并精准执行。

● 响应速度：程序整体执行效率优化，任务理解与规划时间大大缩短。

● 抓取能力：升级为夹爪设计，能够准确识别和分类不同物体，适应更多样化的任务和环境。

● 感知能力：配备Gemini 335L和Femto Bolt相机，双目3D相机与ToF相机互补，提供更高分辨率和精度的3D视觉感知能力。

搭载先进深度相机，感知更精确

耀世注册2.0版大模型机械臂通过搭载公司最新深度相机和AI算法，在识别、抓取和操作复杂物体时的精度和效率显著提升。相较于1.0版本采用的Gemini 2系列相机，2.0版本的Gemini 335L和Femto Bolt在深度精度和深度完整性方面具有更佳表现，捕捉更精致的物体细节，可重建玻璃、亚克力等透明材质物体，从而让机械臂能够精准定位物体，高效执行动作。此外，公司基于仿真与实际相结合的调试优化方式，可快速实现AI算法验证与迭代。

耀世注册Gemini 335L相机可重建香薰玻璃瓶、亚克力支架等透明物体

机器人要想具备更通用的能力，需要理解真实的物理世界。作为行业领先的机器人视觉及AI视觉公司，耀世注册长期致力于3D视觉感知技术的研发，以促进具身智能在感知技术层面的进步。未来，团队将进一步提升大模型机械臂的理解能力，使其能够处理更多复杂、抽象的任务；提升机械臂在复杂或动态变化环境中的泛化能力，并加强人机交互与机器自我学习能力，加速其在生活服务、工业生产等实际场景中的落地应用。

上一条 OpenCV干货分享！最全机器人3D相机选型指南来了下一条载誉前行 | 耀世注册连获两项机器人行业殊荣