最初在做具身智能时,我采用了关节位置作为本体状态与动作的表示(即绝对关节控制)。原因很简单:任何机械臂本质上都是由多个关节连接起来的复合连杆系统,最终的控制输出也必然落在关节位置(或关节速度、力矩)上,因此无论从状态读取还是控制执行角度,都可以直接使用关节量。

但随着研究的推进,我逐渐发现关节控制存在两个显著问题。其一是跨平台迁移困难:不同构型机械臂的配置空间不同,导致数据难以在不同平台间有效迁移;其二是泛化能力不足:本体状态与控制输出高度耦合,模型很容易仅仅记住训练数据中的轨迹,而无法学到更通用的控制策略。

更理想的做法是让模型从视觉输入中推断本体(尤其是末端工具)与目标之间的相对误差,并通过控制输出持续减小该误差。这有点类似控制理论中的误差动力学(error dynamics),但这里更强调视觉条件下的表征:误差定义在像素空间中,并通过控制信号逐步被消减。

之后在robomimic和hil-serl的项目中,了解到末端位姿相对控制。以前者为例,本体状态$s_t=(p_t,q_t)$表示,其中$p_t\in \mathbb{R}^3$为末端在基坐标系下的位置,$q_t\in \mathbb R^4$为末端在基坐标系下的四元数姿态。动作$(a_t=\Delta p_t, \Delta \theta_t)$表示基坐标系下的位置增量和相对旋转量(以旋转向量表示)。这种表示方式将控制目标变为“末端位姿空间”,并以增量形式刻画动作,使策略更直接地作用于任务语义(末端工具相对于目标的位姿误差)。其中,旋转向量的引入使相对旋转能够在三维空间中以连续、无奇异性的方式表达。