机器人本体状态与动作的表示

最初在做具身智能时，我采用了关节位置作为本体状态与动作的表示（即绝对关节控制）。原因很简单：任何机械臂本质上都是由多个关节连接起来的复合连杆系统，最终的控制输出也必然落在关节位置（或关节速度、力矩）上，因此无论从状态读取还是控制执行角度，都可以直接使用关节量。

但随着研究的推进，我逐渐发现关节控制存在两个显著问题。其一是跨平台迁移困难：不同构型机械臂的配置空间不同，导致数据难以在不同平台间有效迁移；其二是泛化能力不足：本体状态与控制输出高度耦合，模型很容易仅仅记住训练数据中的轨迹，而无法学到更通用的控制策略。

更理想的做法是让模型从视觉输入中推断本体（尤其是末端工具）与目标之间的相对误差，并通过控制输出持续减小该误差。这有点类似控制理论中的误差动力学（error dynamics），但这里更强调视觉条件下的表征：误差定义在像素空间中，并通过控制信号逐步被消减。

之后在robomimic和hil-serl的项目中，了解到末端位姿相对控制。以前者为例，本体状态$s_t=(p_t,q_t)$表示，其中$p_t\in \mathbb{R}^3$为末端在基坐标系下的位置，$q_t\in \mathbb R^4$为末端在基坐标系下的四元数姿态。动作$(a_t=\Delta p_t, \Delta \theta_t)$表示基坐标系下的位置增量和相对旋转量（以旋转向量表示）。这种表示方式将控制目标变为“末端位姿空间”，并以增量形式刻画动作，使策略更直接地作用于任务语义（末端工具相对于目标的位姿误差）。其中，旋转向量的引入使相对旋转能够在三维空间中以连续、无奇异性的方式表达。