来源:ArXiv AI 2026-06-30 04:00

COMPASS:统一多模式模型中的接地组合意图指导

意图 构图 COMPASS 生成 统一
arXiv:2606.28696v1 公告类型:新 摘要:构图是一种高级视觉意图,它控制主体的放置位置以及场景的组织方式,但当前的统一多模态模型在细粒度构图识别方面仍然不可靠,并且很难将这种意图转化为可控的生成。我们提出了 COMPASS,这是第一个统一的多模式框架,它将构图意图控制建立在一个涵盖构图感知和构图引导生成的单一系统中,并以共享专家令牌 $\tau_c$ 作为中心意图锚。在感知方面,COMPASS 以微创方式将组合专业知识注入 MoE 主干,并将推断的意图提炼到 $\tau_c$ 中。在生成方面,COMPASS 重用 $\tau_c$ 作为全局调节信号来引导去噪轨迹,有效地将被动成分分析转换为显式布局控制。为了支持大规模系统性的遵循指令的作文学习和评估,我们构建了 Comp-11,一个具有 11 类分类法和推理增强注释的大型数据集。大量实验表明,COMPASS 极大地提高了类别级别的构图理解,并提供比强基线更一致、更迅速、更准确的生成。

相关文章推荐

返回首页