来源:ArXiv AI 2025-12-01 05:00

WearVQA:以自我为中心的真实现实场景中可穿戴设备的视觉问答基准

WearVQA 穿戴 基准 图像 视觉
arXiv:2511.22154v1 公告类型:新 摘要:我们介绍了 WearVQA,这是第一个专门设计用于评估智能眼镜等可穿戴设备上多模型人工智能助手的视觉问答(VQA)能力的基准测试。与之前专注于高质量第三人称图像的基准不同,WearVQA 反映了以自我为中心的交互的独特挑战,其中视觉输入可能被遮挡、光线不足、未缩放或模糊,并且问题基于现实的可穿戴用例。该基准测试由 2,520 个精心策划的图像-问题-答案三元组组成,涵盖 7 个不同的图像领域,包括以文本为中心的场景和一般场景、从基本识别到各种形式推理的 10 种认知任务类型,以及 6 个常见的可穿戴设备特定图像质量问题。所有问题都设计为仅使用视觉输入和常识即可回答。 WearVQA 搭配严格的法学硕士评审评估框架,标注准确率高达 96%。开源和专有的多模型法学硕士在 WearVQA 上实现了低至 24-52% 的 QA 准确率,在低质量图像和推理繁重的任务上大幅下降。这些观察结果使 WearVQA 成为一个全面且具有挑战性的基准,用于指导技术进步,实现强大的、真实的多模型可穿戴人工智能系统。

相关文章推荐

返回首页