多模态评估器：MLLM 作为 Strands Evals 中图像到文本任务的法官

图像是否评估器文本文档

如果您正在构建视觉购物、图像或文档理解或图表分析，您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]