AI Insight Hub - 最新人工智能动态

arXiv:2602.04101v1 公告类型：新摘要：我们提出了 Interfaze，一个将现代 LLM 应用程序视为构建和在上下文中执行的问题的系统，而不仅仅是选择正确的整体模型。我们不是使用单个变压器，而是将（i）一堆异构 DNN 与小语言模型配对，作为 OCR 的感知模块，涉及复杂的 PDF、图表和图表以及多语言 ASR，与（ii）一个上下文构建层，用于爬行、索引和解析外部源（网页、代码、PDF）为紧凑的结构化状态，以及（iii）一个操作层，可以浏览、检索、在沙箱中执行代码，并驱动动态网页的无头浏览器。瘦控制器位于该堆栈的顶部，并公开一个 OpenAI 风格的端点：它决定运行哪些小模型和操作，并始终将提取的上下文转发到用户选择的 LLM 来生成最终响应。在此架构上，Interfaze-Beta 在 MMLU-Pro 上实现了 83.6%，在 MMLU 上实现了 91.4%，在 GPQA-Diamond 上实现了 81.3%，在 LiveCodeBench v5 上实现了 57.8%，在 AIME-2025 上实现了 90.0%，并且在 MMMU (val) (77.3%)、AI2D (91.5%)、ChartQA 上获得了出色的多模态分数(90.9%) 和 Common Voice v16 (90.8%)。我们表明，大多数查询主要由小型模型和工具堆栈处理，而大型法学硕士仅在蒸馏上下文上运行，从而产生有竞争力的准确性，同时将大量计算从最昂贵和单一的模型转移开。

Interfaze：人工智能的未来建立在特定任务的小模型之上

相关文章推荐

提示保真度：衡量人工智能代理实际执行了多少意图

通过跨情节元强化学习扩展法学硕士的情境在线学习能力

反事实解释的公理基础