企业小型模型浪潮的最新成员来自AI21 Labs,该实验室坚信将模型引入设备将释放数据中心的流量。
AI21 的 Jamba Reasoning 3B,是一个“微型”开源模型,可以运行扩展推理、代码生成并根据真实情况进行响应。 Jamba Reasoning 3B 可处理超过 250,000 个令牌,并且可以在边缘设备上运行推理。
该公司表示,Jamba Reasoning 3B 适用于笔记本电脑和手机等设备。 AI21 联合首席执行官 Ori Goshen 告诉 VentureBeat,该公司看到了更多小型模型的企业用例,主要是因为将大部分推理转移到设备上可以释放数据中心。
“我们目前在行业中看到的是一个经济问题,数据中心的扩建非常昂贵,而数据中心产生的收入与所有芯片的折旧率相比,显示出数学上的不符,”Goshen 说。
他补充说,未来“该行业总体上将是混合的,因为一些计算将在本地设备上进行,而其他推理将转移到 GPU 上。”
在 MacBook 上进行测试
Jamba Reasoning 3B 结合了 Mamba 架构和 Transformers,使其能够在设备上运行 250K 令牌窗口。 AI21 表示,它的推理速度可以提高 2-4 倍。 Goshen 表示,Mamba 架构极大地提高了模型的速度。
Jamba Reasoning 3B 的混合架构还使其能够减少内存需求,从而减少其计算需求。
AI21 在标准 MacBook Pro 上测试了该模型,发现它每秒可以处理 35 个令牌。
Goshen 表示,该模型最适合涉及函数调用、基于策略的生成和工具路由的任务。他说,简单的请求,例如询问有关即将举行的会议的信息并要求模型为其创建议程,可以在设备上完成。更复杂的推理任务可以留给GPU集群。
企业中的小型模型
企业一直对混合使用小型模型感兴趣,其中一些是专门为其行业设计的,另一些是法学硕士的精简版本。
九月份,Meta发布了MobileLLM-R1,推理系列 模型范围从140M到950M参数。这些模型是为数学、编码和科学推理而不是聊天应用程序而设计的。 MobileLLM-R1 可以在计算受限的设备上运行。
Google 的 Gemma 是首批进入市场的小型型号之一,设计用于在笔记本电脑和手机等便携式设备上运行。 Gemma 自得到扩展以来。
像 FICO 这样的公司也开始建立自己的模型。 FICO 推出了其 FICO 聚焦语言和 FICO 聚焦序列小型模型,仅回答特定于金融的问题。
Goshen 表示,他们的模型提供的最大区别在于,它比大多数模型还要小,但它可以在不牺牲速度的情况下运行推理任务。
基准测试
在基准测试中,Jamba Reasoning 3B 与其他小型模型(包括 Qwen 4B、Meta 的 Llama 3.2B-3B 和来自 Microsoft 的 Phi-4-Mini。
它在 IFBench 测试和 Humanity's Last Exam 中的表现优于所有模型,尽管它在 MMLU-Pro 上仅落后于 Qwen 4。
Goshen 表示,像 Jamba Reasoning 3B 这样的小型模型的另一个优点是它们具有高度可操纵性,并为企业提供更好的隐私选项,因为推理不会发送到其他地方的服务器。
“我确实相信,有一个世界可以根据客户的需求和体验进行优化,而设备上保留的模型是其中的很大一部分,”他说。