AI Insight Hub - 最新人工智能动态

2026 年 6 月 3 日 Gemma 4 12B 旨在将高性能多模式智能直接带入您的笔记本电脑，将移动优先的效率与先进的推理相结合。您的浏览器不支持音频元素。今天，我们推出 Gemma 4 12B，这是我们的最新型号，旨在将代理多模式智能直接引入笔记本电脑。 Gemma 4 12B 弥补了我们的边缘友好型 E4B 和更先进的 26B Mixture of Experts (MoE) 之间的差距，在更小的内存占用范围内提供了强大的功能。这也是我们首款配备原生音频输入的中型型号。感谢开发者社区，Gemma 4 模型的下载量现已突破 1.5 亿次。您已经构建了从用于物理协助的可穿戴机械臂到企业级人工智能安全的一切。我们很高兴看到您使用这个最新功能构建的内容。以下概述了 Gemma 4 12B 的独特之处：这些功能共同为日常硬件带来了先进的多模式功能，而无需牺牲速度或推理能力。现在让我们仔细看看 Gemma 4 12B 如何实现这一目标。 Gemma 4 12B 在标准基准测试中提供的性能接近我们更大的 26B MoE 模型，但总内存占用量还不到一半。它足够小，可以在具有 16GB RAM 的消费类笔记本电脑上本地运行，可以在您的计算机上解锁强大的多模式和代理体验。 Gemma 4 12B 的突出之处在于其处理视觉和音频输入的简化方法。传统的多模态模型通常依赖单独的编码器来翻译图像和音频，然后再将这些表示传递给语言模型。由于这些分离编码器会增加延迟并增加内存使用量，因此我们使用无编码器架构来训练 Gemma 4 12B，以直接集成音频和视觉输入。以下是 Gemma 4 12B 如何原生处理多模式输入：对于想要详细了解的开发人员，请参阅我们的配套 Gemma 4 12B 开发人员指南。

Gemma 4 12B 简介：统一、无编码器的多模态模型

相关文章推荐

通过 OLMo 3 的培训追踪评估意识的出现

利用综合基本原理数据进行监督微调会损害现实世界的疾病预测

RealMath-Eval：为什么 SOTA 评委在真实的人类推理方面遇到困难