AI Insight Hub - 最新人工智能动态

2026 年 6 月 10 日我们最新的开放实验模型在专用 GPU 上的推理速度提高了 4 倍，并为探索速度关键的交互式本地工作流程打开了大门。今天，我们将介绍 DiffusionGemma，这是一种实验性开放模型，用于探索文本扩散，这是一种异常快速的文本生成方法。这个 26B 专家混合 (MoE) 模型在 Apache 2.0 许可证下发布，超越了典型自回归大型语言模型 (LLM) 的逐个令牌的顺序处理。相反，它同时生成整个文本块，在 GPU 上生成文本的速度提高了 4 倍。 DiffusionGemma 基于 Gemma 4 系列行业领先的每参数智能和尖端的 Gemini Diffusion 研究而构建，集成了旨在最大限度提高生成速度的新颖扩散头。虽然自回归 Gemma 4 模型仍然是高质量生产输出的标准，但 DiffusionGemma 专为探索速度关键的交互式本地工作流程（例如内联编辑、快速迭代和生成非线性文本结构）的研究人员和开发人员而设计。构建实时交互式人工智能应用程序的开发人员经常会遇到本地推理的延迟瓶颈。 DiffusionGemma 直接解决了这些挑战，但有一些关键的权衡：您可以通过微调来提高 DiffusionGemma 在特定任务上的性能。在下面的示例中，Unsloth 微调了 DiffusionGemma 来玩数独——自回归模型很难完成这项任务，因为每个标记都取决于未来的标记。 DiffusionGemma 的双向注意力使这变得更加容易。微调 DiffusionGemma 求解数独。尽管人工智能研究界多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍然是一个挑战。 DiffusionGemma 通过改变模型使用硬件的方式来改变这一点。大多数语言模型就像一台打字机，从左到右一次生成一个标记。在云中，这是高效的，因为服务器可以将数千个用户请求一起批处理以共享硬件负载。但是，当在本地为单个用户运行时，这个逐字处理会使您的专用 GPU 或 TPU 未得到充分利用 - 它大部分时间只是等待下一次“击键”。 DiffusionGemma 扭转了这种低效率。它不是按顺序预测单词，而是同时起草整个 256 个标记的段落。通过立即为计算机的处理器提供更大的工作量，DiffusionGemma 可以充分利用您的硬件的潜力。它将您的模型推理从单一的顺序打字机升级为可同时标记整个文本块的大型印刷机。 Hugging Face 的 DiffusionGemma 文本转 3D SVG 演示。一步步生成。这意味着 DiffusionGemma 的加速是为本地和低并发推理而设计的。在高 QPS 云服务中，可以部署自回归模型来有效地饱和计算，因此 DiffusionGemma 的并行解码会带来收益递减，并可能导致更高的服务成本。在单个加速器上的中低批量大小时，吞吐量优势最为明显。与从视觉静态开始并迭代地将其细化为清晰图片的 AI 图像生成器类似，DiffusionGemma 将此应用于文本：由于模型可以在生成时处理整个段落，因此它解锁了模型行为的新模式，例如完美关闭复杂的 Markdown 格式或近乎实时地生成和渲染代码。注意：由于这种加速依赖于利用加速器的高算术强度，因此 Apple Silicon Mac 等统一内存架构（在推理过程中通常受内存带宽限制而不是受计算限制）可能无法获得与 Gemma 4 等自回归模型相同的加速。

DiffusionGemma：文本生成速度提高 4 倍

相关文章推荐

构建和评估模型差异代理

为什么十年前的残留连接仍然为所有人工智能提供动力（以及为什么这是一个问题）

对严重失调辩论的双方表示同情