AI Insight Hub - 最新人工智能动态

Sommelier：用于全双工语音语言模型的可扩展开放式多轮音频预处理

模型全双工语音语言扩展

arXiv:2603.25750v1 公告类型：交叉摘要：随着人工智能范式从基于文本的法学硕士转向语音语言模型（SLM），对能够实时、自然人机交互的全双工系统的需求不断增长。然而，此类模型的发展受到高质量、多说话人对话数据稀缺的限制，因为现有的大规模资源主要是单说话人或数量有限。解决自然对话的复杂动态（例如重叠和反向通道）仍然是一个挑战，标准处理管道遭受二值化错误和 ASR 幻觉的困扰。为了弥补这一差距，我们提出了一个专为全双工模型设计的强大且可扩展的开源数据处理管道。