AI Insight Hub - 最新人工智能动态

arXiv:2606.17339v1 公告类型：新摘要：言语通过同时参与神经系统、运动系统、呼吸系统和发声系统，为了解健康提供了一个独特的信息窗口。目前的临床语音人工智能方法在很大程度上是通过孤立的针对具体情况的研究取得进展的，这使得结果难以比较，概括性也难以评估。我们推出 SpeechDx，这是一个针对临床语音 AI 的大规模基准，涵盖 12 个数据集和 27 个任务，涉及不同的健康状况。为了能够跨共享的临床机制进行评估，SpeechDx 根据扰乱的语音产生阶段来构建任务：概念化、表述和发音。该基准测试通过包含有限标记数据的任务并评估多个数据集的相同健康状况，区分具有临床意义的模式和数据集伪影来测试泛化能力。我们在所有任务和零样本交叉条件传输下系统地评估了 12 个最先进的音频编码器。结果表明，大规模语音模型代表了最强的总体基线，特定领域的模型仅在紧密匹配的任务上提高了性能，并且当前的表示形式无法可靠地概括整个临床语音领域。 SpeechDx 建立了一个共享评估框架，用于跟踪通用临床语音表征的进展

SpeechDx：临床语音 AI 的多任务基准

相关文章推荐

通过数字孪生模拟治疗反应优化的临床决策支持人工智能系统

分布式通用代理网络：架构、关键机制和原型

MemTrace：探究长期记忆中最终准确性的缺失