来源:ArXiv AI 2026-06-15 04:00

当样本选择偏差导致模型崩溃时

选择 数据 崩溃 参考 偏差
arXiv:2606.13732v1 公告类型:新 摘要:对合成数据进行递归训练的激增可以缓解数据稀缺性,但存在模型崩溃的风险,其中重复训练会侵蚀分布尾部并使输出均质化。数据选择被广泛视为一种补救措施,但其可靠性关键取决于验证者使用的参考分布。我们表明,在低资源验证机制中,每个验证者仅观察目标流形的一小部分、碎片化且有偏差的部分,选择本身就会产生偏差。这种情况自然会出现在医疗保健联盟或专有金融机构等低资源数据孤岛中,这些地方无法汇集原始数据,并且本地参考本质上是不完整的。因此,选择优先保留与局部流形对齐的样本,同时修剪全局相关的尾部模式,从防止崩溃的保护措施转变为促成崩溃的机制。我们从理论上证明,这种孤立的选择会加速崩溃并导致幂律多样性衰减。作为最初的缓解措施,我们从多个孤岛构建 Wasserstein 代理引用,而不共享原始数据。经验结果证实,局部参考选择在偏斜分布上失败,而协作代理参考可以减轻多样性退化,这表明当实际数据覆盖分散或稀缺时,递归合成数据管道需要特别谨慎。

相关文章推荐

返回首页