笔记 / 详情

表格数据生成中的扩散模型

2026.03.23
论文札记
213 字数
- 阅读
- 评论

这篇文章有意思的地方在于,表格竞赛里很多时候真正有用的不是复杂结构,而是细致的数据增强。

主要收获

  • 只有当生成分布真正保留少数类和特征交互时,合成数据才会有帮助。
  • 比起样本看起来“合理”,更重要的是校准和下游验证。
  • 在小规模表格任务里,如果验证不够严谨,生成成本可能大于收益。

实践角度

后面想验证一下,这类生成样本究竟能不能提升 Kaggle 式交叉验证的稳健性,还是只是给榜单波动增加噪声。