表格数据生成中的扩散模型
2026.03.23
论文札记 213 字数
- 阅读
- 评论
目录
目录
这篇文章有意思的地方在于,表格竞赛里很多时候真正有用的不是复杂结构,而是细致的数据增强。
主要收获
- 只有当生成分布真正保留少数类和特征交互时,合成数据才会有帮助。
- 比起样本看起来“合理”,更重要的是校准和下游验证。
- 在小规模表格任务里,如果验证不够严谨,生成成本可能大于收益。
实践角度
后面想验证一下,这类生成样本究竟能不能提升 Kaggle 式交叉验证的稳健性,还是只是给榜单波动增加噪声。