笔记 / 详情

表格数据生成中的扩散模型

2026.03.23

213 字数

目录

这篇文章有意思的地方在于，表格竞赛里很多时候真正有用的不是复杂结构，而是细致的数据增强。

主要收获

只有当生成分布真正保留少数类和特征交互时，合成数据才会有帮助。
比起样本看起来“合理”，更重要的是校准和下游验证。
在小规模表格任务里，如果验证不够严谨，生成成本可能大于收益。

实践角度

后面想验证一下，这类生成样本究竟能不能提升 Kaggle 式交叉验证的稳健性，还是只是给榜单波动增加噪声。

# 论文阅读 # Kaggle # 深度学习