矩阵补全、协变量与信息性缺失(Matrix Completion with Covariate Information and Informative Missingness)
2026.04.20
论文札记 8622 字数
目录
目录
这篇文章最重要的价值,是把信息性缺失 (informative missingness)、协变量 (covariates)、高维 (high-dimensional) 和低秩 (low-rank) 矩阵补全 (matrix completion) 放进了一个统一框架,而且不需要显式指定缺失机制 (missingness mechanism) 的参数模型。
论文信息
- 题目:Matrix Completion with Covariate Information and Informative Missingness
- 作者:Huaqing Jin, Yanyuan Ma, Fei Jiang
- 期刊:Journal of Machine Learning Research
- 年份:2022
1. 解决了什么问题,已有工作到哪里
- 作者研究的是这样一个问题:矩阵条目的缺失不是随机的,而是依赖于条目真实取值本身,也就是缺失非随机 (missing not at random, MNAR)。这时,如果还像传统矩阵补全那样只对观测到的条目建模,会出现明显的选择偏差 (selection bias)。
- 同时,作者还希望利用每个单元的协变量 (covariates) 。所以目标不是单纯补全矩阵,而是同时完成两件事:一是恢复缺失响应,二是估计协变量效应 (covariate effect)。
- 早期的矩阵补全工作主要关注无噪声 (noiseless) 或理想采样情形,例如 Candès and Recht (2009), Recht (2011)。
- 把噪声 (noise) 加进去以后,代表性工作有 Candès and Plan (2010), Koltchinskii, Lounici and Tsybakov (2011), Rohde and Tsybakov (2011), Negahban and Wainwright (2012)。这些工作重点还是低秩恢复,不处理协变量,也基本不处理响应依赖缺失。
- 非均匀采样 (nonuniform sampling) 或更复杂缺失分布开始被讨论,例如 Srebro and Salakhutdinov (2010), Klopp (2014), Cai and Zhou (2016), Cai, Cai and Zhang (2016), Bi et al. (2016), Mao, Chen and Wong (2019)。
- 协变量被纳入矩阵补全后,相关工作包括 Abernethy et al. (2009), Xu, Jin and Zhou (2013), Chiang, Hsieh and Dhillon (2015), Mao, Wong and Chen (2018), Zhu, Shen and Ye (2016), Robin et al. (2018)。
- 一般统计中的非可忽略缺失 (nonignorable missingness) 也有方法基础,例如 Zhao and Shao (2015), Miao and Tchetgen Tchetgen (2016)。
- 协同过滤 (collaborative filtering) 里也有人讨论 MNAR,例如 Marlin and Zemel (2009), Hernandez-Lobato, Houlsby and Ghahramani (2014), Liang et al. (2016), Hu, Koren and Volinsky (2008), Pan et al. (2008), Steck (2010)。
- 这篇文章的核心定位是:作者认为,最接近的已有工作里,Mao et al. (2019) 仍然需要对缺失机制建模,而 Robin et al. (2018) 虽然能处理高维协变量,但还是在缺失随机 (MAR) 框架里。本文试图同时处理“响应依赖缺失”和“超高维协变量”。
2. 作者提出的模型是什么,参数各代表什么
- 数据对象:
- :第 个用户对第 个对象的响应或评分。
- : 是否被观测到的缺失指示 (missingness indicator)。
- :与单元 对应的协变量向量。
- 作者先用广义线性模型 (generalized linear model, GLM) 写响应分布:
- :低秩基线矩阵 (low-rank baseline matrix),也可以理解成用户和对象之间无法被协变量解释的潜在结构 (latent structure)。它的秩 (rank) 是 。
- :稀疏系数 (sparse coefficient) 向量,表示协变量如何影响响应。它的稀疏度 (sparsity) 是 。
- :协变量的边缘分布 (marginal distribution)。作者不要求把它写成一个严格的参数模型。
- 关键假设是
- 原本如果想直接对观测到的响应写似然,那么目标应该是
- 但由贝叶斯公式 (Bayes rule)
-
所以即使加上独立假设,它仍然依赖未知的缺失机制 ,不能直接拿来做最大似然 (maximum likelihood)。
-
于是作者改看反向条件分布 (reverse conditional distribution)
- 同样由贝叶斯公式,
- 最后一等号正是由 得到的。于是作者把原问题改写成 的伪似然 (pseudo-likelihood):
从而
其中与参数无关的 被省略。
Remark
核心不是把似然函数写得更复杂,而是换了方向: 里仍然带着未知缺失机制,所以不能直接做;而 在条件独立假设下正好化成 ,于是得到可优化的伪似然。
- 有了上面的负伪似然 (negative pseudo-likelihood) ,作者再加入低秩和稀疏的结构约束,最终得到下面这个带双重正则化 (double regularization) 的优化问题:
-
这里:
-
是负伪似然 (negative pseudo-likelihood)。
-
是核范数 (nuclear norm),用来逼迫 低秩。
-
是 惩罚 (lasso penalty),用来逼迫 稀疏。
-
约束 和 用来控制参数不发散。
-
如果只想抓住一句话,那我会把这篇文章的建模总结成:
作者先用“低秩矩阵 + 稀疏协变量”的 GLM 描述 ,再加上 这个假设,把原来不能直接用的似然函数改写成伪似然函数,再在这个伪似然上做低秩和稀疏正则化估计。
3. 作者通过什么算法进行求解
- 作者把整体算法叫作 Soft-Impute Proximal Gradient (SIPG)。
- 对 的更新,用近端梯度 (proximal gradient):
其中 是逐坐标软阈值 (soft-thresholding) 算子。
- 对 的更新,用 Soft-Impute,也就是奇异值软阈值化 (singular value soft-thresholding)。如果
那么
- 所以算法结构非常清楚: 这一块按高维稀疏回归的套路做, 这一块按低秩矩阵恢复的套路做。
- 伪似然里有积分项 (integration term)。作者建议把积分看成对 分布的均值,再用样本平均 (sample average) 或 Monte Carlo 近似。
- 在 Yelp 实验里,作者就是用经验分布 (empirical distribution) 来近似 的分布,并在迭代过程中重估 的经验分布。
4. 作者有哪些理论结果
- 这篇文章的理论主线是有限样本误差界 (finite-sample error bound) 和一致性 (consistency),不是渐近正态性 (asymptotic normality)。
- Theorem 1 给出 的误差上界,也就是 的上界。
- 文中明确说明:如果 和与缺失相关的关键量保持可控,同时 ,并且若干技术量如 的增长速度慢于 ,那么 Theorem 1 的上界会趋于 0,因此 是一致的。
- Theorem 2 给出 的误差上界,也就是 的上界。
- 作者进一步指出:当 的秩有限,而且 时, 的上界是
所以 也是一致的。
- 理论上最关键的技术点,是在稀疏集 (sparse set) 和低秩集 (low-rank set) 上建立受限特征值条件 (restricted eigenvalue condition)。文中对应的关键引理是 Lemmas A.10 和 A.19。
- Theorem 3 处理的是算法收敛 (algorithmic convergence),说明 SIPG 在满足文中凸性和光滑性条件时,会以高概率收敛到原优化问题的 -最优解 (-optimal solution)。
- 更具体地说,Theorem 3 给出:当迭代次数足够大时,,且概率至少为 。
- 附录里的 Theorem A.1 还单独证明了一个有限维 (finite-dimensional) 伪似然估计量的一致性,算是给主方法提供了额外直觉基础。
- 结论非常明确:这篇文章主打的是一致性和优化收敛,没有给出渐近正态性,也没有做置信区间 (confidence interval) 或显著性检验 (inference)。
5. 用在什么 real data 上,结果如何
Yelp 数据
- 原始 Yelp 数据非常大,包含 8,635,403 条评论和 160,585 家商户。
- 作者实际分析时选了 Las Vegas 里评分数最多的 500 家餐厅,再选了对这 500 家餐厅评分最多的 1000 个用户。
- 最终矩阵规模是 ,缺失率 (missing rate) 为 90.9%。
- 每个单元有 个协变量,包括餐厅星级、开业日期、用户评论数等。
- 作者把响应二值化 (dichotomize):评分大于 3.5 记为 1,否则记为 0。
- 评估时,作者额外人为制造一层 MNAR 缺失,再比较 20 次重复实验中的 AUC。
- 比较对象包括:
- MNAR:本文方法。
- MAR:把缺失当作缺失随机来做。
- EM:用期望最大化 (EM) 方式迭代填补。
- MIMI:Robin et al. (2020) 的方法。
- 结果:MNAR 在所有设置下都拿到最高 AUC,明显优于 MAR、EM 和 MIMI。
MovieLens 1M 数据
- 数据包含约 100 万条评分,6040 个用户,3952 部电影。
- 作者把用户年龄组 (age group) 和电影类型 (genre) 组合成协变量,维度是 。
- 整体缺失率超过 95.7%。
- 这里作者主要和加权协同过滤 (weighted collaborative filtering, WCF) 比较,具体是 Hu, Koren and Volinsky (2008) 的方法。
- 评价指标不是 AUC,而是期望百分位排序 (expected percentile ranking)。这个指标越小越好。
- 结果:MNAR 的期望百分位排序显著小于 WCF,说明排序效果更好。
- 另外,WCF 对因子数 (number of factors) 很敏感;在 MovieLens 上,作者报告的最优因子数是 16。
Yelp 上再和 WCF 比较
- 作者还把 WCF 放到 Yelp 子样本上比较。
- 结果仍然是 MNAR 的期望百分位排序更小,表现更好。
- 在这个 Yelp 子样本上,WCF 的最优因子数是 4。
我会怎么记这篇文章
- 最有启发的一点,是作者没有去硬建模 ,而是转去建模 ,用伪似然把 MNAR 带来的偏差问题绕开了。
- 第二个要点是参数分解 (decomposition) 很自然:低秩矩阵 管潜在交互,稀疏向量 管可解释协变量。
- 第三个要点是理论目标很克制:作者要的是高维一致性和算法收敛,不做渐近正态推断。
- 局限也很明显:条件独立假设 不一定总成立,而且文中的可识别性也比较依赖协变量矩阵本身足够稀疏。
重点参考文献
- Candès, E. J., and Recht, B. (2009). Exact Matrix Completion via Convex Optimization. 低秩矩阵补全的经典起点。
- Candès, E. J., and Plan, Y. (2010). Matrix Completion with Noise. 把噪声引入矩阵补全分析。
- Negahban, S., and Wainwright, M. J. (2012). Restricted Strong Convexity and Weighted Matrix Completion. 受限强凸性 (restricted strong convexity) 和加权矩阵补全的重要参考。
- Mao, X., Chen, S. X., and Wong, R. K. W. (2019). Matrix Completion with Covariate Information. 与本文最接近,但仍需要更明确的缺失机制处理。
- Robin, G., Wai, H.-T., Josse, J., Klopp, O., and Moulines, E. (2018). Low-rank Interaction with Sparse Additive Effects Model for Large Data Frames. 高维协变量加低秩结构的重要背景文献。
- Zhao, J., and Shao, J. (2015). Semiparametric Pseudo-likelihoods in Generalized Linear Models with Nonignorable Missing Data. 本文伪似然思路的重要统计背景。
- Hu, Y., Koren, Y., and Volinsky, C. (2008). Collaborative Filtering for Implicit Feedback Datasets. 文中 real data 比较的 WCF 基准方法。
- Marlin, B. M., and Zemel, R. S. (2009). Collaborative Prediction and Ranking with Non-random Missing Data. 协同过滤里处理非随机缺失的代表工作。