Inference for Large Dimensional Factor Models under General Missing Data Patterns
目录
这篇文章的核心价值,是把大维因子模型 (large dimensional factor models) 里的缺失数据问题统一到一个最小二乘推断框架里。它关心的不是“能不能把矩阵补全得还不错”,而是更进一步问:在异质随机缺失、选择性缺失、block missing、staggered treatment、mixed frequency 和 ragged edge 这些模式下,因子、载荷、平均处理效应和因子增强回归参数还能不能做有效推断。
论文信息
- 题目:Inference for Large Dimensional Factor Models under General Missing Data Patterns
- 作者:Liangjun Su, Fa Wang
- 期刊:Journal of Econometrics
- 年份:2025
- DOI:10.1016/j.jeconom.2025.106022
- 关键词:factor models, missing data, EM algorithm, least squares, matrix completion, nuclear norm, causal inference, mixed frequency
1. 这篇文章想解决什么问题
- 大维因子模型通常写成“共同因子 + 个体载荷 + 误差”的形式。完整数据下,PCA 和最小二乘有很好的渐近理论,经典参考是 Bai (2003) 和 Bai and Ng (2006)。
- 现实数据经常不是完整面板:推荐系统里评分缺失,政策评估里 treated potential outcome 的反事实缺失,宏观 nowcasting 里有 mixed frequency 和 ragged edge,资产定价面板里不同资产和不同时间的变量缺失也很常见。
- 一旦存在一般缺失,PCA 和最小二乘不再等价;如果直接把缺失项填成 0 再做 PCA,通常会引入偏差。
- 核范数正则化 (nuclear norm regularization, NNR) 可以稳定地做矩阵补全,但它有收缩偏差 (shrinkage bias),因此后续要做单个元素、因子、载荷或处理效应的置信区间时会很别扭。
- 因果推断文献里,block missing 或 staggered treatment 被看作 untreated potential outcome 的缺失。已有方法能补全,但对“观测数据最小二乘估计量”的完整推断理论还不够统一。
- mixed frequency 文献里,常见做法是截断成 balanced panel,或者把高频变量聚合成低频变量。这两种做法都会损失信息。
本文的定位可以概括成一句话:
用一个统一的最小二乘框架处理多种缺失模式,并证明用 NN 初值加 EM 迭代得到的估计量,可以像完整数据因子模型一样做渐近推断。
2. 模型部分:低秩因子结构加一般缺失指示
作者考虑的基础模型是
其中:
- 表示个体、资产、地区、用户等横截面单位。
- 表示时间。
- 是 时刻的因子 (factor)。
- 是第 个单位的载荷 (loading)。
- 是固定的因子个数,随着 不增长。
- 是误差项。
- 是观测指示; 表示观测到, 表示缺失。
如果把潜在信号写成
那么整个信号矩阵就是一个低秩矩阵:
其中 ,。从矩阵补全角度看,作者要从被 遮住的矩阵里恢复这个低秩信号;从因子模型角度看,作者要估计 和 并给出推断。
这里一个很重要的建模选择是:作者不为缺失机制 写完整参数模型。也就是说,本文不去估计
的具体 link function。作者只要求缺失指示和误差项之间满足类似 unconfoundedness 的条件:缺失模式可以依赖因子、载荷或协变量,但不能依赖不可观测误差 。直觉上,这保证了在观测到的单元上仍然有
其中 。所以缺失概率可以和矩阵信号本身相关,但只要它不和误差项相关,最小二乘矩条件仍然不带选择偏差。
2.1 缺失模式
作者把允许的缺失模式分成两类。
第一类要求每个单元的观测概率都有正下界:
这里包括:
- 完全随机但异质的缺失: 独立于因子、载荷和误差,但 可以同时随 和 变化。
- 选择在协变量、因子或载荷上的缺失: 可以和 、 或外生协变量相关。比如电影评分里,用户是否评分可能和她是否喜欢这部电影相关;资产定价面板里,小市值公司或极端特征值更容易缺失。
第二类允许某些位置的观测概率就是 0:
- Block missing:例如处理组在处理后的 untreated potential outcome 永远不可观测。
- Staggered treatment:不同单位在不同时间进入处理状态,处理后的反事实结果缺失。
- Mixed frequency:一些变量是高频,一些变量是低频;低频变量在非发布期缺失。
- Ragged edge / no missing:样本末端因为发布时间不同造成缺口;完整数据也是特例。
这些缺失模式的共同点是:作者不需要缺失概率是同质的,也不要求缺失只沿 或 一维变化。特别是 Example 2 允许观测概率同时依赖因子和载荷,这是相当强的泛化。
2.2 因子模型的识别限制
因子模型天然有旋转不识别问题。对任意可逆矩阵 ,
所以只看低秩乘积时, 和 本身不是唯一的。作者用下面的标准化条件做识别:
这相当于施加 个限制。后面的估计目标里,作者把这些识别限制写成一个惩罚项 ,从而定义 partial maximum likelihood estimator。
2.3 估计目标
作者的准似然部分是
这个式子只使用观测到的单元。由于作者不对 的选择方程做参数化, 可以理解成 partial quasi Gaussian likelihood。最大化它等价于最小化观测项上的最小二乘目标:
完整目标写成
其中 的作用不是为了收缩,而是为了实现识别标准化。最后的 PMLE 是
这里的 和 主要是技术条件,用来保证矩阵补全文献中的 incoherence / restricted strong convexity 条件能够成立。
Remark
本文的最终推断对象不是核范数正则化估计量,而是无惩罚最小二乘估计量。核范数只负责给一个足够好的初值,之后 EM 迭代会把正则化带来的收缩偏差洗掉。
3. 估计算法:NN 初值加 EM 迭代
作者把实际计算过程叫作 partial maximum likelihood estimation。核心是两步。
Step 1:先拿到一个平均一致的初值
对随机缺失和选择性缺失,作者建议用核范数正则化估计量作为初值。形式上,可以先估计低秩信号矩阵:
其中 是核范数。这个问题可以用 iterative singular value thresholding (ISVT) 计算。
核范数估计得到 之后,对 做奇异值分解。若因子个数 已知,就取前 个奇异向量,构造
若 未知,可以用奇异值阈值法、信息准则或 eigenvalue ratio / growth ratio 估计。
对 block missing、staggered missing 和 mixed frequency,初值可以来自:
- 核范数正则化估计。
- 对完整 block 分别做 PCA。
- Bai and Ng (2021) 式的 two-step 方法。
- Xiong and Pelger (2023) 的 inverse observation-proportion weighted estimator。
初值只需要满足平均意义下的一致性:
Step 2:用 EM 迭代到最小二乘解
拿到初值 后,作者使用 Stock and Watson (2002) 风格的 EM 算法:
- 用上一步的因子和载荷补缺失项:
-
对补全后的完整矩阵做 PCA,更新 和 。
-
重新标准化,使其满足识别限制。
-
重复直到收敛。
这个过程可以叫作 NN-EM:nuclear norm estimator 给初值,EM 负责回到无惩罚 least squares solution。
为什么这一步很关键
核范数正则化的优点是稳定、可计算、能处理缺失;缺点是会把奇异值向 0 收缩,因此因子和载荷会有正则化偏差。EM 迭代的意义是:从一个已经落在正确邻域里的初值出发,反复补全并重估,最终收敛到观测数据最小二乘问题的局部极大值。
文章进一步说明,在高概率下这个局部极大值也是全局极大值。所以 NN-EM 既利用了核范数的计算稳定性,又保留了无惩罚最小二乘估计量的推断性质。
4. 理论部分:从平均一致性到渐近正态
这篇文章的理论主线有三层:
- 先证明因子和载荷的平均收敛率。
- 再证明单个因子和载荷的渐近正态性。
- 最后把这些结果用于平均处理效应和 factor-augmented regression。
4.1 关键假设
作者的假设可以按功能理解。
强因子和有界性。
要求
并且 和 一致有界。这对应强因子设定,也类似矩阵补全文献中的 incoherence 条件。
缺失模式条件。
随机缺失部分要求 有正下界,并允许它随 同时变化、也允许它与 和 相关。Block / staggered / mixed frequency 部分要求存在足够大的完整信息区域,比如 和 不趋于 0。
识别条件。
的特征值不同,用来固定因子旋转。
弱相关和矩条件。
误差项 可以有异方差、时间相关和横截面弱相关。这个设定比很多矩阵补全文献中独立同分布误差的设定更贴近资产定价、宏观预测和非实验数据。
中心极限定理。
为了得到单个 和 的极限分布,需要对
分别施加 CLT 条件。
4.2 技术直觉:Hessian 近似对角
作者没有沿用 Bai (2003) 基于特征分解的误差展开,因为一般缺失下 PCA 和 least squares 不再等价。文章改用一阶条件和 Hessian 结构。
记
在真值附近对一阶条件 做 Taylor 展开:
所以
这个分解是全文理论的核心。它替代了完整数据 PCA 里常见的 eigen-decomposition 误差展开。
为什么它能工作?因为因子模型的 Hessian 在大样本下近似对角:
- 对 的自身二阶导数来自对 求和,量级是 。
- 对 的自身二阶导数来自对 求和,量级是 。
- 不同 、不同 之间的非对角块通常只有 。
- 三阶导数张量是稀疏的。
因此,估计某个固定维度对象,比如 ,不会被其他大量 nuisance parameters 的估计误差一阶污染。这个结构有点像高维半参数问题里的正交性:目标参数对高维 nuisance 的误差不敏感。
4.3 平均收敛率
令
Theorem 4.1 先给出初步平均一致性:
这个 rate 不是最优,但已经足以保证估计量进入正确邻域。
Theorem 4.2 再把 rate sharpen 成
这个结果和完整数据下 Bai (2003) 的平均 rate 一样尖锐。更重要的是,它允许误差项弱相关,也允许缺失概率在 两个维度上异质。
4.4 因子和载荷的极限分布
Theorem 4.3 给出单个载荷和单个因子的渐近正态性。
对固定的 ,
其中
是
的极限方差。
对固定的 ,
其中
是
的极限方差。
这个定理最重要的解释是:即使缺失模式依赖于因子和载荷, 和 仍然没有一阶选择偏差。它们的极限分布就像“另一边已知”时做最小二乘一样:
- 估计 时,好像 已经知道。
- 估计 时,好像 已经知道。
估计另一边因子或载荷带来的误差在相应增长条件下是渐近可忽略的。
4.5 EM 算法为什么能收敛到全局解
Remark 4.1 说明:在真值附近的一个邻域 里,标准化后的负 Hessian 的最小特征值以高概率有正下界。因此 在这个邻域里是局部凹的,并且有唯一局部极大值。
因为 Step 1 的初值已经平均一致,所以它以高概率落在 里。EM 从这里出发会收敛到该邻域内的局部极大值。再结合 Theorem 4.1 可知,全局极大值本身也落在这个邻域里,所以这个局部极大值就是全局极大值。
这点很漂亮:核范数不是最终估计量,只是把算法送进正确盆地;EM 迭代负责抵达真正的 least squares estimator。
5. 理论应用:处理效应和因子增强回归
5.1 平均处理效应
在处理效应设定里,作者把处理后的 untreated potential outcome 看作缺失。设
这里 表示 control / untreated observation, 表示 treatment group 中缺失的 untreated potential outcome。处理效应是
估计步骤是:
- 先在 control group 的 balanced part 上估计 。
- 用 且 的观测项估计因子和载荷。
- 对 treatment group 计算
单个 通常不一致,因为里面仍然有 idiosyncratic error 。所以作者关心的是跨个体或跨时间平均后的处理效应。
Theorem 5.1 给出一个关键的 weighted convergence:
这个结果说明,加权平均之后,估计因子/载荷带来的误差足够小,可以用于 ATE 的极限分布。
Proposition 5.1 进一步给出:
以及
因此可以构造 group-time average treatment effect 的置信区间,也可以检验不同组、不同 exposure length 下处理效应是否异质。
5.2 因子增强回归
作者还考虑 factor-augmented regression:
由于 不可观测,实际回归时用 代替。设
Proposition 5.2 说明,在 下,
也就是说,从缺失面板里用 least squares / NN-EM 估出来的因子,放进后续预测回归时不会改变一阶极限分布。这推广了 Bai and Ng (2006) 在完整数据 PCA 情形下的结果。
对条件均值预测
作者也给出对应的方差分解:一部分来自回归参数估计,另一部分来自最后一期因子估计。这对 nowcasting 和 diffusion index forecasting 很有用。
6. 模拟和实证结果
模拟
作者模拟了四种缺失模式:
- 完全随机但异质缺失。
- 缺失概率依赖因子和载荷。
- mixed frequency。
- staggered missing。
模拟结果很符合理论直觉:
- 核范数估计量本身有明显收缩偏差,标准化误差不会很好地贴合标准正态。
- NN-EM 之后,因子和载荷的标准化误差直方图与标准正态曲线贴合得很好。
- NN-EM 相比单纯 NN,因子相关系数更高、RMSE 更低。
- 置信区间覆盖率接近 95%,说明定理里的渐近正态在有限样本里表现不错。
UK grant allocation 实证
实证部分研究 Fouirnaies and Mutlu-Eren (2015) 的英国地方政府拨款数据。数据包括 460 个 English local councils,时间是 1992 到 2012 年。
作者关心的是 partisan alignment 是否会提高中央政府给地方 council 的 specific grants per capita。设 表示 council 在 时刻由中央执政党控制,也就是 treated;未处理反事实结果需要用因子结构补出来。
估计时,作者用 的 untreated observations 估计因子和载荷,再用
补 treated observations 的未处理潜在结果,并计算
因子个数 通过交叉验证选择, 的 out-of-sample RMSE 最低,但作者也报告 作为稳健性检查。
主要结论是:
- partisan alignment 的平均处理效应在处理后的前几期显著为正。
- 效应先上升,并在处理后第 3 年附近达到峰值。
- 处理前的 placebo 效应大多接近 0,说明因子结构基本吸收了 pre-trend。
- out-of-sample 检查显示 的结果更一致,而 可能低估了因子数。
7. Summary
- 第一,这篇文章的估计策略很清楚:用核范数正则化找路,用 EM 回到无惩罚最小二乘,用 Hessian 展开做推断。
- 第二,文章真正解决的是 post-regularization inference。核范数补全能给好预测,但有收缩偏差;NN-EM 的作用就是把这个偏差从最终推断里拿掉。
- 第三,缺失模式非常一般。只要缺失不和误差项直接相关,缺失概率可以异质,也可以和因子、载荷、协变量甚至处理时点相关。
- 第四,理论上的关键不是 PCA 特征分解,而是最小二乘一阶条件里的近似对角 Hessian。这个思路比完整数据 PCA 分解更容易迁移到 mixed frequency、staggered treatment 和更一般的非线性因子模型。
- 第五,局限也很明确:如果缺失机制和误差项 相关,本文的无选择偏差结论会失效;此外,强因子、有界性、RSC、固定因子数和足够大的完整信息区域都是比较实质的要求。
重点参考文献
- Bai, J. (2003). Inferential Theory for Factor Models of Large Dimensions. 完整数据大维因子模型推断的经典起点。
- Bai, J., and Ng, S. (2006). Confidence Intervals for Diffusion Index Forecasts and Inference with Factor-Augmented Regressions. 本文 factor-augmented regression 部分的重要基础。
- Stock, J. H., and Watson, M. W. (2002). Macroeconomic Forecasting Using Diffusion Indexes. EM / diffusion index forecasting 背景。
- Mazumder, R., Hastie, T., and Tibshirani, R. (2010). Spectral Regularization Algorithms for Learning Large Incomplete Matrices. 文中核范数初值和 ISVT 算法的重要来源。
- Athey, S., Bayati, M., Doudchenko, N., Imbens, G., and Khosravi, K. (2021). Matrix Completion Methods for Causal Panel Data Models. 因果面板和矩阵补全交叉文献。
- Bai, J., and Ng, S. (2021). Matrix Completion, Counterfactuals, and Factor Analysis of Missing Data. block missing 和反事实补全的重要参考。
- Chernozhukov, V., Hansen, C., Liao, Y., and Zhu, Y. (2023). Inference for Low-Rank Models. post nuclear norm regularization inference 背景。
- Xiong, R., and Pelger, M. (2023). Large Dimensional Latent Factor Modeling with Missing Observations and Applications to Causal Inference. 与本文最接近的加权估计和缺失推断参考。