样本描述:各位老师好,我的论文采用的是微观面板非平衡数据(合并了3波数据,总观测值6万左右),每波观测之间约有20%的样本不同(约10%的样本流失,10%的新样本补入),因变量是连续变量,核心自变量是虚拟变量。经由列联表分析,发现对重复观测的样本而言,约有8%左右样本的核心控制变量状态(0或1)会在两次观测时间中发生变异。加入协变量后,经过多次模型比较,均发现个体效应不容忽视,固定效应显著优于随机效应和混和估计。关于模型方法选择和样本处理方面有三个问题请教。
问题1: 由于组内变异不足,固定效应在进行组内离差时是否已经抹去了大部分核心变量的信息,导致结果实际上并不具有代表性和可信度?这种情况下是否只能抛开豪斯曼检验结果而使用随机效应?
答案1:
个体固定效应在你说的情形中确实吸收了核心自变量许多信息,可能导致核心自变量系数估计统计不显著,但这不意味着结果是错误或不可信的。此时用固定效应还是随机效应是需要权衡的。如果用固定效应,回归结果未必如你所想;如果用随机效应,回归结果可能是不一致的——这是更严重的问题,即使结果显著,也不可信。我个人的建议是:继续使用固定效应模型,然后多看一些异质性。虽然平均意义上系数不显著,但可能对某些特定群体是显著的。
问题2: 由于这一核心虚拟变量可能存在一定样本自选择现象,如果使用倾向值得分匹配,如何结合面板数据的特征?(PS:在理论上,由于存在“前处理效应”,因而不能使用did或did-psm)
答案2:
不知道你的核心虚拟变量是怎样的变量。如果该变量是诸如“是否有工作”这种可能因时而异的变量,那便无法在面板数据架构下应用匹配方法(如果非要用匹配法,只能一年一年分开做)。如果核心虚拟变量是事先确定了的变量(比如在政策评估领域常见的“是否受到某项政策的影响”),就可能可以利用DID Matching的方法去做(也就是常说的PSM-DID)。PS:没看懂你括号里的PS说明。
问题3: 是否有必要强行构造平衡面板?(由于是微观抽样数据,理论上强行构建平衡面板似乎会造成推断有偏,但所有参考文献均是使用平衡面板。)
答案3:
个体固定效应模型并不要求面板数据是平衡面板,只要所有个体至少有两期数据即可。非平衡面板与平衡面板数据各有优劣,前者样本内生选择问题没有后者严重,但后者的跨期可比性比前者更好。理论上,当出现面板数据跨期追踪缺失时(attrition),需要检查该缺失是内生的,还是可以近似看做随机,如果是后者,那么构造平衡面板自然是最好的。
学术指导:张晓峒老师
本期解答人:中关村大街
编辑:Hollian 知我者 杨芳
统筹:芋头 易仰楠
技术:知我者