对称矩阵(Symmetric Matrices):A = A’。
对角矩阵(diagonal matrix):特殊的对称矩阵,主对角线之外的元素皆为0的矩阵。
单位矩阵(Identity Matrix):特殊的对角矩阵,主对角线为1,主对角线之外的元素皆为0的矩阵。
向量(Vector):仅有一列/一行的矩阵。
*代表向量的字母一般小写加粗。
矩阵的加减乘除(我省略了)
但要注意的是,
- 计算标量时,ab=ba,计算矩阵时,ab ≠ ba因为乘法要考虑顺序。
- 实际上没有矩阵除法,通过乘以逆矩阵(A-1)完成。
行列式(Determinant)
- 矩阵S的行列式记作|S|
- 仅正方形的矩阵可以求行列式,比如相关性、协变量矩阵。
- 行列式为0的矩阵不可逆(inverted),这样的矩阵是非正定矩阵(non-positive definite, NPD),而SEM计算中通常需要求逆矩阵,所以行列式为0的矩阵为导致运行错误(例如“psi matrix is not positive definite” )
- 回归分析(regression)可以看作是SEM的一种形式。
- 广泛应用于社会、行为、健康科学中的强大、灵活的分析方法。
- 因变量需要时正态分布的连续数据,对自变量没要求。
- 可以分析交互作用、中介作用等。
最小二乘估计(Least Squares Estimation, LSE)
选择可以最小化残差的平方和(sum of squared residuals)的参数
最大似然估计(Maximum Likelihood Estimation, MLE)
频率学派(Frequentist)的点估计法,根据样本数据不断尝试,选出能最优描述实际概率分布(likelihood)的参数。
最大后验估计(Maximum A Posteriori Estimate, MAP)
提到了频率学派,就插入一下贝叶斯学派(Bayesian)的最大后验估计MAP。MAP融合了预估计量的先验分布信息(Prior distribution),对未观测点做估计,可以看作是正则化(regularized)的最大似然估计。
四、SEM操作步骤1. Specification 明确模型自变量(independent variable)是什么?因变量(dependent variable)是什么?有没有调节变量(mediator)?有没有中介变量(moderator)?变量间是什么关系(relationship)?
1.1 路径图(path diagram)
- 绘图比较好用易上手的软件:Amos (分析基于SPSS,要获得分析结果的话要同时下载SPSS)(Amos全名其实就是Analysis of moment structures)
- 绘制正确的话,路径图完全可以表达(等同于)构建的方程式/模型
- 优点:可视化模型隐含的矩阵结构(model-implied moment structure) 【moment指的是变量组(sets of variables)的均值(mean)、方差(variances)、 协方差(covariances),就是均值矩阵/(协)方差矩阵】。
路径图中图形的含义
- 长方形/正方形:测量变量(measured variable)
- 圆形:未测量变量(unmeasured variable), 如残差(residuals)、潜在变量(latent variables)
- 单向直线箭头:回归方程的参数(regression coefficient)/因子分析的因子负荷(factor loadings)
- 双向曲线箭头:方差(variance)/协方差(covariance)
- 三角形:均值(mean)/截距(intercept)的常数(constant)。在分析模型时,统计软件会自动将一行常数设置成1。
1.2 矩阵结构(Moment Structures)
- 总体矩阵(Population moments) 记作Σ和μ
- 样本矩阵(sample moments)记作S和 m
- 总体隐含矩阵(Population model implied moments)记作Σ (θ) 和μ (θ)
- 样本隐含矩阵(Sample model implied moments)记作 Σ (θ hat)和μ (θ hat)
如下图,以总体矩阵为例:对于单个因变量和q个自变量的回归模型,有一个总体的协方差矩阵Σ和总体均值向量μ。
2. Identification模型的辨识性就像每个人都有个身份证号一样,一个模型需要具有辨识度。模型辨识度指的在有足够的已知信息来推断未知参数的程度。
Model identification refers to the extent to which there is sufficient known information to infer unknown values
- 过度识别(Over-identified):模型包含了冗余信息,需要修改 ——未知参数个数<独立方程式个数(方程式有解,但没有唯一精确解)。
许多路径分析和几乎所有SEM模型存在这个问题。
- 正好识别(Just-identified):观察到的信息 = 所需估计的参数数量 ——未知参数个数=独立方程式个数(方程式有唯一精确解)。
所有多元回归模型都是恰好识别。
- 识别不足(Under-identified):观察到有用信息不足——未知参数个数>独立方程式个数(方程无解)。
大问题!无法得到有效结果,下面讲到的路径追踪规则(path tracing rules)对解决这个问题有用。
3. Estimate 模型参数估计从样本数据中得到系数的过程。
3.1 最常用的是上述ML(最大似然法maximum likelihood),其具有3个特点:
a.无偏的:虽然每次都有抽样误差(sampling error), 但无限次重复实验后,样本估值的平均值将等于总体的真实值
unbiased: if we were to repeat our study an infinite number of times, the mean of the sample estimates would equal the population value
b.一致性:当样本量无限接近于总人群量时,样本估值也无限接近群体值
consistent: as the sample size approaches infinity, the sample estimate approaches the population value
c.有效性:参数估值的误差最小
efficient: no other estimator has a smaller sampling error for the parameter estimate
3.2 两种方式:
a. 充分统计最大似然值估计(Sufficient-statistic maximum likelihood estimation,SSML)仅仅基于观测到的协方差矩阵和均值向量,前提是有完整数据 (complete-case data)和正态分布的因变量(normally distributed DVs)
b. 完全信息最大似然值估计(Full information maximum likelihood estimator,FIML) 基于任何从个体观察到的数据。允许部分缺失的数据(partially missing data)和用于处理非正态分布(non-normal distribution)和嵌套数据结构( nested data structures)的替代方法
*对于完整的正态分布的数据,SSML 和FIML 一样。
3.3 优点:
- 适用于各种模型
- 无偏、一致、最大化有效性。
- 估值渐近正态分布(Estimates are asymptotically normally distributed),为推理测试(inference test)提供依据
- 可以通过卡方检验比较不同模型的相对拟合度的优劣
- FIML适用于有缺失值和非正态分布的数据。
3.4 步骤
- 初始值(start value):选择参数估计的初始值
- 迭代(iteration):计算似然值,更新参数估计值
- 收敛(converge):不断计算似然值,直到前后两个似然值之间的差异足够小为止
- 从最后一步保留拟合值(Fit statistics)、参数估值(parameter estimates)和标准误差(standard errors )
*如果模型太复杂有可能出现模型不收敛“failed to converge”的问题。
4. Evaluation 模型评估模型拟合程度如何?根据模型拟合指数作判断(Model fit index)
5. Potential re-specification可能需要模型再明确如果模型不够好,怎么修改?参考理论,根据修正指数(Modification indices)调整模型。
6. Interpretation 解读哪个结果显著?结果是否有意义?
通常关注点在:
- 原始的参数估值(Raw parameter estimates)
- 标准化的参数估值(Standardized parameter estimates)
- 决定系数R2 , (explained variance in outcomes),即模型可解释的变异量
五、路径追踪规则(Path Tracing Rules):
Sewall Wright在 19世纪20年代和30年代发明。
1.一旦开始用了单项箭头,就不能再往回/用双向箭头了4 前进了不能再后退, 但可以先后退再前进
Rule 1: if you begin a trace forward from a variable using a singleheaded arrow, you can proceed forward any number of times; but once you start forward you may not move backwards or span a double-headed arrow