第13卷第2期 西安文理学院学报:自然科学版 VoI_13 No.2 2010年4月 Journal of Xi’an University of Arts&Science(Nat Sci Ed) Apr.2010 文章编号:1008-5564(2010)02-0039-05 一种新的多元回归思路 ——因子与回归联合分析法 曹苏娜,王素云,曹贻鹏 (装甲兵工程学院基础部,北京100072) 摘要:多元回归分析是一种重要的数据处理方法,变量的多重共线性诊断是回归分析的重要环 节.针对传统的多元回归分析中变量间的多重共线性问题,提出一种新的求解多元回归问题的思路,该 思路与传统方法相比具有明显的优势. 关键词:多元回归分析;因子分析;多重共线性;因子得分 中图分类号:O212.4 文献标识码:A 0引言 变量的多重共线性问题是多元回归分析中的一个相当重要的环节.所谓多重共线性是指解释变量 之间存在线性相关关系的现象.解释变量间高度的多重共线性会给回归方程带来许多影响,如偏回归系 数估计困难、偏回归系数的估计方差随解释变量相关性的增大而增大、偏回归系数的置信区间增大、偏 回归系数估计值的不稳定性增强、偏回归系数假设检验的结果不显著等. 传统上,通过容忍度、方差膨胀因子、特征值和方差比、条件指数等方式测度解释变量间的多重共线 性问题.该方法的缺点是它没有在回归分析之前对变量进行预处理,来解决变量之间可能存在的多重共 线性问题,而是问题出来了再进行必要的处理,显然这种思路有些被动.另外,通过变量筛选策略可以剔 除对被解释变量没有显著影响的变量,保留下对被解释变量有显著影响的变量,但变量间可能存在的多 重共线性问题仍然没有得到解决.因此,为了保证回归方程拟合的显著性和处理问题的简洁性,有必要 找出一种合理的分析方法对多元回归分析中的多重共线性问题进行处理.在本文中,笔者借助因子分析 方法成功地解决了此问题. 1 因子与回归联合分析法 为了克服多元回归分析中可能存在的变量之间的多重共线性问题,首先可以借助因子分析方法对 原来的解释变量进行降维处理,在保证信息提取较充分的情况下,提取出较少的几个因子,然后把所得 的因子得分估计值作为解释变量,对被解释变量进行回归拟合,这样的一套求解多元回归分析问题的思 想方法,笔者称之为因子与回归联合分析法. 该方法的数学原理如下: 1.1利用因子分析法求出因子得分估计值 设X=( , ,…, ) 是可观测的随机变量E( )= ,D(X)=∑,且设F=(F ,…, ) (m<p)是不可观测的随机变量,层(F)=0,D(F)= (即F的各分量方差为1,且互不相关).又设占= 收稿日期:2010-02-08 作者简介:曹苏娜(1983一),女,北京人,装甲兵工程学院基础部助教,理学硕士.研究方向:渗流理论. 西安文理学院学报:自然科学版 第13卷 ( “, ) 与F互不相关,且 E( )=o,D( )=diag(tr ,…, ) =D(对角矩阵) 则随机变量X的正交因子模型为: , X1-/1,1=allFl+口12F2+…口1mFm+81 一 2=(/,21F1+口22 +…口2mF +0 ̄2 (1) 一,up=aplFl+口p2 +… F +占p 用矩阵表示为: X=/z+AF+ (2) 其中,F=(F 一,F ) ,F 称为X的公共因子;矩阵A=(口 ) 是待估的系数矩阵,称为因子载 一‘。 :: ”,,/L-.z 一 (5) 1【 = 一 口 (m =1 2”,p) \J 公因子个数/7/",的确定方法一般有两种,一是根据实际问题的意义或专业理论知识来确定,二是用 确定主成份个数的原则,看方差累计贡献率,选/7/,满足 A1+…+Am+…+A口 (6)、 的最小整数. 1.1.2利用极小化法求因子得分F 不妨设 =0,由(2)式知 X=AF+s (7) 因为 = 8=( —AF) ( —AF)de =qb(F) (8) . x、A已知,根据最小二乘法,求F的估计值F,使得 (F)=min@(F). 由 =2A ( —AF)=0,得到的估计值: F=(A A) A (9) 1.2被解释变量y与因子得分估计值F的回归拟合 根据上面讨论,被解释变量l,与因子得分估计值F回归模型形式为 第2期 曹苏娜,等:一种新的多元回归思路——因子与回归联合分析法 4l (10) 1…F1l …F1 yl ^ ^ … 记C= 1…F21 =[I …X],Y= , = ● ● ● : ● : :或 : ● : ^ ^ 1…F l … ), 我们可得到经典多元线性回归模型 卢 .一卜, ^l Jy (11) 【E(8)=0 ,D( )=or L 、 借助经典多元回归分析理论,当rank(C)=m+1≤n时,可得到系数 的最小二乘估计为: =( )一 C (12) 综上,+ 吼 因子与回归联合分析法综合运用了因子分析和回归分析两种数据处理方法,因而它综合了因 (=;立.江 . 子和回归两种分析方法的优点.比如,若因子分析采用主成分分析法提取主因子,则不论各解释变量服 从何种分布,均可以采用因子分析方法对原变量进行化处理,也就是说,该方法对原有变量的分布 没有任何要求,=适用范围较为广泛.还有, ~ 由于因子得分个数较少,并且彼此之间相互,这样就会为 解释变量的筛选工作提供方便.另外,. 因子得分是原有解释变量的线性组合,依然保持了回归分析要求 的线性关系,实为殊途同归,●『 只是因子与回归联合分析法走了捷径,简化了问题的处理.当然,应该看到 更为重要的一面,那就是它克服了变量间可能存在的多重共线性问题,增强了回归模型的显著性,提高 了回归方程的拟合精度. 2应用实例 为研究高等院校人文社会科学研究中立项课题数受哪些因素的影响,收集1999年31个省市自治 区部分高校有关社科研究方面的数据,并利用因子与回归分析联合分析法进行分析.(数据来源:薛薇 (SPSS统计分析方法及应用》)这里,被解释变量为立项课题数,解释变量为投入人年数、投入高级职称 的人年数、投人科研事业费、专著数、论文数、获奖数. 首先运用因子分析对解释变量提取因子,根据累计方差贡献率84.771%,同时为了处理问题的简 洁性,我们提取一个因子.因子分析结果见下面的3个表格. 表1 因子解释原有变量总方差的情况 42 西安文理学院学报:自然科学版 第l3卷 经过对原有解释变量进行因子分析,我们最终得到因子得分(见表2),下面我们把表2中得到的因 子得分作为解释变量,课题总数为被解释变量,对它们进行回归分析. 表3回归系数 据表3知,回归系数显著性检验的概率P小于0.05,回归系数显著非零,于是,得到如下非标准化 回归方程: ),课题总数=791.38 因子变量+960 (13) 3 因子与回归分析法和多元回归分析法的比较 上面结合实例介绍了因子与回归联合分析法求解多元回归问题的思路,接着说明这种新方法的有 效性.在上述实例中,运用因子分析方法提取了一个因子,该因子解释了原有解释变量84.771%的信 息,根据求得的回归方程(13),可以求得预测值.在此,将新方法得到的预测值和传统的多元回归分析 解法求得的预测值进行了对比(如表4). 表4预测值结果对比表 从表4可见,新方法与传统方法求得的预测值吻合的相当好.这说明,本文提出的因子与回归联合 分析法在解决变量间存在多重共线性的多元回归分析问题是非常有效的. 4结束语 本文针对传统的求解多元回归分析可能出现的变量多重共线性问题,提出一种新的求解多元回归 第2期 曹苏娜,等:一种新的多元回归思路——因子与回归联合分析法43 分析的思路一因子与回归联合分析法.该方法先用因子分析方法从原来的解释变量中提取出较少的 几个相互的因子,然后再将新得的因子得分作为解释变量,与被解释变量一起进行回归分析,这样 不但简化了问题的处理,而且有效克服了解释变量间可能存在的多重共线性问题.此外,我们将该新的 回归分析法与传统的回归分析方法进行了对比,两者的数据吻合得相当好,这也充分说明了因子与回归 联合分析法的有效性. [参考文献] [1] 高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005. [2] 何晓群.多元统计分析[M].北京:人民大学出版社,2000. [3] 朱勇华.应用数理统计[M].武汉:武汉水利电力大学出版社,1999. [4] 薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2006. [责任编辑王新奇] A New Method of Multivariate Regression Analysis ——The Association Analysis of Factor and Regression CAO Su-na,WANG Su-yun,CAO Yi—peng (Department of Basic Courses,Armored Force Engineering Institute,Beijing 100072,China) Abstract:Mulitvariate Regression Analysis is an important method of data processing,wiht mulitple collinear diagnostics as one important part.In the text,a new method of dealing wiht the problem of multiple collineari— ty between variables in Mulitvariate Regression Analysis is given.It obviously predominates over the traditional me出od. Key words:Mulitvariate Regression Analysis;factor analysis;muhiple collinearity;factor score.