第八章 回归分析

第一节 Linear过程

8.1.1 主要功能

8.1.2 实例操作

第二节 Curve Estimation过程

8.2.1 主要功能

8.2.2 实例操作

第三节 Logistic过程

8.3.1 主要功能

8.3.2 实例操作

第四节 Probit过程

8.4.1 主要功能

8.4.2 实例操作

第五节 Nonlinear过程

8.5.1 主要功能

8.5.2 实例操作

 

    回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。

 

第一节 Linear过程

 

8.1.1 主要功能

    调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。

 

返回目录  返回全书目录

 

8.1.2 实例操作

   [例8.1]某医师测得103岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。

 

儿童编号

体表面积(Y

身高(X1

体重(X2

1

2

3

4

5

6

7

8

9

10

5.382

5.299

5.358

5.292

5.602

6.014

5.830

6.102

6.075

6.411

88.0

87.6

88.5

89.0

87.7

89.5

88.8

90.4

90.6

91.2

11.0

11.8

12.0

12.3

13.1

13.7

14.4

14.9

15.2

16.0

 

8.1.2.1  数据准备

    激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1X21位小数。输入原始数据,结果如图8.1所示。

 

 

8.1  原始数据的输入

 

8.1.2.2  统计分析

    激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框(如图8.2示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x1x2,点击Ø钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法。点击OK钮即完成分析。

 

 

8.2   线性回归分析对话框

 

       用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。

 

8.1.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

 

* * * *   M U L T I P L E   R E G R E S S I O N   * * * *

 

Listwise Deletion of Missing Data

Equation Number 1    Dependent Variable..   Y

Block Number  1.  Method:  Enter      X1       X2

 

Variable(s) Entered on Step Number

   1..    X2

   2..    X1

 

Multiple R           .94964

R Square            .90181

Adjusted R Square    .87376

Standard Error       .14335

Analysis of Variance

                    DF      Sum of Squares      Mean Square

Regression           2             1.32104           .66052

Residual             7              .14384           .02055

F =      32.14499       Signif F =  .0003

 

------------------ Variables in the Equation ------------------

Variable              B        SE B       Beta         T  Sig T

X1              .068701     .074768    .215256      .919  .3887

X2              .183756     .056816    .757660     3.234  .0144

(Constant)      -2.856476    6.017776                -.475  .6495

 

End Block Number   1   All requested variables entered.

 

 

       结果显示,本例以X1X2为自变量,Y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476

       本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。系统将原始的X1X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3

 

 

8.3  计算结果的保存

 

         本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart Carousel窗口,双击该窗口可见下图显示结果。

 

 

8.4  对标准化Y预测值所作的正态分布图

 

 

返回目录  返回全书目录

 

第二节 Curve Estimation过程

 

8.2.1 主要功能

    调用此过程可完成下列有关曲线拟合的功能:

    1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y = b0+ b1X);

    2、Quadratic:拟合二次方程(Y = b0+ b1X+b2X2);

    3、Compound:拟合复合曲线模型(Y = bb1X);

    4、Growth:拟合等比级数曲线模型(Y = e(b0+b1X));

    5、Logarithmic:拟合对数方程(Y = b0+b1lnX)

    6、Cubic:拟合三次方程(Y = b0+ b1X+b2X2+b3X3);

    7、S:拟合S形曲线(Y = e(b0+b1/X));

    8、Exponential:拟合指数方程(Y = b0 eb1X);

    9、Inverse:数据按Y = b0+b1/X进行变换;

    10、Power:拟合乘幂曲线模型(Y = b0X b1);

    11、Logistic:拟合Logistic曲线模型(Y = 1/(1/u + bb1X)。

 

返回目录  返回全书目录

 

8.2.2 实例操作

       [8.2]某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%Y的资料如下,试拟合对数曲线。

 

年龄(岁)

X

锡克试验阴性率(%

Y

1

2

3

4

5

6

7

57.1

76.0

90.9

93.0

96.7

95.6

96.2

 

8.2.2.1  数据准备

    激活数据管理窗口,定义变量名:锡克试验阴性率为Y,年龄为X,输入原始数据

 

8.2.2.2  统计分析

    激活Statistics菜单选Regression中的Curve Estimation...项,弹出Curve Estimation对话框(如图8.5示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x,点击Ø钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择Logarithmic模型(即对数曲线);选Plot models项要求绘制曲线拟合图;点击Save...钮,弹出Curve Estimation:Save对话框,选择Predicted value项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回Curve Estimation对话框,再点击OK钮即可。

 

 

8.5  曲线拟合对话框

 

8.2.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

 

ndependent:  X

  Dependent   Mth    Rsq   d.f.       F      Sigf         b0        b1

   Y         LOG   .913     5     52.32    .001       61.3259   20.6704

 

 

       在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R2=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX

       本例要求绘制曲线拟合图,结果如图8.6所示。

 

 

8.6  对数曲线拟合情形

 

       根据方程Y=61.3259+20.6704lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7

 

 

8.7  计算结果的保存

 

返回目录  返回全书目录

 

第三节 Logistic过程

 

8.3.1 主要功能

    调用此过程可完成Logistic回归的运算。所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。

    特别指出,本节介绍的Logistic过程,应与日常所说的Logistic曲线模型(即S或倒S形曲线)相区别。用户如果要拟合Logistic曲线模型,可调用本章第二节Curve Estimation过程,系统提供11种曲线模型,其中含有Logistic曲线模型(参见上节)。

       在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2++bkXk,

但用该方程计算时,常会出现P>1P<0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为:

           eb0+b1X1+b2X2+…+bkXk

    P = ———————————

          1+ eb0+b1X1+b2X2+…+bkXk

 

返回目录  返回全书目录

 

8.3.2 实例操作

       [8.3]某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。

 

术后感染

(有无)

Y

年龄

(岁)

X1

手术创伤程度

5等级)

X2

营养状态

3等级)

X3

术前预防性抗菌

(有无)

X4

白细胞数

×109/L)

X5

癌肿病理分度

TNM得分总和)

X6

69

72

57

41

32

65

58

54

55

59

64

36

42

48

50

4

5

3

1

1

3

3

4

2

1

2

1

3

4

1

2

3

2

1

1

3

2

2

2

1

2

1

1

2

2

5.6

4.4

9.7

11.2

10.4

7.0

3.1

6.6

7.9

6.0

9.1

8.4

5.3

4.6

12.8

9

6

4

5

5

5

6

6

7

4

6

8

6

5

4

 

8.3.2.1  数据准备

    激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。按要求输入原始数据。

 

8.3.2.2  统计分析

    激活Statistics菜单选Regression中的Logistic...项,弹出Logistic Regression对话框(如图8.8示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x1x2x3x4x5x6,点击Ø钮使之进入Covariates框;点击Method处的下拉按钮,系统提供7种方法:

 

 

8.8  逻辑回归对话框

 

       1Enter:所有自变量强制进入回归方程;

       2Forward: Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;

       3Forward: LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;

       4Forward: Wald:作Wald概率统计法,向前逐步选择自变量;

       5Backward: Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;

       6Backward: LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;

       7Backward: Wald:作Wald概率统计法,向后逐步选择自变量。

       本例选用Forward: Conditional法,以便选择有主要作用的影响因素;点击Options...钮,弹出Logistic Regression:Options对话框,在Display框中选取At last step项,要求只显示最终计算结果,点击Continue钮返回Logistic Regression对话框,再点击OK钮即可。

 

8.3.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

 

Dependent Variable Encoding:

Original       Internal

Value          Value

y              0

n              1

 

                   Parameter

            Value   Freq  Coding

                           (1)

X4           n       5    1.000

             y      10    -1.000

 

 

       系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X)的赋值为1;对于应变量X4,回答是(Y)的赋值为-1,回答否(X)的赋值为1

 

Dependent Variable..   Y

Beginning Block Number  0.  Initial Log Likelihood Function

-2 Log Likelihood   19.095425

* Constant is included in the model.

 

Beginning Block Number  1.  Method: Forward Stepwise (COND)

       Improv.             Model             Correct

Step   Chi-Sq.  df   sig     Chi-Sq.  df   sig   Class %     Variable

 1      8.510   1  .004     8.510    1  .004   80.00       IN: X3

 2      6.766   1  .009    15.276    2  .000   93.33       IN: X6

 

No more variables can be deleted or added.