本讲将介绍分类模型。对于二分类模型,我们将介绍逻辑回归(logistic regression)和Fisher线性判别分析两种分类算法;对于多分类模型,我们将简单介绍Spss中的多分类线性判别分析和多分类逻辑回归的操作步骤。
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。把y看成事件发生的概率, $y\ge0.5$表示发生; $y\le0.5$表示不发生。
类型 | 模型 | Y的特点 | 例子 |
---|---|---|---|
线性回归 | OLS、GLS(最小二乘) | 连续数值型变量 | GDP、产量、收入 |
0‐1回归 | logistic回归 | 二值变量(0‐1) | 是否违约、是否得病 |
定序回归 | probit定序回 | 定序变量 | 等级评定(优良差) |
计数回归 | 泊松回归(泊松分布) | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断数据) | 企业、产品的寿命 |
直接用原来的回归模型进行回归。
由于后者有解析表达式(而标准正态分布的cdf没有),所以计算logistic模型比 probit模型更为方便。