
【C00113】生存分析survival
经济学
管理科学
新闻传播
计量经济学与因果推断
R
生存分析 (Survival Analysis) 简介
什么是生存分析?
生存分析是一类用于分析直到某个特定事件发生所需时间的统计方法。该“事件”可以是死亡、疾病复发、机器故障或客户流失等。其核心特点在于能够处理删失数据 (Censored Data),即在研究结束时事件尚未发生的观测值。
本案例使用的数据与方法
本案例基于 R 语言 survival 包中内置的 lung 数据集(晚期肺癌患者临床数据)。
主要分析步骤:
- 数据准备:清洗数据,定义生存时间变量和事件状态变量(将原始数据中的状态编码转换为标准的 0/1 格式)。
- Kaplan-Meier 估计:非参数方法,用于估算不同组别(如男性 vs 女性)的生存函数,并绘制生存曲线。
- Log-Rank 检验:用于比较不同组别之间的生存分布是否存在显著差异。
- Cox 比例风险模型:半参数回归模型,用于评估多个协变量(如性别、年龄)同时对生存风险的影响,计算风险比 (Hazard Ratio, HR)。
运行环境要求
- R 版本 >= 4.0.0
- 必需 R 包:
survival,survminer
如何运行
将 main.R 中的代码复制到 R 控制台或 RStudio 中直接运行即可生成分析结果。