3-4 项目2—预测投保人医疗费用
模块 ❸ 线性回归:预测未来趋势
CONTENTS
提出问题提出问题
01
预备知识预备知识
03
解决方案解决方案
02
任务任务11——加载加载
数据并进行数数据并进行数
据预处理据预处理
04
任务任务33——进一进一
步改善模型性步改善模型性
能能
06
任务任务22——训练训练
和测试医疗费和测试医疗费
用预测模型用预测模型
05
问题描述问题描述
我国农村医疗保险和全民医保制度的全面实施,缓解了广大人民群众“看
病贵”的问题,提高了人民群众的生活质量,也改变了人们对保险的认识,
越来越多人的接受和认可商业保险。与此同时,医疗保险公司作为一种商
业经营实体,对投保人在未来可能发生的医疗费用进行预测,这是医疗保
险公司回避风险、提高经营利润的一种保障措施。如何能得到一个较为精
准的医疗费用预测模型呢
机器如何去学习
预测?
1. 1. 问题本质问题本质
医疗费用预测问题,就是试图从投保人的特征变量入手,通过机器学习提供的某种
模型,如线性回归等,来寻找一个医疗费用与投保人特征相关的函数表达式。
仍然采用多元线
性回归来求解问
题
2. 2. 解决方案解决方案
11. DataFrame. DataFrame数据的检索数据的检索
用途:从数据集中切分出需要的数据用途:从数据集中切分出需要的数据
loc方法使用名称检索 iloc方法使用索引号检索
11. DataFrame. DataFrame数据的检索数据的检索
示例:示例:
运
行
结
果
22. DataFrame. DataFrame数据的更改数据的更改
1)按索引条件直接更改:
结果
22. DataFrame. DataFrame数据的更改数据的更改
2) 用apply方法更改:
结
果
.导入相关库并加载数据导入相关库并加载数据
读
取
的
数
据
.数据清洗和转换数据清洗和转换
对数据进行转换
,以方便机器学
习
.数据的归一化处理数据的归一化处理
归一化后的样本数据
.构建线性回归模型构建线性回归模型
构建构建线线性回性回归归模型模型
.准备训练集和测试集准备训练集和测试集
按按7∶37∶3的比例的比例分为分为
训练集训练集和测试集和测试集
.模型训练和测试模型训练和测试
运行结果
.预测结果可视化预测结果可视化
可视化结果
.改进方向改进方向
0101
分析样本特征的相关性。
AgeAge与与bmibmi强强相相关关
.改进方向改进方向
0202
考虑模型中是否存在非线性变量。
处理办法
.改进方向改进方向
0303
评估连续性变量的影响是否也是连续的。
处理办法
.改进方向改进方向
改改进举进举例:例:
消除bmi和smoker的共同作用
.改进方向改进方向
改改进进后的效果:后的效果:
相对于前一个模型,改进后的模型得分一下子提高到,说明此模
型能更好地解释医疗费用的变化,这可能提示肥胖吸烟者对医疗费用
的影响是巨大的。
.预测费用预测费用
预测费预测费用:用:
Thank you very Thank you very
much!much!