如何实施单变量线性回归
单变量线性回归是一种统计分析手段,旨在探讨两个变量间的相互联系。其核心目标在于探究一个变量(自变量)对另一个变量(因变量)的影響。以下是实施单变量线性回归的步骤:
数据搜集:起初,需搜集相关的数据资料。此类数据需为量化数据,便于统计分析。例如,若研究教育程度与收入水平间的关联,需搜集每个个体的教育年限与年收入。
数据整理:在回归分析之前,需对数据进行整理,包括处理缺失值、异常值及重复数据。此步骤旨在保证数据质量和准确性。
绘制散点图:运用所收集的数据,绘制散点图,自变量位于横轴,因变量位于纵轴。此图能直观展现两个变量间的联系。
计算相关系数:相关系数介于-1与1之间,用于衡量两个变量间的线性关系。若相关系数接近1,表示两个变量间存在较强的正相关;若接近-1,表示存在较强的负相关;若接近0,则表示两者间不存在明显的线性关系。
构建回归模型:利用最小二乘法或其他优化技术,根据自变量和因变量的数据,构建线性回归模型。该模型将形成一个方程,描述自变量与因变量间的关联。
检验模型显著性:通过t检验或F检验,检验回归模型的显著性。若模型显著,则可认为自变量对因变量具有显著影响。
阐释模型:最终,需阐释回归模型的结果。例如,可表示为“教育年限每增加一年,预期收入将提高X元”。
以上即为实施单变量线性回归的基本步骤。需注意的是,虽然单变量线性回归可揭示两个变量间的联系,但不能证明因果关系。此外,回归分析结果可能受其他未考虑因素的影响,故在阐释结果时需谨慎。
单变量分析
一、案例背景:
日常监控发现某款消费贷产品首次逾期率呈现上升趋势,需降低逾期率以减少产品带来的损失。
分析目标:
通过数据分析制定出能有效降低首次逾期率的策略。
分析思路:
由于分析策略旨在客户申请时判断其是否会逾期,故策略分析的基本思路是还原具有逾期表现的客户在申请时的数据(此还原是指提取客户在申请时点的多维度数据,越多越好),然后利用这些数据找出区分客户优劣的变量,制定策略。
本次报告分别通过分析客户的年龄、信用评级、近半年个查次数(征信查询次数)等指标,对客户结构进行优化,降低首次逾期率,实现贷前风险控制的目的。通过分析得出,在以上指标中,将“近半年征信查询次数”≥21的客户拒绝后,对整体首次逾期率的优化效果最佳,以下为分析过程:
观察数据结构,数据维度为(56456,9)
优化前整体首次逾期率为30.7%
按近半年个查次数(征信查询次数)分组,分为[0:3),[3:6),[6:12),[12:21),[21:∞)五个区间
按区间对数据进行聚合,保留区间客户数、区间逾期客户数两个字段,再计算区间未逾期客户数量、区间用户占比、首次逾期率
以相同方法,对客户的信用评级和年龄段进行分组处理,并计算区间未逾期客户数量、区间用户占比、首次逾期率
分别计算优化不同指标对整体逾期率的提升度(图1为征信查询次数,图2为信用评级,图3为年龄),可见个人征信总查询次数的提升度最高,达到1.94;其次是客户信用评级,提升度达到1.71。
注:
提升度:简单来说,即衡量拒绝最坏一部的客户后,对整体风险控制的提升效果。提升度越高,说明该变量能有效区分客户优劣,减少误拒好客户。
计算公式:提升度=最坏分箱的首逾客户占总首逾客户的比例/该分箱的区间客户数占比
最后分别计算优化掉最坏分箱的首逾客户后,对整体逾期率的影响。
可见拒绝掉“近半年征信查询次数”≥21的客户后,整体逾期率降低了1.7%,在三个指标中优化效果最佳;尽管“信用评级”的提升度较高,但排除最坏分箱的客户后,逾期率不降反增,不建议;“客户年龄”的提升度在三个指标中最低,仅为1.06,对逾期率的降低效果也较差,仅降低0.29%,不建议。