EDA:
是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有:直方图、散点图和箱线图等。
直方图,散点图
script 1
2
3
4
5
6
7
8
9
10
11逐column绘制 直方图
for column in tain_data.drop(['Unnamed: 0','Unnamed: 0.1','target'],axis=1).columns:
plt.figure(figsize=(5,6))
sns.distplot(tain_data[column])
逐column生成一个图片矩阵, 判断量属性相关性
sns.set(style='whitegrid',context='notebook')
sns.reset_orig()#重设matplotlib风格
cols=['percentage','age','30-59','DebtRatio','MonthlyIncome','open_loan','90-','estate_loan','60-89','Dependents']
sns.pairplot(tain_data[cols],height=2.5)
plt.show()
原文作者:Neo Anderson
原文链接:https://www.neofaster.cc/archives/6b3a75dc.html
发表日期:October 22nd 2019, 10:29:30 am
更新日期:August 28th 2021, 10:51:27 am
版权声明:本文采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可
-
Next Post构建信用评分卡模型通用步骤实现细节(四) - 特征的选择
-
Previous Post构建信用评分卡模型通用步骤实现细节(二) - 数据处理