Neo Anderson's Blog

构建信用评分卡模型通用步骤实现细节(三) - 探索性分析(Exploratory Data Analysis)

字数统计: 181阅读时长: 1 min
2019/10/22
loading
  • EDA: 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有:直方图、散点图和箱线图等。

    • 直方图,散点图
    script
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    #逐column绘制 直方图
    for column in tain_data.drop(['Unnamed: 0','Unnamed: 0.1','target'],axis=1).columns:
    plt.figure(figsize=(5,6))
    sns.distplot(tain_data[column])

    #逐column生成一个图片矩阵, 判断量属性相关性
    sns.set(style='whitegrid',context='notebook')
    #sns.reset_orig()#重设matplotlib风格
    cols=['percentage','age','30-59','DebtRatio','MonthlyIncome','open_loan','90-','estate_loan','60-89','Dependents']
    sns.pairplot(tain_data[cols],height=2.5)
    plt.show()
CATALOG
  1. 1. EDA: 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有:直方图、散点图和箱线图等。
    1. 1.1. 直方图,散点图