Neo Anderson's Blog

构建信用评分卡模型通用步骤实现细节(三) - 探索性分析(Exploratory Data Analysis)

字数统计: 181阅读时长: 1 min
2019/10/22
  • EDA: 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有:直方图、散点图和箱线图等。

    • 直方图,散点图
      script
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      #逐column绘制 直方图
      for column in tain_data.drop(['Unnamed: 0','Unnamed: 0.1','target'],axis=1).columns:
      plt.figure(figsize=(5,6))
      sns.distplot(tain_data[column])

      #逐column生成一个图片矩阵, 判断量属性相关性
      sns.set(style='whitegrid',context='notebook')
      #sns.reset_orig()#重设matplotlib风格
      cols=['percentage','age','30-59','DebtRatio','MonthlyIncome','open_loan','90-','estate_loan','60-89','Dependents']
      sns.pairplot(tain_data[cols],height=2.5)
      plt.show()
CATALOG
  1. 1. EDA: 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有:直方图、散点图和箱线图等。
    1. 1.1. 直方图,散点图