1. 探索数据集
1.1 数据读入
1  | # 上面是对于数据标签的导入  | 
1.2 查看数据
1  | criteo_data.head()  | 
1  | criteo_data.info()  | 
1.3 数据分类
1  | # 数据特征分为离散和连续类  | 
1.4 查看缺失值情况(标注)
1  | # 查看离散变量目前的类别  | 
1  | # 查看连续变量目前的类别  | 
1.5 数据分箱
1  | from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, KBinsDiscretizer  | 
1.6 训练数据与标签分离
1  | # 这里类似于 之前是 标签 + 数据  | 
2. 字段维度(field_dim) 与 数据划分
1  | def train_valid_test_split(self, train_size=0.8, valid_size=0.1, test_size=0.1):  | 
2.1 字段维度获取(field_dim)
1  | # 这一段太妙了  | 
2.2 数据划分
1  | train, valid_test = train_test_split(self.data, train_size=train_size, random_state=2021)  | 
