结构化比赛入门


说些废话

9.9 买不到吃亏 买不到上当

加油吧 通过第一个课 感知到了 这个比赛的快乐

哈哈哈!

前言

比赛名:RecSys Challenge 2022

链接:

  1. 代码链接 https://github.com/limhao/kaggle-competition
  2. 文章介绍链接:(知乎)pandas操作

相关知识:

code

印象较深的pandas操作

1
2
3
# value_count
# 它可以用来查看数据表中,指定列里有多少个不同的数据值,并计算每个不同值有在该列中的个数,同时还能根据需要进行排序
item_map = train_sessions['item_id'].value_counts()
1
2
3
# sns.distplot
# 画图
sns.distplot(item_map.values)
1
2
# 返回唯一值个数
item_features['feature_category_id'].nunique()
1
2
# 返回所有的唯一值
item_features['feature_category_id'].unique()
1
2
3
# grouby
# 分组
user_item_dict = train_sessions.groupby('session_id')['item_id'].agg(list).to_dict()

v1Q0HO.png

1
2
3
# agg
# 聚合
user_item_dict = train_sessions.groupby('session_id')['item_id'].agg(list).to_dict()
1

1