教育数据集特征描述


写在前头

今日 2023/9/25 卸载了dota2 垃圾垃圾游戏

今天说实话得好好安排下自己的工作时间

中午睡得太晚 得努力了 起来就干不了啥事情了

嵌入式也不能放着 不然找不到工作了

删除流程

  1. 缺失值null太多

bottom hist

skill_id

answer_text

answer_id

  1. 没区别

type assistment_id

  1. 多任务不用的特征

user_id sequence_id base_sequence_id

  1. 相同相似的

student_class_id

teacher_id√

school_id

assistment_id

使用的部分

  • 特征

problem_id 分类特征

original 分类特征

position 分类特征

first_action 分类

problem_type(answer_type)分类

teacher_id 分类

hint_count 数值

attempt_count 数值

  • 目标

corret 分类

tutor_mode 分类

数据集中相同特征的部分

**assignment_id **

user_id

assistment_id

problem_id

original

correct

attempt_count

tutor_mode

problem_type

sequence_id

student_class_id

position

type 类型

base_sequence_id

skill_id

teacher_id

school_id

hint_count

overlap_time

answer_id

answer_text

first_action

bottom_hint

12教育数据集

problem_log_id (问题日志唯一标识)

skill 技能

problem_id 问题id

user_id 用户id

assignment_id 分配标识

​ 两个不同的分配可以具有相同的序列 ID。每项作业都特定于一位教师/班级。

assistment_id 辅助标识

​ 一个辅助通常由一个和多个问题构成

start_time 开始时间

end_time 结束时间

problem_type 问题种类

​ select_1:多项选择(单选按钮)

​ 代数:数学计算字符串(文本框)

​ fill_in:简单的字符串比较答案(文本框)

​ open_response:记录学生的回答,但他们的回答始终被标记为正确

original 原创

​ 1 主问题

​ 0 从问题

correct 正确

bottom_hint 底部提示

​ 无论学生要求所有提示

hint_count 提示次数

actions

​ 对这个问题的行动

attempt_count

​ 尝试的次数

ms_first_response

​ 学生第一次回复的时间 毫秒

tutor_mode 辅导模式

​ 辅导 测试 前测 后测

sequence_id 序列id

​ 问题集的内容 ID。分配了相同问题集的不同作业将具有相同的序列 ID。术语再次变得混乱,就像几年前 ASSISTments 开始时我们称之为问题集序列一样。但在我们现代使用该术语时,问题集实际上是作为一个序列存储的。大多数序列都很简单,但可以构建一个问题集的分层树状问题集

student_class_id 学生教室id

position 位置

​ 作业的位置

type 类型

​ 三种

​ 线性 - 学生按预定顺序完成所有问题。

​ 随机 - 学生完成所有问题,但每个学生都会以不同的随机顺序遇到问题。

​ 掌握 - 随机顺序,学生必须通过连续正确回答一定数量的问题来“掌握”问题集,然后才能继续。

​ ASSISTments 将标题部分为掌握类型的问题集称为“技能生成器”。

base_sequence_id

​ 这是为了考虑序列是否已被复制。这将指向原始副本,或者如果尚未复制,则与sequence_id相同

skill_id 技能id

teacher_id 老师id

school_id 学校id

overlap_time

​ 学生的重叠时间? 以毫秒为单位

template_id 模版id

​ 相同的模版id有类似的问题

answer_id

​ 多选题答案id

answer_text 回答文本

first_action

​ 第一个动作的类型:尝试或请求提示。

problemlog_id 问题日志id

Average_confidence(FRUSTRATED)

预计学生会因该问题而感到沮丧。值接近“0”表示较少受挫,接近“1”表示较受挫败。

Average_confidence(CONFUSED)

预测学生对问题的困惑。接近“0”的值表示不太混乱,接近“1”表示更混乱。

Average_confidence(CONCENTRATING)

预测学生对问题的专注程度。接近“0”的值表示不太集中,接近“1”的值表示较集中。

Average_confidence(BORED)

预测学生对这个问题感到厌烦。值接近“0”表示不那么无聊,“1”表示更无聊

09 数据集

order_id

​ 这些ID是按时间顺序排列的,请参考原始问题日志的ID。

assignment_id

​ 两个不同的分配可以具有相同的序列 ID。每项作业都特定于一位教师/班级。

user_id 用户id

assistment_id

​ 一个辅助通常由一个和多个问题构成

problem_id 问题id

original 原创

​ 1 主问题

​ 0 从问题

correct 正确

attempt_count

​ 尝试的次数

ms_first_response

​ 学生第一次回复的时间 毫秒

tutor_mode 辅导模式

​ 辅导 测试 前测 后测

answer_type 回答类型

​ select_1:多项选择(单选按钮)

​ 代数:数学计算字符串(文本框)

​ fill_in:简单的字符串比较答案(文本框)

​ open_response:记录学生的回答,但他们的回答始终被标记为正确

sequence_id 序列id

​ 问题集的内容 ID。分配了相同问题集的不同作业将具有相同的序列 ID。术语再次变得混乱,就像几年前 ASSISTments 开始时我们称之为问题集序列一样。但在我们现代使用该术语时,问题集实际上是作为一个序列存储的。大多数序列都很简单,但可以构建一个问题集的分层树状问题集

student_class_id 学生教室id

position 位置

​ 作业的位置

problem_set_type

​ 三种

​ 线性 - 学生按预定顺序完成所有问题。

​ 随机 - 学生完成所有问题,但每个学生都会以不同的随机顺序遇到问题。

​ 掌握 - 随机顺序,学生必须通过连续正确回答一定数量的问题来“掌握”问题集,然后才能继续。

​ ASSISTments 将标题部分为掌握类型的问题集称为“技能生成器”。

base_sequence_id

​ 这是为了考虑序列是否已被复制。这将指向原始副本,或者如果尚未复制,则与sequence_id相同

skill_id 技能id

skill_name 技能名字

teacher_id 老师id

school_id 学校id

hint_count 提示次数

hint_total

  • Number of possible hints on this problem.

overlap_time

​ 学生的重叠时间? 以毫秒为单位

template_id 模版id

​ 相同的模版id有类似的问题

answer_id

​ 多选题答案id

answer_text 回答文本

first_action

​ 第一个动作的类型:尝试或请求提示。

bottom_hint 底部提示

​ 无论学生要求所有提示

opportunity 机会

opportunity_original 原始机会