教育数据集特征描述

2023-09-25
作者 limhao
~3.63K 字

写在前头

今日 2023/9/25 卸载了dota2 垃圾垃圾游戏

今天说实话得好好安排下自己的工作时间

中午睡得太晚得努力了起来就干不了啥事情了

嵌入式也不能放着不然找不到工作了

删除流程

缺失值null太多

bottom hist

skill_id

answer_text

answer_id

没区别

type assistment_id

多任务不用的特征

user_id sequence_id base_sequence_id

相同相似的

student_class_id

teacher_id√

school_id

assistment_id

使用的部分

特征

problem_id 分类特征

original 分类特征

position 分类特征

first_action 分类

problem_type（answer_type）分类

teacher_id 分类

hint_count 数值

attempt_count 数值

目标

corret 分类

tutor_mode 分类

数据集中相同特征的部分

**assignment_id **

user_id

assistment_id

problem_id

original

correct

attempt_count

tutor_mode

problem_type

sequence_id

student_class_id

position

type 类型

base_sequence_id

skill_id

teacher_id

school_id

hint_count

overlap_time

answer_id

answer_text

first_action

bottom_hint

12教育数据集

problem_log_id （问题日志唯一标识）

skill 技能

problem_id 问题id

user_id 用户id

assignment_id 分配标识

两个不同的分配可以具有相同的序列 ID。每项作业都特定于一位教师/班级。

assistment_id 辅助标识

一个辅助通常由一个和多个问题构成

start_time 开始时间

end_time 结束时间

problem_type 问题种类

select_1：多项选择（单选按钮）

代数：数学计算字符串（文本框）

fill_in：简单的字符串比较答案（文本框）

open_response：记录学生的回答，但他们的回答始终被标记为正确

original 原创

1 主问题

0 从问题

correct 正确

bottom_hint 底部提示

无论学生要求所有提示

hint_count 提示次数

actions

对这个问题的行动

attempt_count

尝试的次数

ms_first_response

学生第一次回复的时间毫秒

tutor_mode 辅导模式

辅导测试前测后测

sequence_id 序列id

问题集的内容 ID。分配了相同问题集的不同作业将具有相同的序列 ID。术语再次变得混乱，就像几年前 ASSISTments 开始时我们称之为问题集序列一样。但在我们现代使用该术语时，问题集实际上是作为一个序列存储的。大多数序列都很简单，但可以构建一个问题集的分层树状问题集

student_class_id 学生教室id

position 位置

作业的位置

type 类型

三种

线性 - 学生按预定顺序完成所有问题。

随机 - 学生完成所有问题，但每个学生都会以不同的随机顺序遇到问题。

掌握 - 随机顺序，学生必须通过连续正确回答一定数量的问题来“掌握”问题集，然后才能继续。

ASSISTments 将标题部分为掌握类型的问题集称为“技能生成器”。

base_sequence_id

这是为了考虑序列是否已被复制。这将指向原始副本，或者如果尚未复制，则与sequence_id相同

skill_id 技能id

teacher_id 老师id

school_id 学校id

overlap_time

学生的重叠时间？以毫秒为单位

template_id 模版id

相同的模版id有类似的问题

answer_id

多选题答案id

answer_text 回答文本

first_action

第一个动作的类型：尝试或请求提示。

problemlog_id 问题日志id

Average_confidence(FRUSTRATED)

预计学生会因该问题而感到沮丧。值接近“0”表示较少受挫，接近“1”表示较受挫败。

Average_confidence(CONFUSED)

预测学生对问题的困惑。接近“0”的值表示不太混乱，接近“1”表示更混乱。

Average_confidence(CONCENTRATING)

预测学生对问题的专注程度。接近“0”的值表示不太集中，接近“1”的值表示较集中。

Average_confidence(BORED)

预测学生对这个问题感到厌烦。值接近“0”表示不那么无聊，“1”表示更无聊

09 数据集

order_id

这些ID是按时间顺序排列的，请参考原始问题日志的ID。

assignment_id

两个不同的分配可以具有相同的序列 ID。每项作业都特定于一位教师/班级。

user_id 用户id

assistment_id

一个辅助通常由一个和多个问题构成

problem_id 问题id

original 原创

1 主问题

0 从问题

correct 正确

attempt_count

尝试的次数

ms_first_response

学生第一次回复的时间毫秒

tutor_mode 辅导模式

辅导测试前测后测

answer_type 回答类型

select_1：多项选择（单选按钮）

代数：数学计算字符串（文本框）

fill_in：简单的字符串比较答案（文本框）

open_response：记录学生的回答，但他们的回答始终被标记为正确

sequence_id 序列id

student_class_id 学生教室id

position 位置

作业的位置

problem_set_type

三种

线性 - 学生按预定顺序完成所有问题。

随机 - 学生完成所有问题，但每个学生都会以不同的随机顺序遇到问题。

掌握 - 随机顺序，学生必须通过连续正确回答一定数量的问题来“掌握”问题集，然后才能继续。

ASSISTments 将标题部分为掌握类型的问题集称为“技能生成器”。

base_sequence_id

这是为了考虑序列是否已被复制。这将指向原始副本，或者如果尚未复制，则与sequence_id相同

skill_id 技能id

skill_name 技能名字

teacher_id 老师id

school_id 学校id

hint_count 提示次数

hint_total

Number of possible hints on this problem.

overlap_time

学生的重叠时间？以毫秒为单位

template_id 模版id

相同的模版id有类似的问题

answer_id

多选题答案id

answer_text 回答文本

first_action

第一个动作的类型：尝试或请求提示。

bottom_hint 底部提示

无论学生要求所有提示

opportunity 机会

opportunity_original 原始机会

limhao博客

教育数据集特征描述

写在前头

删除流程

使用的部分

数据集中相同特征的部分

12教育数据集

09 数据集

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

limhao博客

写在前头

删除流程

使用的部分

数据集中相同特征的部分

12教育数据集

09 数据集

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可