EdNet 数据集

2022-07-29
作者 limhao
~1.95K 字

前言

作为知识追踪的先锋，这个数据集就像刚进监狱的吴亦凡哥哥一样

大规模分层又大又圆

一个配备人工智能教学系统的多平台自学解决方案。EdNet包含2年多来收集的784309名学生的131417236次互动，是迄今为止发布的最大的公共IES数据集

看看与其他数据集比较

EdNet具有层次结构，将学生行为分为4个不同的抽象层次

第一章介绍

student： 784309

交互： 131417236

图！

学生使用santa的可能场景。在学生购买了50天的通行证后，他们解决了一个LC问题。当他们解决问题时，他们的所有动作，包括音频播放和选择消除都被记录下来

特性

大规模

EdNet由2017年以来从78 4309名Santa学生收集的总计131441538个互动组成。每个学生在使用Santa时平均产生441.20个互动。基于这些交互作用，EdNet使研究人员能够访问大规模真实世界的IES数据。此外，Santa提供了总计13169个问题和1021个讲座，标记了293种技能，每个问题和讲座分别消耗了95294926次和601805次。据我们所知，就学生总数、互动和互动类型而言，这是可供公众使用的最大的教育数据集
多样性

行为比较多，数据的丰富性使研究人员能够从不同角度分析学生。例如，购买日志可能有助于分析学生对学习过程的参与程度。
层次结构

为了以一致和有组织的方式提供各种类型的数据，EdNet在四个不同的数据集中提供数据，分别命名为KT1、KT2、KT3和KT4。
多平台安卓 ios 网络

不同的数据集

捆绑是共享一篇文章、图片或听力材料的问题集合。例如，ID为q2319、q2320和q2321的问题可能共享相同的阅读文章。

KT1

一个问题回答的对

(q1, r1), (q2, r2), · · · , (qt, rt)

可以用于知识追踪

KT2

解决的问题

问题-回答序列格式的一个主要限制是，它是学生活动的一个非常简明的摘要。例如，在决定一个答案并提交最终答案之前，学生可以在两个答案中的一个选项之间进行选择。这可能表明他们已经将答案缩小到两个选项中的一个，但不确定这两个选项中哪一个是正确的。现代IESs能够记录此类详细信息，但问题响应格式无法有效表示此类情况，限制了使用EdNet-KT1进行的分析

解释

item-id b开头为捆绑 q开头为问题

其他的自己看能看明白

EdNet-KT2是EdNet中最简单的基于动作的数据集，由与问题解决活动相关的动作组成

KT3

在Santa，学生可以参加除解决问题外的各种学习活动。这包括阅读专家评论或观看系统提供的讲座。EdNet-KT3整合了有关这些学习活动的信息。这些信息可以用来推断学习活动对每个学生的知识状态的影响。例如，可以分析每个学生学习某些专家评论的时间，并观察其对不同学习行为和表现的影响

可以算这个记录了一个宏观上的学习过程

e 开头阅读解释

I 开头观看课程

KT4

在微观上能够体现出先选了什么在修改的一个过程

很强

EdNet-KT4中的示例学生数据。学生购买物品后，他们解决了LC问题q878。记录了他们播放和暂停音频的时间戳。他们还去掉了“a”，选择了“c”作为答案。

我能干什么

知识追踪

KT1 EdNet-KT1的大规模数据允许该模型通过深度注意力层捕捉学生互动之间的复杂关系。

移动学习环境中的学习会话退出预测

https://arxiv.org/abs/2002.11624 这个是示例论文

KT4

标签缺少教育问题-预训练任务

https://arxiv.org/pdf/2002.05505.pdf

使用EdNet-KT4作为训练数据集，评估建模在考试分数和复习正确性预测方面显示了最先进的结果，优于自然语言处理社区开发的学习学习学习项目内容表示的预训练方法

强化学习

强化学习（RL）是一种突出的方法[11,6,22,18,17,12]。在RL的背景下，训练策略（例如辅导策略）以最大化奖励函数，该函数评估代理（导师）随着时间的推移的整体教育效果。

KT1 通过历史来结果问题的响应

KT4 可以执行更详细的操作，例如讲师匹配，可以用同样的方法模拟产品购买或答案选择消除。每种选择都权衡了简单性和保真度

结论

本文介绍了EdNet，一个由多平台服务提供商收集的大规模教育数据集。EdNet包含每个用户活动的高分辨率记录，到目前为止，它比教育领域的任何其他公共数据集都大得多。EdNet的层次结构允许研究人员从不同的抽象层次处理AIEd中的不同任务

limhao博客

EdNet 数据集

前言

第一章介绍