说在前面
论文名称:
PYKT: A Python Library to Benchmark Deep Learning based Knowledge Tracing Models
https://arxiv.org/pdf/2206.11460.pdf
作者试图回答两个问题
- 什么是DLKT算法的合理、可靠和现实的评估过程?
- 学生数据、模型设计和预测情景的不同特征如何影响模型性能 ?
0 问题定义
E =< q, {c}, r, t >
q 问题
c kc的集合
r 对还是不对
t 学生的响应时间戳
1 模型分类
- 深度顺序模型
DKT, DKT+, DKT-F,KQN
KQN:使用学生知识状态编码器和技能编码器通过点积来预测学生的反应表现,通过点积预测学生反应
KQN 可以看看 很像啊 我不说是啥 很像双塔的说
- 内存增强模型
DKVMN
- 基于对抗的模型
将对抗性扰动等对抗性训练技术应用到原始学生交互序列中,以降低DLKT过拟合和有限泛化问题的风险
ATKT
- 基于图的模型
GKT
- 注意力方法
AKT,SAKT,SAINT
上述方法不具有排他性
例如SKVMN
2 数据集
- Statics2011:此数据集收集自2011年秋季在卡内基梅隆大学教授的工程静力学课程[33]。 由[6,10,46]推荐,通过串联问题名和步骤名来构造唯一问题。
- ASSISTments2009:此数据集由2009-2010学年从免费在线辅导辅助平台收集的数学练习组成。 在过去的十年中,该数据集被广泛使用,并已成为KT方法的标准基准[1,9,10,23,43,46]。
- Assistments2015:与Assistments2009类似,此数据集是2015年从Assistments平台收集的。 此数据集是其他辅助数据集中学生人数最多的
- Algebra2005:此数据集来自KDD Cup 2010 EDM挑战赛,包含13-14岁学生对代数问题的回答[32]。 它包含详细的步骤级学生响应。 独特的问题结构类似于Statics2011中使用的过程。
- Bridge2006:此数据集也来自KDD杯2010 EDM挑战赛,其独特的问题构造类似于Statics2011中使用的过程。
- NIPS34:此数据集来自NeurIPS 2020教育挑战赛的任务3和4。 它包含学生对多项选择诊断性数学问题的答案,并从EEDI平台收集[40]。 对于每个问题,我们选择使用主题树中的叶节点作为其KCS。
- POJ:本数据集由编程练习组成,收集自北京编码实践在线平台。 该数据集最初是由Pandey和Srivastava[24]刮取的。
现实世界的预测场景
步骤1
在KC响应数据上训练DLKT模型,当问题与一组KC相关联时,通过将每个问题级交互扩展为多个KC级交互,但问题由多个KC响应组成的
步骤2
首先利用学习到的DLKT模型对上述扩展的KC反应数据进行预测,然后通过聚合预测的KC掌握水平输出最终的问题水平预测。
扩展 在聚合
为什么会这个样子捏
KC 比问题相比 数据简直太少了的说
4 训练
- 将问题扩展成kc
- 首先使用学习到的DLKT模型对上述扩展的KC-response数据进行预测,然后通过聚合其kc的预测掌握水平来输出最终的问题级预测
问题
标签泄露 注意看结论二
这将导致地面真相的泄漏,因为连续的kc,如kt和kt+1可能与相同的问题相关联,这被称为标签泄漏问题。(类似于 图中的k3 和 k4 先后预测 如果k3 和k4 存在相关关系,就会存在标签泄露问题)
KC聚合
一步 和 多步预测
(1)超前一步预测;
(2)多步超前预测。
具体来说,提前一步预测任务仅预测学生在给定学生历史交互序列的最后一个问题上的反应。而多步提前预测任务预测学生的反应跨度给定学生的历史交互序列。准确的一步提前预测将极大地改进实时教育推荐系统,多步提前预测将为学习路径选择和构建提供建设性反馈,并帮助教师对未来的教材进行适应性调整。
标准化的数据处理
- 数据过滤 去除空值和重复值 以及 交互数量小于三的集合 四元组中缺失的也得去掉
- 80% 20% 其中 80% 被分成5叠 4叠训练 1叠验证
- KC子序列生成用于训练和验证。 当一个问题有一个以上的KCs时,通过重复回答多次将原始问题-响应序列扩展到KC级别,每个KC对应一个KC。 将扩展后的KC水平响应序列截断为长度为m的较短子序列,其中m为预定义的最大训练序列长度。 小于m的序列将由-1 填充
- 默认情况下,我们选择使用LF-AVG进行KC预测融合
结论
- 注意机制对DLKT模型性能影响较大。首先将深度学习应用于KT问题的DKT模型仍然是优秀的。
- 对扩展KC序列的逐个评估会导致标签泄漏问题,从而导致性能膨胀。(注意看table2 和 table1)
- DLKT模型对于具有非常长的交互序列的学生表现不同
- 不同KC聚集方式的预测结果基本一致,“后期融合-平均”方法的预测结果略好于其他方法
- 在多步超前预测情况下,累计或非累计预测的选择对DLKT性能有很大影响
限制
问题侧信息 :
(1)问题文本内容;
EKT,EERNN
(2)各KC的潜在问题变化;
AKT
(3)问题难度等级;
AKT,PEBG,MF-DAKT
(4)问题之间的关系。
RKT,MF-DAKT,PEBG
学生侧信息 :
(1)历史成功尝试和失败尝试;
MF-DAKT
(2)最近的尝试;
MF-DAKT
(3)学生学习能力;
DKT-DSC
(4)学生的个性化先验知识。
CKT
KC侧信息 :
(1)潜在知识表示;
AKT,KQN
(2) KCs之间的关系。
PEBG