测评

教育评价新趋势智能评价研究述评.docx

教育评价新趋势:智能评价研究述评 摘要:教育评价改革在我国受到前所未有的重视。 然而,受传统评价方法的限制,个性化评价和过程评价难以有效实现。 教育评价改革需要新方法。 评估技术作为支撑。 计算机技术和人工智能的发展为评估领域注入了新的活力,推动了智能化评估的出现,为我国教育评估改革提供了新的解决方案。 目前,智能评估在学生能力与知识水平评估、人格与心理健康评估、教学过程评估等方面取得了进展:(1)学生能力与知识水平评估突破了纸笔测试的局限性并转向过程评估。 、综合能力评价与动态评价; (2)人格与心理健康评估摆脱对自我报告量表法的依赖,有望实现基于多模态数据的无痕化、伴随性评估; (3)智能分析技术优势 教学反馈使得教学过程的评价更加直接、方便、准确。 智能评估在推动教育评估改革中发挥了重要作用,但在多模态数据应用、模型针对性、精细化、准确性与不可解释性、信度与效度检验等方面仍存在问题。 未来,我们需要探索多模态数据的协同分析。 在权衡模型准确性和可解释性的基础上,提高模型的针对性和精细化程度,打破信息科学和非评估领域的学科壁垒,确保模型的实用性和可推广性。用过的。 可推广且可扩展。 关键词:教育评价; 人工智能; 智能评估; 研究和发展; 问题分析 1 引言 教育评价是教育活动的重要组成部分,是教育活动的“指挥棒”,直接影响教育活动。 动态发展。

当前我国的教育评价改革受到了前所未有的重磅监管。 中共中央、国务院印发的《深化新时代教育评价改革总体方案》从学校、教师、学生等多个方面为我国教育评价改革提出了新思路。 要求。 然而,传统的教育评价方法已经不能满足我国教育评价的需要,也不能为我国教育评价改革提供有效支撑。 人们期望用更可靠、更高效、更智能的手段,整合多维度、多层次的信息,制定更准确、可解释的评价方案,推动教育评价改革的顺利开展。 随着计算机和互联网的普及和人工智能技术的发展,智能技术在教育评价领域的应用和研究已初步展开。 人工智能与教育测量研究的相互渗透,催生了智能评价这一新兴领域。 智能评估将人工智能领域的新兴技术应用于能力评估、性格评估、课程风险评估、学习过程评估等评估任务。 不仅提高了评估的效率和准确性,而且有助于实现过程评估和个性评估。 它可以整合多维度信息,对学生个体进行综合评价,对于解决教育评价问题、推动我国智慧教育发展具有重要意义。 本文将系统梳理智能评估领域应用场景的研究与发展,回顾其存在的问题和未来的发展方向。 2、智能评估的应用场景及研究进展计算机技术和人工智能的发展为评估领域注入了新的活力,推动了智能评估的出现,为我国教育评估改革提供了新的解决方案。

通过对近年来智能评估技术的研究与发展进行系统回顾、总结和深入分析可以看出,智能评估技术已应用于学生能力与知识水平评估、人格与心理健康评估等方面。 ,以及教学过程评估。 在这三个方面,逐步实现了传统评价方式的突破,为推动教育评价改革发挥了重要作用。 1、考核学生的能力和知识水平:突破纸笔测试的局限性。 传统的考核注重对学生能力的最终评价,以单一的考试成绩作为学生能力评价的标准,而忽视了对学生学习过程的评价。 纸笔测试是传统评估中最常用的评估形式。 它们成本低并且易于标准化分数。 他们在知识测试中取得了良好的成绩(Gobert et al., 2013)。 然而,他们解决问题的能力和批判性思维能力较差。 、创造性思维、科学探究能力等综合能力往往存在较大局限性(Gobert等,2013;Quell mal等,2013)。 同时,纸笔测试的问题脱离实际情况,难以测试学生在实际问题情境中的表现; 主观题评分依赖评分员,评分周期长、成本高。 与传统评价方法不同,智能评价在过程评价、综合能力评价、动态评价等方面实现了突破。 (1)过程评估智能评估更注重评估的形成性功能,可以根据长期学习过程数据诊断和分析学生的特定学科知识和能力。

例如,贝叶斯知识追踪技术的发展逐渐形成了动态知识水平分析的解决方案(Piech等,2015),可以对学生的学习过程进行建模,动态分析学生在学习过程中的能力。 为教学提供更多有价值的信息。 赵(2017)将认知诊断中的Q矩阵先验知识引入到数学在线学习场景中的知识追踪技术中,建立了基于贝叶斯理论的可解释的知识追踪模型,并实际评估了学生的知识掌握情况。 并预测学生后续的答案。 此外,一些研究人员在答题过程中利用生理指标数据来分析学生的能力水平。 例如,Rodrigo(2020)在编程教学过程中利用学习者的眼睛数据对学生的编程能力进行实际诊断,分析师生教学互动过程中学生编程能力的变化,以评价教师的教学。 有效性和学生掌握程度得到系统评估。 (2)综合能力评估在大规模的综合能力(问题解决能力、批判性思维、创造性思维、学术探究能力等)评估中,人们开始设计模型(Simulation-Based Assessment,SBA)来代替游戏——基于游戏的评估(GBA)和其他智能评估。这些评估为学生提供了完整、真实和开放的问题情境,让学生在任务情境中自由探索和表达自己(Gobert et al., 2013;Baker et al., 2013)等人,2016;Cui 等人,2019)。

目前国际上许多大型教育监测项目都广泛采用了这种评估方法。 例如,2015年,PISA开始对解决问题和科学探究的能力进行大规模的人机交互评估。 这些新技术增强的评估不仅更符合实际问题情况(Quellmalz et al., 2013),而且使作答过程更容易记录和保留(Akpnar et al., 2014)。 此外,虽然人机交互评估的测试时间普遍较短,但它可以从答题过程中获得丰富的与学生能力和人格特质相关的诊断信息(Gobert et al., 2013; Vista et al., 2016)。 这些丰富的诊断信息往往以“日志文件”的形式存储在计算机的根目录中。 许多研究人员利用这些答题过程数据来分析和诊断学生的知识和能力水平。 例如,何等人。 (2016)分析了PIAAC信息素养测试(ICT)中受试者的反应时间和跳题反应,利用聚类分析将受试者分为不同类别,并探讨了同类型受试者之间能力表现差异的不同原因; 贝克等人。 (2016) 使用决策树和逐步回归,从哈佛大学教育学院开发的虚拟性能测试 (VPA) 生成的过程数据中提取了 29 个特征。 该方法用于对学生的答题过程数据进行建模,真实评价学生的实验设计能力。

(3)动态评估利用人工智能分析方法对测试结果进行自动评分,并对评估结果进行即时反馈,实现动态评估,这也是智能评估的主要研究方向之一。 。 论文自动评分是一种动态的评价方式,不仅减轻了评分者的负担,提高了成绩报告的及时性,而且提高了评分的客观性,获得了更细粒度的评审。 信息。 例如,鑫涛等人。 (2020)基于概念图方法对作文文本进行处理,构建作文文本要点自动评价模型; 付锐吉(2020)利用自然语言处理技术构建了语法错误检测模型。 议论文结构识别模型等,利用这些模型自动提取指定维度的作文特征,进而获得特定维度的作文分数。 除了论文写作之外,短文本回答的自动评分也是近年来教育评价中备受关注的研究问题(Burrows et al., 2015)。 研究人员使用不同的方法来构建短文本的自动评分模型。 例如,马达纳尼等人。 (2017)利用多种监督学习方法,针对科学、数学、英语、艺术四个学科的130个问题构建了自动评分模型,总共23万条答案文本; 西纳尔等人。 (2020 ) 基于土耳其学生理科考试的答题信息,进行分词、加权和特征提取,然后以过滤后的特征为输入,以人工评分为输出,构建了包含bagging的方法方法、自适应提升法、基尼系数算法、支持向量机、K近邻算法等多种机器学习模型,并计算了它们的预测精度(Ci nar et al., 2020); 张等人。 (2016)使用基于深度置信网络(DBN)的深度学习方法对大学物理知识答案文本进行自动评分,并且已经证明该方法比传统模型具有更高的准确性。

综合来看,智能评估可以突破纸笔测试的局限性,可以对学习过程或答题过程数据进行建模。 全新的非交互式考核方式,高保真的测试场景,可以实现对学生综合素质更加精准的考核。 此外,智能评估的自动化和高效性可以为教师和学生提供实用的反馈,实现动态评估。 值得注意的是,从当前的教育评价实践来看,纸笔测试仍然是学生能力评价的最主要方式,总结性评价仍然占据教育评价的主流地位。 在综合能力的测量中,智能考核无论是测试形式还是内容都与传统的测量方法有很大不同。 测量结果往往与传统知识测试的结果不相符,因此在实际应用中还需要进行充分的比较研究,探究差异的原因并提出相对稳定的改进方案。 此外,新评估生成的过程数据包含丰富的诊断信息。 虽然过程数据挖掘已有一些探索性研究,但真正利用过程数据作为教学评价的评估证据的研究还比较少。 很少。 智能测评中针对主观题构建的自动评分模型提高了测评效率,但这些模型的构建过程往往仍然是“黑匣子”。 人们对模型评分过程的信任度不高,评分结果往往作为人工评分的验证手段。 总体而言,智能评估在学习能力评估方面仍处于发展和探索阶段,需要进行更充分、系统的研究。

2、性格及心理健康评估:隐形、伴随性评估。 教育评价改革不仅要求全面评价学生的能力和素质,更关注学生的人格、素质和心理健康。 目前,自评量表主要用于评价学生的人格品质(如性格、兴趣、动机等)和心理健康(如焦虑、抑郁、主观幸福感等)。 自评量表向学生提供一系列客观问题,由学生根据实际情况自行报告是否有某些典型行为,最后根据量表分数评估学生的状况。 自评量表回答的有效性取决于受试者对问题的理解及其回答态度。 同时,自评量表法难以在短时间内多次测量,不能及时、有效地反映学生人格、素质和心理健康状况的发展变化。 智能评估突破了传统心理健康评估对自我报告量表的依赖。 智能评估基于社交媒体在线文本信息、可穿戴传感器数据、音视频数据等多模态数据,通过人工智能分析方法,实现对学生性格和心理健康状况的无痕化、陪伴式评估。 (1)基于社交媒体离线文本数据的智能评估。 社交媒体线下文本数据蕴含着受试者大量的情感和情绪信息,对于人格和心理健康评估具有重要价值。 已经有大量研究使用社交媒体和在线文本数据来评估人格和心理健康。 例如,利用小学生在教科网上的在线写作数据来预测小学生的害羞特质(曹罗等,2020;景丽萍,2020); 使用 Twitter 中的社交媒体信息来预测个人的“大五人格”(Quercia et al., 2012); 利用在线网络数据来预测个人和群体的成长轨迹、性格、态度和兴趣。 进行探索性分析(孔毅,2019); 基于微博分析,比较不同生活满意度用户在社交媒体中文本表达的差异(王晶莹等,2016)。

这些研究证明了使用社交媒体和在线文本数据进行人格和心理健康评估的潜力。 (2)基于生理数据的智能评估。 从可穿戴智能设备和脑电图设备收集的生理数据也用于性格和心理健康评估。 例如,村松等人。 (2016)根据学生学习过程中的眼动数据评估学生的无聊感和缺乏好奇心; 浮士德等人。 (2014)分解脑电图信号并利用测试筛选出异常的抑郁症患者群体。 筛选出差异显着的特征,并基于过滤后的特征构建机器学习分类器,发现利用左右半球大脑活动的最佳预测精度分别为0.982 0.995; 邓等人。 (2019)收集了高情绪障碍者的数据和低情绪障碍者观看不同情绪类型电影时的脑电数据,利用支持向量机建立了预测模型,达到了0.952的准确率。 也有研究人员利用深度模型对脑电图和智能设备收集的数据进行建模,以实现对人格和心理健康问题的更准确测量。 例如,Ay 等人。 (2019)使用循环神经网络来识别脑电图数据中的抑郁症,模型在左半球和右半球的准确率分别为0.935和0.960; 随后,他们利用长短期记忆(LSTM)进行建模,将左右半球的准确率提高到了0.977