AI阅卷翻车 其实是翻在了自然语言处理

人工智能 2025-01-21 14:19www.robotxin.com人工智能专业

随着开学季的到来,美国一款服务于大量学校的AI阅卷系统遭遇质疑。这款系统被学生们轻易利用漏洞,通过输入无关联关键词获得高分。这一现象,引发了人们对人工智能在教育领域应用的深入讨论。

随着人工智能技术的不断发展,教育App纷纷引入智能评分系统,以迅速阅卷和及时出分的优势,赢得了广大师生的欢迎。智能评分系统的缺陷也日渐凸显。英语口语智能评分系统,有时会让英语专业八级水平的人也只能获得80分,引发了家长们的疑虑和不满。

现在,这款AI阅卷系统的“翻车”现象更是让人关注。系统仅仅通过关键词进行评分,导致学生们只需输入相应关键词,即使这些关键词毫无逻辑关联,也能轻松过关甚至获得高分。这样的阅卷方式显然存在问题。

智能评分系统的基础在于设定明确的评判标准。如天津大学智能与计算学部教授熊德意所述,自动测评打分系统需先设定评测标准,然后根据标准设计合适的算法与模型。在AI阅卷系统中,这涉及到对语言文字的深层次理解,包括语法、语义等多个方面,需要运用大量的自然语言处理技术。

制定合适的评测标准只是第一步。如何让机器评价与人工评价保持一致,是智能评分系统面临的最大挑战。这需要综合考虑多种因素,如语言的多样性、如何设计综合性的评测指标等。目前常用的评测方法有其局限性,例如只考虑单词形式的严格匹配,而忽视语义、句法等因素。不同的AI评分系统可能会出现截然不同的结果。

以历史考试为例,一位美国历史系教授的儿子得到的分数与其母亲的评估大相径庭。同样的答案,为何人工评价和机器评价有如此大的出入?这背后涉及到AI算法的复杂性和语言的千变万化。在开放环境、噪音环境下,机器对语言的识别能力也会受到影响。仅仅依赖一种评测方法显然是不全面的。这也解释了为何有时即使加入无关联的关键词,也能轻松过关的现象。

人工智能在教育领域的应用虽然带来了便捷和高效,但也存在着诸多挑战和问题。如何制定合理的评判标准、如何让机器评价与人工评价更加一致、如何适应语言的千变万化等问题都需要进一步研究和探索。只有综合考虑各种因素,才能推动人工智能在教育领域的健康发展。熊德意深入解析了自动评测系统面临的挑战与机遇。他强调,自动评测系统在进行语言处理时,一旦识别出错一个单词,后续测评环节便可能形成错误传播,导致结果大相径庭。这就像上游系统的失误会引发下游系统的连锁反应一样,问题会累积并扩大。对此,我们需要持续探索和改良现有的评测指标和方法。

熊德意提到,目前有很多设计评测指标的方法以及改进手段,比如同时计算准确率和召回率等。还有对评测指标进行二次评测的,即评测的评测,以确保所选指标更为完善,更能贴近人的真实评价。自动评测的难度往往与自然语言处理任务的难度相匹配。例如,用机器评价译文的优劣与生成译文的难度相当;同样地,评判文档摘要的好坏与生成摘要的难度也相近。

谈及人工智能在自动评测中的应用时,熊德意表示传统的自动评测主要基于符号计算。但现在,深度学习等AI技术正在逐渐改变这一局面。借助深度学习,我们可以将语言符号映射到语义空间,并通过计算语义向量的相似度来精准地评价语言内容。即便表达的词汇与机器原先学习的内容不同,只要语义保持一致,机器依然可以做出准确的评价。基于深度学习的自动评测具有应对语言多样性的潜力。但与此深度学习对数据的依赖度极高,需要大量数据来训练模型。

近年来,预训练语言模型在语言表示学习中取得了显著进展。以OpenAI的GPT-3为例,该模型经过海量语料训练,具备强大的语言处理能力。庞大的神经网络也意味着高昂的存储和计算成本。即便如此,AI作为阅卷评测“老师”的优势仍然不容忽视。它们不仅速度快,而且不受疲劳等人为因素影响,能在复杂环境中给出准确判断。AI阅卷系统还能提供学情分析,帮助教师和学生提高效率。

对于主观题的客观化问题,熊德意认为虽然全面实现所有主观题的客观化测评存在难度,但对于某些方面如单词词法、句子语法的测评,我们可以设定具体的评测标准并不断提高准确率。结合人工评测对AI阅卷系统进行复核与修正也是一种有效的提升途径。通过这种方式,我们可以累积大量的评测数据,进一步训练和优化AI系统,使其变得更智能。

展望未来,熊德意坚信,借助自然语言处理等人工智能技术完善主观智能评分系统,将是教育领域的重要发展方向。随着技术与教育的深度融合,AI自动批阅系统将会越来越“聪明”,为教育领域带来革命性的变革。(陈曦)

上一篇:人工智能人力资源的未来 下一篇:没有了

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by