对话 | 学评融合：人工智能时代的教育评价

　　张生：近年来，教育评价在教育改革中的导向作用愈加凸显，刚才你提到的《深化新时代教育评价改革总体方案》，对教育评价改革做出了顶层设计和具体部署，但改革的关键在于落实。

　　特别是随着以互联网、大数据、人工智能为代表的现代信息技术的快速发展，评价手段更为丰富、多样，为评价改革带来了新的契机。当然，这也迫切需要我们加紧探索，对新时代的教育评价给出有力的回答。

　　魏宁：您提到了新技术发展对教育的冲击，我想这对于教育评价来说既是机遇，也是挑战。《深化新时代教育评价改革总体方案》中就特别指出，“创新评价工具，利用人工智能、大数据等现代信息技术，探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价。完善评价结果运用，综合发挥导向、鉴定、诊断、调控和改进作用”。您如何看待人工智能时代的教育评价？

　　张生：人工智能时代的教育评价改革呼唤理念与实践创新。实践创新的根源在于理念创新，没有先进的理念引领，实践难免落入窠臼。

　　21世纪以来，随着心理与认知测量技术的发展，评价也从“为了结果的测量”转向“为了诊断和改进”，“以学习为中心”的评价理念逐步成为共识。但受制于学习环境与技术条件，“以评促学”在教育实践中仍然存在不少问题。

　　当前，教育已经进入人工智能时代，在物理世界与数字世界双重发展的基础上，深入研究教育评价的新理念、新方法和新技术并运用新模式，是促进教育评价改革的关键。

　　魏宁：在以往“以评促学”的实践中，存在哪些问题？我们应当怎样解决这些问题？

　　张生：首先，是评价与学习分离的问题。为了实现对学习过程与结果的精准判断，评价就必须与学习保持高度的同步性。

　　例如，在学习进入新的阶段前，应尽快发现并改进上一阶段存在的错误概念，以免影响后续的学习，这也是形成性评价出现的主要动因之一。

　　但目前的评价更多是外在于学习过程的活动，这就导致评价给学生和教师带来了额外的负担，如过于频繁的测试、学习过程中提交的文件和照片等记录性数据。这些都是评价与学习分离带来的问题。

　　其次，评价对学生认知的影响有限。这表现在：一方面，评价主要指向学习的行为与结果层面，评价指标中包含了大量的成绩、奖状、证书类的结果性指标；

　　另一方面，仍有大量学习过程游离于评价之外，特别是一些涉及高阶思维、开放性和主观性强的问题。这些都让当前的评价对学生认知的影响有限。

　　再次，学生尚未成为评价活动的主体。评价的目的是提供学习反馈，反馈只有被学生使用，并为其所吸收，才能起到改进学习的作用。

　　在传统评价中，学生只是被动地接受评价。随着评价理念从关注结果转向支持学习，学生的自评和互评才逐步进入教育工作者的视野。但总的来说，学生在评价中的参与度依然较低。

　　我们认为，解决上述问题的关键是让学习和评价真正融合起来，树立并践行学评融合的理念。评价不仅是对目标是否实现的判定，更要通过评价中涉及的发现、检验、反思、评论、参与等过程直接促进学生高阶思维的发展。

　　学评融合超越了对知识技能的学习结果及学习过程的测量，指向了更深层次的支持学习的“元学习”，也就是“学会如何学习”。

　　学评融合是对学习过程评价和学习结果评价的融合统一，通过将评估要素融入学习活动，不仅能真实地反映学业成就，优化学生的学习，还能进一步助力学生未来的学习，促进终身学习能力的提升。

　　魏宁：您刚才提到了要让学习与评价融合起来，对于学评融合这一理念，能否给出更详细的解读？它的概念和内涵是怎样的呢？

　　张生：我们认为，学评融合是基于数字世界的教育。当前，数字文明信息极大丰富，人才培养目标不断转变，基于评价过程和结果运用提升个人、群体思维和数据决策等高阶思维能力，是教育评价理念革新的关键。

　　学评融合理念是统筹评价的学习性和诊断性为一体，强调以多种方式促进学生主动发展的一种评价新理念。它强调通过数字世界将评价融入到学生的学习活动过程中，鼓励人人展示分享成果、人人参与系列评价活动，基于评价过程与评价数据不断反思改进，促进学生自身核心素养的发展；通过数字世界记录的学习过程数据和评价过程数据，建立各种模型来计算学生认知、社会性、心理等多方面素养的发展，再以可理解的方式呈现出来。

　　魏宁：相对于传统的教育评价，学评融合有哪些鲜明的特征呢？

　　张生：学评融合的评价理念有别于传统的评价理念，它至少在五个方面表现出鲜明特征：

　　一是强调评价的学习性和诊断性的融合。这是学评融合理念的首要特征，指先发挥评价的学习性功能，再基于学习过程数据进行数据建模评价，这不同于传统意义上先诊断再改进的评价理念。它的评价流程更简捷，更能指向学生核心素养的发展。

　　它强调依托数字世界，将评价中的各核心要素融入到学习活动中，以学生为主体，鼓励人人参与展示、人人参与对他人的评价，让每一位学生都能在评价活动中提升自己的核心素养，通过评价反馈改进学习。

　　二是强调评价过程是一种高阶思维的学习活动。学评融合强调学生在原有认知展示基础上，在阅读他人作品、评价并提出改进意见的过程中，思维再次得到升华，思维的深度与广度得以发展。

　　这个过程既是总结他人优势与不足、加深对同伴认识的“知彼”过程，又是通过对他人作品进行评价，逐步认识事物的多面性，进而改进自己作品的“知己”过程，通过“知己知彼”的评价活动，发展核心素养，提升思维境界。

　　三是强调基于学习过程的诊断评价。学评融合通过物联网技术、大数据挖掘技术和智能决策与可视化技术，建立学生的认知发展、学业发展、社会性发展等不同方面的计算模型，以及一系列决策预警分析模型，并基于不同地域和群体特征构建不同的学习者特征模型，可以实现动态诊断、决策反馈。不仅能够呈现学生当前的发展状况，还能对未来的发展状况进行模拟推演，从而提早采取措施调整教育教学。

　　四是强调对数字世界的运用。学评融合一定是基于数字世界开展的评价，只有这样才能充分发挥数字世界展示、分享、交流、评价、自动计算、智能决策和可视化的优点。在人工智能时代，数字世界的时空泛在、物理世界的时空拓展，让人人展示、同伴评价、个人反思与改进可以常态化地开展，学评融合的高阶思维特点可以得到常态化的训练和发展。

　　此外，数字世界能够大规模、常态化、个性化地进行数据分析，不仅能为个人提供有针对性的学习过程报告，提出有针对性的建议，助力个性化学习，还能支持科学管理与决策，及早发现区域性、群体性问题，进而大幅度、大规模提升教育教学质量。

　　而在学评融合理念下，人人都能展示自己的优点和不同，也可以发现他人的优点和不同，进而对事物保有充分的好奇，营造出积极向上的育人氛围。

　　魏宁：在践行学评融合这一新的评价理念的过程中，新技术无疑将发挥重要的作用，可以说，学评融合的落地有赖于全新的数字化环境，您如何看待技术对学评融合的常态化、可持续开展的推动作用？

　　张生：新技术对学评融合理念的落实有着重要的推动作用，这主要表现在三个方面：

　　第一，技术可以有力推动学评融合的日常化。学评融合中关键的自评与互评环节，就有赖于信息技术对物理学习空间的时空拓展。将评价活动内置于学习平台中，一方面让评价成为师生的“规定动作”，使其养成评价的习惯，另一方面支持了教师和学生的多样化选择，为师生的日常应用创造了更好的条件。

　　此外，学生还可以随时随地在平台上对自己或他人的学习情况进行回顾总结、评价反思，如在学习平台上撰写学习日记，针对不同学科的不同知识点或内容进行自我评价，以文字形式评价自己是否达到了阶段性的学习目标，分析自己在学习中付出的努力，对当前的学习结果进行归因并提出下一步改进策略，等等。同学之间也可以随时进行交流与互评。

　　此外，在运用评价标准和对评价标准的内化过程中，学生的评估素养和学习能力将同步得到提升。通过为教师提供的将评价标准内嵌于平台的功能，要求学生在评价过程中必须明确自己的评价依据了哪一条标准。还可以通过设置评语最少字数、监测评语内容与评价标准相关性等方式，减少随意评价，让评价过程及内容紧紧聚焦学生认知与元认知的发展。

　　魏宁：通过您的描述，我们了解了学评融合理念下的教育评价的基本样貌，这种以数字世界的运用为基础的新型评价理念，在教学过程中是如何开展的呢？

　　张生：学评融合在实践中的运用，重点强调评价的学习功能和诊断功能。在实际操作中，评价作为一种高级思维的学习活动，包括生成与展示、参与评价活动、反思与改进三个核心阶段。

　　其中，学生思维的生成与作品的展示是学评融合理念落地的基础，它强调教师要利用数字世界重构育人环境，优化学与教的方式，强调学生从消费为主转变为生成为主，从而形成为了生成而消费的新型教与学方式。在学生生成的基础上开展人人展示，展示可以在物理世界中进行，但我们更强调的是让常态化展示和分享发生在数字世界中。

　　以人为核心开展自评或他评的学习活动是学评融合理念落地的关键，我们倡导跨学科的教研方式，核心就是评价一定要以人为出发点。不论自评还是他评，都是学生在主动参与评价，通过多种方式的评价，促使学生不再停留在原有的简单认知上，进而萌发出对事物更深层次的理解。

　　及时性和迭代性的反思与改进是学评融合质量的提升要求。不论是从评价还是从支持自我调节学习方面看，目前大多数的研究还未能聚焦反思阶段，而学生利用评价行为表现信息在反思阶段做出改进是至关重要的。在参与评价活动后，学生将发现很多相似或完全不一样的作品，从而拓展思考问题的角度和方式，以此为基础的反思和改进将是认知水平的又一次提升。

　　魏宁：通过您的介绍，我们看到了学评融合在物理世界与数字世界中相互交融的美好场景。要想开展这样一种基于高阶思维能力的、核心素养导向的评价，新技术和新方法是必不可少的。其实，在目前的教育评价中，也有不少的技术工具用来支持评价活动的开展，您觉得这些工具存在怎样的不足？

　　张生：以同伴互评这一常见的评价环节为例，相关的支持工具可以说非常之多，如PeerGrade是一款支持作业互评的工具，Peerceptiv是一款支持“写作”的文本互评工具，PeerWise是一款支持“出题”活动的工具。

　　像这样的支持互评的工具还有很多，Luxton-Reilly就曾经系统梳理了18种同伴互评工具，它们大都支持评价标准的设置，以及评分和评语两种评价方式，在一定程度上促进了同伴互评的开展。但它们普遍缺乏对评价者与被评价者之间交流讨论的支持，难以通过交流讨论进行迭代反馈。

　　总的来说，这些互评工具主要是站在评价的诊断性角度设计的，还不能满足我们提倡的学评融合下的个性化需求。

　　魏宁：在学评融合环境中，可以通过什么方法、工具克服这一缺陷呢？

　　张生：要想让学评融合这一新理念变为现实，离不开数字世界中全新的评价环境的创设。在目前的教育评价环境下，更多的是以诊断性评价为主，这不利于开展广泛、深入的评价交互，学生的主动性、个性化需求都难以体现。

　　因此，以个性化、项目化、数据化、极简化为原则，创新性地设计各种评价工具和环境，对学评融合的高质量开展具有重要意义。

　　《义务教育课程方案（2022年版）》中将更新评价观念、创新评价方式方法作为深化教学与评价改革的重要侧面，提倡开展作品展示、口头报告等评价活动，关注提高自我评价、总结、反思和改进等能力的功能。在学评融合的环境设计中，我们以主题论坛为载体，设计包括评价卡、实时反馈等工具在内的评价环境，用来促进学生高阶思维和核心素养的发展。

　　具体来说，是借助主题论坛实施评价，主题论坛支持点赞、评分、评语等多种评价方式，以及文本、图片、音频、视频等技术手段，可以满足学生的个性化评价需求。在主题论坛中，师生可以自主选择同步、异步两种交互形式，在交互中建构知识、发展能力。

　　同时，学生在论坛各个环节的发布、回复、评论、反馈等内容都将累积形成数据库，用于多种特征的诊断，为教师改进教学、学生自我反思提供依据。

　　在进行评价时，我们为学生提供在线的评价卡。当学生出题时，它就是一块“答题板”，支持出题、做题两种活动形式；当进行他评时，它就是一块“评分板”，支持标准设置、自主选择。在评价活动中，评价卡产生的过程数据可以挖掘学生的领域能力、评价能力、评价偏好与习惯等，作为教师改进和学生评价的依据。

　　实时反馈工具也是实现学评融合的关键，它重在实时性和可视化，可以促进学生对作品与评价的及时理解和改进。一方面，技术环境在展示、互评、反馈等各环节无需时间间隔，使学生能够实时改进学习；

　　另一方面，实时反馈工具可以通过“分布”功能，以图表的形式展示评分、作答数据分布，通过“排行”功能，以排行榜的形式展示评价参与情况排行，这些方式都以可视化的形式直观呈现复杂数据，促进师生的理解和改进。

　　实时反馈还有助于学生在群体中构建个体经验，调节评价过程。可视化能够帮助学生在评价中了解自己，也了解他人，做“知己知彼”的评价，明晰自己在一个群体中所处的位置。

　　魏宁：学评融合理念下的个性化评价的具体应用流程是怎样的呢？

　　张生：学评融合理念下的个性化评价，一定要以常态化应用为目标。依托上述的主题论坛、各类实时反馈工具，由师生共同完成评价活动，实现评价的学习性和诊断性功能，促进学生高阶思维和核心素养的发展。下面我为大家描述一下它的应用流程。

　　首先设计评价项目，教师在主题论坛上使用评价主题、评价卡创设与学习目标相关的任务情境和活动计划。例如，培养学生的识记能力，教师围绕这一内容出好题目，提供评价标准，学生依据标准对比自身评分、教师评分和群体评分的差异。

　　在评价任务发布后，师生需要应用评价卡分组完成评价。学生可以选择文本、图片、音频、视频、测试题等形式展示自己的作品，并通过点赞、评分、评论、评价卡答题等方式开展评价。学生还可以通过设置分组的名称、类型和优先级，选择期望参与评价的主体，筛选评价对象，满足自己的个性化需求。

　　在整个评价过程中，学生可以通过实时反馈工具的各种功能查看评价与被评价数据的情况，查看不同选项和得分分布，查看群体参与情况排名，接收到被评论的提示信息，在群体中展开深层次的交互反馈，通过协商调整作品和评价。教师可以通过实时反馈工具查看特定群体的作答情况和评分分布，了解学生间的差异，借助回复、评论等功能为学生提供指导，保障活动按计划进行。

　　魏宁：我们看到，学评融合下的个性化评价的应用流程在评价活动的设计上和技术应用的方式上都是非常丰富的。那么，在日常教学中，它又有哪些典型的应用场景呢？

　　张生：其实，学评融合下的个性化评价可以和日常教学的多种场景融合，既可以作为独立的项目式课程，也可以作为一般课堂中的一个评价环节，还能作为课后的项目式作业。不管哪种应用场景，它都需要经历“生成与展示”“参与评价活动”以及“反思与改进”三个核心阶段，但是每个阶段的持续时间、复杂程度需要根据具体情况灵活调整。

　　例如，在独立的项目式课程中，要把提高学生的评价能力作为课程的重要目标，教师需要创设多样化的评价情境，让学生广泛、深入地参与到评价标准制订、作品展示与评价、评价结果解读等活动中，每个活动都要经历生成、展示、评价、协商、反思、改进的过程。

　　魏宁：在人工智能时代，多种技术工具的介入、多样化评价方式的设计，使得学生能够以更加多元化的方式展开评价，大大丰富了传统意义上的评价方法、手段、路径，为学生的评价提供了更多的选择。在这种背景下，学生更喜欢怎样的评价方式？在评价的选择上，有没有一定的偏好？通过您的研究数据，能否为我们揭示一些这方面的“规律”呢？

　　张生：随着人工智能时代的到来，学生的评价方式也在不断发展、创新，各种新型的评价方式不断涌现。在学评融合过程中，学生可以自由选择评价方式，我们通过对大量的学生评价数据的调研与分析，对学生在评价方式选择上的偏好以及不同选择带来的影响进行了一些初步研究，下面和大家分享一下我们的研究结论。

　　在评价方式的选择上，我们通过大量调研发现，经常采用评分方式的学生略多于采用评语的学生，在采用评语的学生中，大约有五分之四的学生选择文字方式，只有约五分之一的学生选择音频或视频方式。

　　在不同性别学生的选择倾向上，男生更多地选择评分方式，而女生更青睐于评语的方式。在评语方式中，不论男生还是女生，选择文字方式的比例都远远高于选择音频或视频方式的比例。

　　从学段上看，随着学段的升高，选择评语方式的学生不断增多。具体来看，各个学段中学生选择文字方式的比例都远高于选择音频或视频方式的比例。

　　透过这些评价方式选择的数据表面，我们还对不同评价方式选择对学生评价反思能力的影响进行了进一步的研究。

　　通过研究，我们认为，首先，倾向选择评语方式的学生的评价反思能力更强。相对于评分方式，评语方式要求学生在评价活动中更充分地阅读与比较，发现他人作品的优势，更深刻地反思自己的作品。

　　与此同时，写评语的过程本身就需要学生投入更多的时间与情感，这能让学生更好地理解评价的意义，深化对评价过程的价值认同。当然，这也不意味着评分方式就全无价值，对于评分这一方式，可以通过设置多维度的评价标准、给出每个等级得分的具体表现性描述等方法，让评分的价值得以更充分的发挥。

　　其次，上面的调查数据告诉我们，在评语方式中，选择文字方式的学生远高于选择音频或视频方式的学生，这是由平台技术的限制、学生相关经验较少、音视频表达方式仍较为浅显等多种原因造成的。

　　其实，音频或视频的评价方式包含的信息量更多，思维交互的层次更深，具有独特的优势。如何充分发挥音视频评价方式的这些优势，让更多的学生尝试这些新型的评价手段，是今后有待进一步加强的地方。

　　总的来说，在人工智能时代，评价方式的多样化进一步促进了学习与评价的融合。在学评融合理念下，评价的技术手段包括文本、音频、视频、直播视频等，评价方式则有评分、星级评价、点赞、评语、价值判断、答题板等。这些不同的手段、方式，结合学生的特点，经过合理的设计，必将发挥出评价的优势，提升学生的思维层次，促进学习与评价的融合。

　　魏宁：这些基于真实评价数据的调查与分析，我想在某种意义上，是有趣的，更是有价值的，对于在数字化环境下开展教育评价的教师而言，有着重要的启发。感谢您为我们分享这些宝贵的研究结论。最后，关于人工智能时代的教育评价，您还有怎样的期许？

　　张生：在人工智能时代，我们每个人都生活在两个世界里，在物理世界之外，数字世界里同样有一个我和你。新型的育人环境一定是物理世界与数字世界共存的，新时代下新的教育评价体系也一定要打通两个世界，以提升学生高阶思维与核心素养为目标，促进学生的全面发展，为国家培养更多的有用之才。