要实现全球最高教育目标，请不要迷失于衡量小小书 XXshu

在围绕标准化测试以及如何最好地衡量学生学习的热情洋溢的辩论中，经常会忘记一个关键事实：评估本身并不是目的，而是目的。他们可以更好地了解孩子们正在学习（或不学习）的信息，这些信息可用于改善课程，指导和最终学生的学习。

此信息有很多不同的途径。不论其设计是什么，胜任的评估都对如何改善结果提供了关键的启示-关键在于实际使用数据。教育工作者在追求历史上最雄心勃勃的教育改善计划时必须牢记这一真理。

上个月，在由联合国教科文组织统计研究所（UIS）和世界银行主办的新的全球学习监测联盟的发起下，捐助者，研究人员，从业人员和技术专家开会讨论了关于可持续发展目标（SDG）4.1报告的选项。该计划保证，到2030年，各国将“确保所有男孩和女孩都完成免费，平等和优质的初等和中等教育，以取得相关和有效的学习成果。”为衡量实现这一目标的进展，各国将报告儿童所占百分比/年轻人（i）2/3年级，（ii）在小学结束时，（iii）和初中结束时，至少达到了阅读和数学的最低要求。

在美国“退出”标准化测试的强劲运动中，值得注意的是，许多其他国家也要求更多。但是在整个SDG流程中，利益相关者都坚信学习不仅是获得教育的机会，而且对于新的教育目标至关重要。那么，负责监督实现这一目标进展情况的教科文组织统计研究所如何将国际，区域和国家评估的复杂拼凑在一起，以汇报学习情况？问题的症结在于“可比性”的含义。在最近的博客中，UIS负责人感叹“每个评估都有其自己的框架和方法，无法比较结果。”但可以肯定的是，我们可以进行排序找出一些有效的比较形式（请注意，与陈词滥调相反，苹果和橘子都是圆形的，可以去皮，有种子，可以在树上生长）。知道技术官僚们倾向于使事情变得比可能需要的技术更多，在这种情况下，以现有努力为基础的简单方法是最佳解决方案。

根据统计研究所的数据，大多数国家已在一个或多个要求的年级上进行了学习评估。各国可以利用这些结果来定义“阅读和数学的最低熟练程度”的含义，并报告达到或超过该标准的儿童百分比。在我的孩子上公立学校的华盛顿特区，有25％的三年级学生的阅读能力达到或更高。数学上是30％。这些数据可以轻松地与其他州和国家/地区符合当地标准的孩子所占的百分比进行比较。哥伦比亚特区的教育官员对能力的定义可能与丹麦或吉布提的教育部门官员的定义有所不同吗？大概。但这有关系吗？只要父母，从业者和政策制定者都在使用数据来推动更好的学习成果，那么每个国家是否以完全相同的方式衡量学习就无关紧要。虽然完全等效的衡量标准可能会使国际机构的官僚们的生活变得更轻松，但坚持采用单一评估方法可能会引起（甚至更多）教师和社区的抵制。在寻求数据完善性时，我们有时会忽略真正重要的部分：是否以及如何使用结果来改善学习。

全球报告应依赖国家，国家或地区或国际上可以提供的最佳学生评估数据。这并不意味着国家可以要求孩子们自我报告自己是否会读书。评估应遵循技术质量的最低标准，并且国家应使用结果设定合理的（不要太高，不要太低）绩效期望。国际统计研究所，美国国际开发署等全球机构应继续帮助各国改进其方法。世界银行对国家学生评估系统的质量进行评级，该框架可以扩展到其他国家。 UIS正在与澳大利亚教育研究理事会合作，共同开发出一个系统，可以将所有这些评估结果统一到一个规模上。

教育部门还应反思健康方面的经验教训。五岁以下儿童死亡率的计算依赖于基于国家/地区的系统，可以通过多种工具进行报告。世界卫生组织提供了有关如何使用所有可用的国家数据（从医院记录或家庭调查等多种来源）来衡量五岁以下婴儿死亡人数与活产婴儿比例的指南。

尽管卫生界一直在争论某些国家可能在作弊（不包括早孕婴儿或低出生体重婴儿），但该指标已对母婴健康倡导产生了强大影响。在1980年代的儿童生存运动期间，儿童基金会及其盟国严重依赖该指标，发出呼吁采取行动，以确保更多的儿童能过五岁生日。有效。

教育与1980年代的卫生状况相似。我们需要确保孩子不仅有上学的机会，而且还要在整个学校（以及以后）里throughout壮成长和学习。而且，我们需要使用最好的数据来动手推动这一信息。本着可持续发展目标发展的广泛协商进程的精神，统计研究所应鼓励各国对精通阅读和数学的含义进行衡量和报告。统计研究所可以而且应该继续在数据汇总和报告中发挥作用，并为合格的质量设定全球标准。但是，它不应让完美主义成为善良的敌人，也不应坚持采用单一的方法。这样做会冒国家拒绝任何有关学习的全球报告的风险。我们希望各国以对他们最相关和最有用的方式来衡量学习，因为这样一来，他们就有更大的机会使用这些数据来改善课堂学习。