为什么“行之有效”在教育研究中不起作用小小书 XXshu

如果要提高教育研究的质量和信息量，就需要养成不良习惯-着眼于教育干预是否“有效”。

试图通过零假设重要性检验（NHST）来回答该问题的努力破坏了干预措施或产品是否会对平均结果产生影响，从而破坏了在帮助学生学习方面取得持续进步的能力。它提供的有用信息很少，并且作为一种积累有关学与教知识的方法而惨败。

NHST如何运作？教育中的一个典型研究问题可能是，使用新数学游戏的学生和未使用新数学游戏的学生的平均考试成绩是否有所不同。研究人员应用NHST，可以评估分数差异是否足够大，从而得出结论该游戏已产生影响，或者换句话说，它“有效”。

原因，数量和对象是谁？
意识：我们难题的缺失部分
您*真正*想要的是什么？
当工作成为游戏
我打算如何成为更好的学习者：–
像学徒一样思考：非正式的辅导方法

这种方法遍及教育研究。它反映在美国政府支持的汇总和评估教育研究的计划中，该计划被恰当地命名为“ What Works Clearinghouse”，并经常用作检验教育期刊出版价值的试金石。然而，自成立以来几乎就受到严厉的批评，批评主要集中在两个问题上。

误报和其他陷阱

首先，在实验研究中，获得效果的统计证据非常容易。对于采用弱化控制，提出模糊理论，比较多个变量，有选择地报告重要结果以及使用灵活的数据分析的教育研究人员而言，尤其如此。当前心理学研究危机中新出现的认识之一是，与其充当负责任的看门人以确保已发表发现的可信度，不如依靠统计显着性检验产生相反的效果，即创建充斥假阳性，过高估计效果的文献，以及研究设计的不足。

假设拟议的干预措施涉及到学生实际上比被动听演讲（通常是教育研究中的典型稻草人控制）要比被动听讲更具认知挑战性，那么只要样本量大，研究人员就可以确保找到积极的区别。足够大。证明教育干预具有积极作用是一个微弱的障碍。再加上广泛的出版物偏向正面研究的偏见，丝毫不令人震惊的是，在教育中几乎所有事物似乎都起作用。

但是，即使解决了与NHST有关的方法论问题，也存在第二个严重缺陷，破坏了大多数实验教育研究所依赖的NHST框架。

空假设重要性检验是认知的死胡同。它消除了研究人员专注于指定和开发可预测和解释干预措施影响的理论可测试模型的需要。实际上，在NHST框架内评估的唯一假设是讽刺漫画，研究人员不相信该假设-这是干预措施的作用为零。研究人员自己的假设从来没有经过实际检验，也没有明确阐明。然而，教育研究人员错误地得出结论：对原假设的否定被视为支持其偏爱理论的有力证据，但几乎具有普遍的沉思。

结果，NHST鼓励并保留了如此模糊，如此缺乏预测力和理论内容的假设，以至于几乎没有用处。它被描述为“不育知识的耙子”，是一项“延缓科学知识增长的活动”。

与普遍的看法相反，发现零假设下不可能观察到数据（例如， p <0.5）并不能提供接受或拒绝任何假设的证据，因为零假设是唯一正在考虑的理论。

仅仅因为零影响下的数据是不可能的，并不意味着在某些替代理论下它更有可能出现。

随着心理学研究人员的意识到，即使是广为人知的理论（表面上有数百个随机对照实验所支持）也可能在仔细审查下逐渐消失，因为对零假设重要性检验的依赖意味着从未真正对一种理论进行过检验。只要教育研究人员继续依靠检验没有差异的零假设作为确定干预是否“有效”的普遍手段，我们将努力提高对如何最好地帮助学生学习的理解。而且，教育领域将继续以“无解释的观察结果集-即仅仅是’邮票收集’”为主导（Ashton，2013年，第585页）。

正如分析家迈克尔·霍恩（Michael Horn）和茱莉亚·弗里兰德（Julia Freeland）所指出的那样，这种教育研究的主导范式还很不完整，如果我们要在如何帮助学生学习的理解上取得进展，就必须改变这一格局：

“有效的研究议程不仅要确定平均有效的相关性，以阐明和检验有关某些教育干预措施如何以及为何在不同情况下为不同学生工作的理论。”

然而，对于主要关注于产生“行之有效”的干预措施的可公布证据的学术研究人员，NHST的无用性质尚未被广泛认为是一个严重的问题。而且由于NHST的研究方法简单，理智上不要求并且相对安全（研究人员极有机会获得他们想要的答案），因此几乎没有动力去改变。

向前进

教育研究人员不必满足于回答产品或干预是否“有效”的问题，而是可以提高其发现的可靠性，并通过以多种方式修改其方法来帮助学生更好地了解如何帮助他们学习，从而感到满意。

认识到NHST可以提供的信息有限。作为推动我们对学习和教学的理解的主要统计框架，它被错误地使用，因为它最终并没有告诉我们我们真正想知道的任何事情。此外，它通过鼓励有问题的研究做法和报告过高估计的干预效果，促进了教育中虚假发现的扩散。
研究人员不应依赖NHST，而应着重于提出理论上合理的预测，然后设计实验以针对有意义的替代方案进行测试。首要目标应该是增进我们对干预措施产生的影响的理解，而不是否定无差异的“无差异”假设，而做到这一点的最佳方法是比较竞争性地描述实验产生的观察结果的模型。
与其对一项干预措施是否平均而言进行二分式判断，不如将评估重点更多地放在探索干预措施对学生和条件子集的影响上。没有一种干预措施对每个学生都同样有效，而尝试去理解干预措施为何或在何处失败或成功的原因是富有创造力和想象力的工作，这是最有价值的。我们必须学会拥抱不确定性，接受变化而不是忽略它。

参考文献

Ashton，JC（2013年）。实验能力来自强大的理论，这是原假设检验中的真正问题。 Nature Reviews Neuroscience ，14，585-585。

该作品最初以修改的形式出现在 EdSurge上 。