在5分钟内过度拟合与不足拟合(非常简单)

资料来源:iStock

免责声明:本文将非常简短,并且仅涵盖主要思想。 将来会出现更多深入的技术文章。

TL; DR版本
过度拟合=核心记忆
不合身=极端懒惰

那里有大量关于过度拟合和欠拟合问题的资源-一些详细,一些简单。 我决定根据自己的理解写一个自己的故事。 希望它对我和其他人一样直观。

想象你是一个学生。 您需要准备考试。

如果您像我(和其他许多人)一样,您将研究概念,然后继续练习问题。 很公平。

但是,假设您不太了解该材料,最重要的是您没有足够的时间进行适当的学习。 因此,您只需记住所有内容。

我的意思不是只记住数学方程式或其他概念。 您实际上是逐字记住每个练习问题。 这使您在实践考试中获得满分! 好极了…?

终于是考试日。 你有信心 可是等等。 该考试与您练习(或记忆)的考试略有不同……您不知道所有这些全新问题的答案!

因此,您收到该测试的0/100。 🙁

这是过度拟合的问题。 您的模型非常适合训练数据(即练习测试),因此无法有效地对新数据执行。 换句话说,它不能一概而论

现在让我们想象一个不同的场景。 这次,您的朋友也使用研究概念和解决实践考试的相同策略来学习他/她的考试。 但是……学习太无聊了。 您只需为每个问题选择答案选择③。

测试日。 您使用与③简单地为每个答案选择上色的相同策略。 结论是,(不要惊讶)您失败了。

这是不合时宜的问题。 您的模型无法很好地拟合数据,以至于通常无法正常执行。

总体而言,不难看出过度拟合和拟合不足会严重影响模型的性能。 那么我们能做些什么呢?

实际上,您可以采取多种措施来解决这些问题。 除了技术方面,让我们使用相同的测试类比得出一个易于理解的结论。

过度拟合

还记得刚记住的一切时过拟合的情况吗? 尽管背诵会导致效果不佳,但背诵是学习和学习的关键方面。

好吧,如果我们学习时只是保持适度的记忆呢? 记住概念和事实,以便我们能够正确使用和应用它们。

用更多的技术术语来说,这称为降低模型的复杂性

通过“降低复杂性”,您不仅可以掌握正在学习的材料的一般感觉,而且还为自由灵活地应用它留出了足够的空间。

不合身

与类比相关的一种解决方案是与过拟合解决方案的简单相反。

当我们在考试前学习时,如果我们真的学习了呢? 不仅仅是懒惰地让我们的考试步履维艰,付出一些努力将有所帮助。

用技术术语来说,这增加了模型的复杂性

提高复杂性将使我们能够更全面地掌握我们正在处理的材料的趋势和模式。

总而言之,过拟合-过拟合问题是机器学习中非常普遍的困境,因此通常是学生学习的第一个概念之一。

尽管名称不是那么直观(至少最初是这样),但我们只需要记住, 找到平衡点是解决此问题的关键。

希望您喜欢这篇文章。 将来会出现更多文章,其中一些是技术性文章,而另一些则更为简单。 学习愉快!