我进化神经网络学习玩电子游戏的时间
前言(或我如何偶然发现遗传算法和强化学习) 奇怪的是,在2017年初,我对机器学习的知识主要限于经济学中使用的技术:GLM,时间序列分析和各种统计量度。 经济学的目标是找到可以很好地拟合数据的模型,但更为关键的是,它提供了某种方式来解释“现实世界”中发生的事情(在许多情况下给出了虚假的解释,从而最好进行冗长的讨论,或者在最坏的情况下用一些精心挑选的变量来支持某些先验信念)。 我对机器学习的迷恋源于它的反向方法-找到最能预测看不见数据的模型,而很少考虑解释它。 换句话说,将重点放在有效的内容上,而不是可以解释的内容上。 这似乎无限有用,即使它不允许我听起来那么聪明。 开普敦大学统计系出色的学术人员,再加上免费的出色在线资料(尤其是吴安德的Coursera和deeplearning.ai课程),使我得以掌握所需的主要监督和非监督方法和工具。创建有用的模型和分析。 但是,有一些我从未完全理解的东西:一台机器没有一组标记的数据(正确答案的示例)时,如何学习? 这似乎是一个更为根本的问题,因为它非常类似于我们个人面临的问题。 当时我正在阅读Siddhartha Mukherjee的《基因》 (这本书是我建议作为了解遗传学和我们自己的一种便捷途径)。 让我吃惊的是,进化过程是如此复杂,因为突变发生在遗传水平上,但是这些基因以不可预测的方式表达,并且在基因型和表型之间存在多对多的映射。 您不能将物理特征向后工程为一系列碱基对,也不能创建一系列碱基对并准确预测物理特征。 您可以做的是观察自然选择会滤除无法帮助生物体生存和繁殖的特征。 这两个关于我们如何在没有答案的情况下学习的思想,以及有机体如何在遗传水平上突变以根据其在环境中的物理特征进化的思想,使我开始研究遗传算法如何在进化更好的强化学习剂中发挥作用。 强化学习 在许多方面,强化学习(RL)比监督学习更直观,尽管许多RL方法都使用监督学习方法。…