机器学习的“第一天”入门

在我的上一篇文章《机器学习的第0天入门》中,我向初学者介绍了机器学习(ML)的一些高级概念,并尽力将Supervised ML幕后的一些方法与我们许多人小时候可能学到的共同技能:学习骑自行车。 现在已经奠定了基础,让我们开始构建结构的其余部分,并深入研究典型工作流程中的流程。 当我们更详细地研究这些过程时,我有时会重新介绍我们以前学习的技能(骑自行车)的各个方面,以继续与我们已经介绍的高级概念进行比较。 最后要注意的一点:该博客主要是针对监督型ML的,但是我将尝试指出其他ML方法之间的流程共同点。 A.数据 在开始下一步工作之前,我们实际上是在需要开始处理一些数据以完全了解我们在流程各个部分中正在做什么的时候。 许多介绍型文章使用的是Iris数据集(Fisher,1936年),这就是我们将在此处使用的内容,因此,让我们从对域视图的数据更好的理解开始。 注意:对于初学者来说,这是整个ML过程中最容易被忽略的步骤之一,对于数据科学初学者来说更是如此。 始终牢记,如果可用,请确保您花时间对数据域进行自我教育(即,数据来自何处?它描述什么?)。 在项目之前了解此类信息将有助于更好地定义解决问题的方式。 根据UCI机器学习库: 这也许是模式识别文献中最著名的数据库。 费舍尔的论文是该领域的经典著作,至今仍被频繁引用。 (例如,请参见Duda&Hart。)数据集包含3类,每类50个实例,其中每个类都涉及一种鸢尾植物。 一类与另一类可线性分离;另一类可线性分离。 后者不能线性分离。 预测的属性:虹膜植物的类别。…