为了解决任何机器学习问题,最关键的是要知道我们的数据集完全取决于您要解决的问题。
什么是数据?
数据是原始信息。 它代表了人类和机器对世界的观察。 即,一切都可以用数据表示,艺术,文学,知觉几乎什么都可以。 我们被数据包围。
在进入机器学习或数据科学之前,这是重要的考虑因素:
#数据集数量
当您训练孩子识别一个苹果时,如果您通常给出3–6的例子,他/她将开始准确地做出响应。 无论如何,计算机与人不同。 在这里,您需要提供成千上万的示例,以进行识别苹果的小型模型训练。 这里的数据量完全取决于应用程序。 一般而言,您永远不应使用更少的数据训练模型
#清理和结构化数据集
您应该删除不必要的数据,接下来的重要事情是使数据看起来结构化,确保您的数据必须消除或减少偏差和方差的可能性。
#精选精选
这在使算法最有效地发挥功能方面也起着至关重要的作用
精选精选非常重要。 让我们了解一个日常生活的例子。 假设您必须购买汽车,现在有太多因素会影响您的决定。
#克服了机器学习数据集中数据过拟合和欠拟合的问题。

偏差:学习算法中的一组错误假设。
方差:对噪声的敏感度模型,而不是输入和输出之间关系的重要特征。
这是解决数据科学问题时应牢记的几点。
谢谢阅读。