机器学习理论与实践的平衡

理论和实践是数据职业的互补方面,尤其是机器学习的从业人员。 人们通常会根据自己的自然兴趣和学习方式而掉入理论实践围栏的一侧。 但是要在这个领域变得出色,就需要您积极地在我们阅读的概念和我们面临的现实场景之间取得平衡。 那么如何平衡呢? 建立您所阅读的内容! 您需要构建东西; 很多事情。 您需要构建一个神经网络,并查看其如何像文档或日记一样执行任何操作。 您需要尝试Kaggle比赛,看看自己尴尬的低排名盯着您。 您需要一起破解一个javascript应用程序,该应用程序试图在后端运行ML算法,只是由于未知原因而停止运行。 许多人因为不舒服而回避建筑。 不断地跟踪错误,无休止地遍历堆栈溢出,试图将如此多的交互部件整合到一个系统中。 另一方面,阅读很有趣且容易,因为材料像一个完美的小故事一样流动。 所有概念都已经摆放到位,我们正在使用的叙述是我们所有人都希望事情能够成功的方式。 但是,如果您不感到不适,就不会学习。 理论上和实践上当然都是这样,但我认为阅读起来容易些。 当我们翻阅期刊并理解概念时,我们会感到很好,但仅阅读其他方面的成就,您就不会在自己的领域有所作为。 如果您建立了自己的阅读内容,并且失败了(并且将会失败),您将获得无法通过阅读吸收的理解。…

在数据中寻找摇钱树客户

这是我30天写作挑战赛的第五天 。 在接下来的几周中,我将执行一项任务,以尽可能多地学习机器学习。 我将在本月晚些时候开始一份新工作,在那里我将建立一个机器学习团队,所以我想开始一个良好的开端。 到目前为止,我们主要集中在有监督的学习上。 也就是说,需要我们通过输入数据并告诉结果结果来训练模型的算法。 我们探索了tf-idf来查找文档中的重要单词,然后使用贝叶斯分类基于文档中包含的单词对文档进行分类。 昨天,我们在尝试将机器学习应用于不需要的问题时遇到了麻烦。 今天,让我们看看无监督学习。 即,在原始数据中找到模式和相关性的算法。 我想改变方向,远离寻找文本的见解。 想象我们经营一个移动网络,我们所有的客户每月都支付打个电话的费用。 可以肯定地说,我们的某些客户将比其他客户更有价值。 有些客户每个月都会使用他们的全部通话时间,而有些客户只会偶尔使用他们的电话。 我们希望将每个客户分配给三个组之一。 我们的摇钱树(花很多钱但不消耗很多资源的人),我们的狗(花很少钱但是却消耗很多资源的人)以及介于两者之间的那些人。 我们可以为支付最多但使用分钟数最少的客户提供折扣。 我们可以为支付最少但使用最多时间的客户提供不同的计划。…

撰写有关数据分析的文章

我们面临的许多重大问题都以某种方式与数据和数据分析相关。 不是全部,而是很多。 最近几周,我们已经看到其中一些浮出水面。 我们所做的很少,组织的实践也很少受到数据的影响。 数据分析现在可以深入到我们所居住的结构中。 令我震惊的是,在这种数据密集型环境中,权力的增强掌握在那些能够调解和操纵数据流通的人的手中。 这些新型知识需要进行严格的审查。 关键数据研究中的许多工作都积极地做到了这一点,但是在我看来,这是一个机会,可以将更多的注意力集中在那些调节我们数据流通的人身上。 从这一观察开始,在过去的几年中,我一直在写一本有关数据分析的书。 最近完成的一本书《数据凝视:资本主义,权力和感知》试图开放数据分析,以了解数据主导的方法如何在整个社会世界中传播。 就像我们复杂的媒体环境的许多方面一样,事实证明,要掌握它是一件棘手的事情。 标签“数据分析”是一个笼统的术语,它包含了许多不同类型的公司和实践。 问题是从哪里开始以及如何构建这些强大的调解人的形象。 为此,这本书着眼于如何设想数据,以及这些愿景如何与数据基础架构和实践联系起来。 我想尝试了解有关数据以及特定细节的广泛变化。 首先,我只是简单地想象如果我是一个寻求扩大数据使用范围的组织的一部分,我会怎么做。 使用一些搜索词,我创建了一个不同类型的数据分析提供程序的样本。 我开始建立有关该行业的信息档案,然后发现一个新的查询线索。…