人生火—如何在文本中找到重要的单词

这是我30天写作挑战赛的第二天 ,即将开始建立机器学习团队的新工作。 我将拥有大量的口头和书面文件。 今天,让我们看一下如何减少单词数量而不减少含义。

许多英语是多余的。 它充满了微妙之处,可以帮助散文流在一起而无需提供更多细节。 随着我们开始使用我们的数据来构建机器学习模型,这些多余的词将会被阻碍。

考虑一句“男人成功地生了火”。 相同的含义可以用“人在生火”来表达。 如果您真的这样说话,您听起来会像个尼安德特人,但是我们并没有因为只挑出重要的单词而迷失了要旨。

在最高级别上,我们希望找到特定文档中所有未出现在所有其他文档中的单词。 这意味着我们将立即打折“ the”,“ and”和“ I”之类的词。 我们也不太重视出现在每个文档中的常用词,即在我们的领域中常用的词。

我还没有发明这项技术。 我什至没有通过自己的研究发现这种技术。 我在2015年参加了Canvas Conference,并观看了Joe Polastre的演讲,他描述了Medium如何使用术语频率-反文档频率(tf-idf)自动标记文章。 它以某种方式潜伏在我的大脑中,只是在等待点头。

简而言之,Medium使用此技术从您的写作中提取重要的单词。 然后,他们将您的文章与类似的文章进行比较,以确定他们使用了哪些标签(下一篇文章的主题)。 这意味着他们可以在您即将发布时非常准确地建议标签,例如本文的数据科学和机器学习。