快速数据科学出版物的标记

本杰明·本福特(Benjamin Bengfort) 图片来源:https://atom.io/packages/markdown-preview 科学的中心课程是,要理解复杂的问题(甚至是简单的问题),我们必须努力解放教条的思想,并保证发表,矛盾和试验的自由。 卡尔·萨根(Carl Sagan) :《千亿万:千禧年边缘的生死思潮》 作为数据科学家,很容易陷入细节。 我们正忙于实现Python和R代码以从数据中提取有价值的见解,训练有效的机器学习模型或将分布式计算系统整合在一起。 这些任务中的许多任务,特别是与数据摄取或争用有关的任务,虽然很费时,但却是数据科学家日常工作的基础。 但是,我们经常忘记的是,我们不仅必须是数据工程师,而且还必须是数据科学知识体系的贡献者。 如果数据产品从数据中获取价值并生成更多数据作为回报,那么数据科学家将从先前发表的作品中获取其价值,并应生成更多出版物。 确实,机器学习无处不在的原因之一(请参阅与Stack on Overflow上的ML相关的许多带有Python标签的问题)是由于科学研究的精心撰写的博客文章和工具(例如Scikit-Learn)而得以快速实施的。各种算法。 尤其是Google,通过发布有关其方法论的系统论文来推动数据产品的增长,从而能够创建诸如Hadoop和Word2Vec之类的开源工具。 通过为软件和建模建立坚实的基础,我们能够更快地获得更大的结果。 探索,讨论,批评和实验都使我们能够通过利用数据社区的集体才智来拥有新思路,编写更好的代码并实现更好的系统。…

我敢说你永远不会再使用tf-idf

朱莉娅·席尔格(Julia Silge)是天体物理学家,R大师和美丽图表的制造者,她是一位数据科学家,从任何角度来看,它们似乎都是舒适快乐的猫,他们团结了存在的最美好的祝福。 并且生活在这个世界上几乎没有什么让她烦恼或烦恼的。 我向你保证,亲爱的读者,让这样的灵魂烦恼不会令人感到高兴。 但是,我怀疑TF-IDF先生向她(和她,他!)展示的所有款待和友善对可怜的茱莉亚有危险。 如果她不注意的话,我担心她可能会被要求永远沉下去。 因为尽管她认为TF-IDF先生的陪伴非常愉快,但我确信这场比赛很少推荐。 乌夫,好吧,这很累。 我回到自己的声音,而不是尝试简·奥斯丁的。 你好 这篇文章对从事文本分析的人们可能有用,也许对于简·奥斯丁的粉丝们来说很有趣,他们想知道哪本小说是简·奥斯丁在她最接近奥斯丁的那一本书,以及她的先驱者/同时代人与她的风格最相似。 老实说,整个文章的主要对象是:茱莉亚·席尔格(Julia Silge),我很欣赏他的作品。她和戴维·罗宾逊(David Robinson)最近在一本有关文本挖掘的书中放了许多有用的R代码和解释。 这篇文章基本上是我和我交换的一些推文的后续。 如果您喜欢这里和/或Julia和David的书中的内容,您可能还想使用我在食物评论中探索的方法来检查Jason Kessler的github和Dan Jurafsky等人的东西。…