古腾堡计划中的书籍联系
拿起书,开始阅读。 Gutenberg项目 是一个开源项目,其成员将图书数字化。 迄今为止,已经数字化了超过53,000本书。 在较早的分析中,我展示了有关目录的一些一般见解。 在这篇文章中,我将进行更深入的分析。 我将1.) 为每本书的复杂度计算统计量,并2.) 使用k-means聚类算法简要介绍最大的主题类 。 推荐器引擎可以使用来自1.)的结果来建议具有相似程度的复杂性的标题,以及来自2.)的结果来基于标记的主题来建议相似的标题。 2016年,核物理研究所的波兰研究人员 在经典文献中发现了复杂的分形图案 。 分形是复杂的模式,在不同尺度上是自相似的。 通过在不断进行的反馈循环中反复重复一个简单的过程来创建它们。 股票图,海岸线或实际上是书籍就是很好的例子。 那么为什么书可以通过数学来描述呢?…