在古腾堡计划中的外观
这是什么? 古腾堡计划(Project Gutenberg)是网络上最古老的开源项目之一,许多文学爱好者加入了世界上最伟大的经典著作并将其数字化。 迄今为止,已经数字化了超过53种ooo书 。 为了分析数据,我编写了一个脚本,该脚本每天都会更新目录的个人副本。 这篇文章的数据已于2016年12月23日下载。 我如何获取数据? 我编写了一个Python脚本,该脚本可获取XML目录的当前状态,并每晚将其写入RaspberryPi上的简单SQLite数据库中。 这篇文章所需的数据分析非常简单,并且使用SQL和R完成。 最好尽快从古腾堡计划中读一本书……。 目录的增长 古登堡计划的第一本书是《美国独立宣言》,于1971年12月发行。自那时以来,已经出版了53,000多本书。 这个开源项目经受了时间的考验,仅在2016年就发行了3000本书,与2006年至2016年的年度书发行量大致相符。如下图所示,社区经历了最活跃的时期。 2004年和2006年。