Python项目：每年80本书的阅读挑战

步骤2：从XML文件提取文本

第3步：遍历文本，使用正则表达式查找与书号，书名，作者，阅读日期和书名匹配的内容。

注意：事实证明XML文件比我预期的要混乱得多，因此存在一些异常值（例外）。

完整的代码在这里

步骤4：检查循环是否有效

名单中有14篇来自《纽约客》杂志，后来我将其排除在外。

第5步：创建一个熊猫DataFrame

步骤6：通过查找所有错误开始清理数据！

步骤7：从“ Book Quotes”列中，我循环并使用一个正则表达式来计算有多少个引用，并创建了一个新列。

步骤8：一旦数据变得更有条理，我就对数据集做出了三个假设。

Related Content

为什么“美国心理”比以往任何时候都更重要

阅读《无法忍受的生命之光》后的快速思考

书团的糟糕日子

多样性阅读项目（2018）

晚到晚会：成人学习编码的冒险-TBD的一部分

纽约公共图书馆的秘密

More Interesting

安静：在一个不停说话的世界中性格内向的力量

尤里·加加林（Yuri Gagarin）和真相（第2天）

祷告的一年：我的十二本最佳祷告书

我2018年上半年的书评以推文发表。

你知道你的类型吗？你能帮我找到我的吗？

如何编写书—循序渐进的简单方法第3部分

莫洛奇的眼睛是千百个盲窗

我如何跟踪阅读的书籍

JOHN NIGHTLY的故事-回顾刚刚出版的关于AMAZON的小说-请参阅15 x 5星评论…

了解巴勒斯坦

商业书籍和您的21世纪技能

非自愿协会

曾经和未来的工人：美国工作更新的愿景（Oren Cass）

Web Analytics