Python项目:每年80本书的阅读挑战

步骤2:从XML文件提取文本

第3步:遍历文本,使用正则表达式查找与书号,书名,作者,阅读日期和书名匹配的内容。

注意:事实证明XML文件比我预期的要混乱得多,因此存在一些异常值(例外)。

完整的代码在这里

步骤4:检查循环是否有效

名单中有14篇来自《纽约客》杂志,后来我将其排除在外。

第5步:创建一个熊猫DataFrame

步骤6:通过查找所有错误开始清理数据!

步骤7:从“ Book Quotes”列中,我循环并使用一个正则表达式来计算有多少个引用,并创建了一个新列。

步骤8:一旦数据变得更有条理,我就对数据集做出了三个假设。