步骤2:从XML文件提取文本

第3步:遍历文本,使用正则表达式查找与书号,书名,作者,阅读日期和书名匹配的内容。
注意:事实证明XML文件比我预期的要混乱得多,因此存在一些异常值(例外)。
- 政府监视和学术思想政策将我们带到1984年。 卡登教授
- 这些新的眼睛和他们所看到的
- 人们期待动作英雄的12件事
- 阅读和下载Jeanine Pirro的在线骗子,泄密者和自由主义者:反对反特朗普阴谋的案件PDF和ePub
- 2017年节礼日

步骤4:检查循环是否有效

第5步:创建一个熊猫DataFrame

步骤6:通过查找所有错误开始清理数据!





步骤7:从“ Book Quotes”列中,我循环并使用一个正则表达式来计算有多少个引用,并创建了一个新列。

步骤8:一旦数据变得更有条理,我就对数据集做出了三个假设。