使用Python和Pandas进行泰坦尼克号数据分析
为了提高我的数据分析技能,我最近参加了有关Udacity的“数据分析入门”课程。 本课程的重点是了解使用Python和以下库的数据分析过程:NumPy,Pandas,Matplotlib。 凭借python的基本背景以及分别在数据分析中的知识,这是对数据整理/修改,研究关系以及创建有用的见解进行共享的很好的入门。 我的课程测验代码可以在其他笔记本中找到(第1课代码,第2课代码),它们是我自己的测验代码和从讲座中复制的代码的组合。 为了总结课程并巩固我的学习,我对Titanic数据集做了一个基础数据分析项目。 我之所以选择该项目的Titanic数据集,是因为我以前的项目已经很熟悉它,并且希望将更多的精力放在实现分析的技术概念上。 我也喜欢Titanic数据集,因为它易于定义非常清晰的客观函数来预测乘客的生存。 我通常按照explorer> wrangle> dive deep> draw Insights的过程进行操作,以下总结了我在每个步骤中对Python / Pandas进行数据分析所学的知识。 可以在此处找到用于此分析的Jupyter Notebook。 我首先将CSV读取到熊猫数据框中,然后使用“…