
我目前正在攻读Udacity Data Science纳米学位。 第二学期的一个项目向我们挑战,要找到我们感兴趣的数据集,提出3个问题,分析数据集,回答问题,并写一篇博客文章来总结我们的发现。
尽管我分析了很多数据集,但这是我第一次写博客。
Boston Airbnb数据是一个开放数据集,可用于练习您的数据科学技能。
对于此分析,我将遵循CRISP-DM过程的变化。 CRISP-DM是许多数据科学家使用的非常全面的方法。 该过程遵循以下步骤:
- 发展业务(领域)知识
- 发展数据理解
- 资料准备
- 数据建模
- 评估结果
- 部署变更
正如您可能已经注意到的那样,为了保持本文的讨论范围,我不得不调整此方法的几个步骤。 首先,我们不会为任何数据建模,我们将通过统计分析对其进行探索。 第二,我们对结果的评估将回答上述问题,第三,我不会基于此分析进行任何更改,因此我们将完全省略此步骤。
因此,让我们开始吧!
开发业务(域)和数据理解
通过查看列表数据,我对每个列表的价格能告诉我们波士顿的Airbnb场景感到非常好奇。 因此,当然,我们将要探讨的所有问题都与此有关。
快速浏览一下,我可以看到我们具有有关列表的所有主要信息,例如房东信息,物业信息,房屋规则,便利设施,列表价格,列表位置,床位数,浴室,卧室以及如何使用。每个属性中可以容纳许多人(仅举几例)。
通过查看数据,我决定我们将在本文中探讨的三个问题是:
- 每种类型的房间的价格分布是什么?
- 与价格高度相关的功能是什么?
- 波士顿最昂贵的邮政编码是多少?
数据准备,探索和问题答案
幸运的是,为了能够回答所有问题,我不需要使用此数据集的大多数功能。 所需的功能相对干净,因此我几乎不需要进行数据整理。 在不涉及技术细节的情况下,大多数数据争用都是在转换数据类型。 例如,价格表示为字符串($ 1,000),因此我将其转换为数字(1000)。 我对其他使用的功能也做了同样的概念。
用于此分析的功能是:
- reviews_per_month:列表每月的评论数
- host_acceptance_rate:预订接受率
- 可容纳的人数:该酒店可容纳的客人数量
- 浴室:该物业的浴室数量
- 卧室:酒店中的卧室数
- 床:酒店的床数
- 价格:每晚的预订价格
- host_response_rate:主机的响应时间,以小时或天为单位
- 邮政编码:属性所在的邮政编码
- property_type:属性类型(房屋,公寓等)
- room_type:房间类型(私人房间,整个房子/公寓,共用房间)
- neighbourhood_cleansed:物业所在的社区
- minimum_nights:完成预订所需的最少住宿天数
既然我已经在很高的层次上说明了如何清除数据以及使用了哪些功能,那么我将首先回答发布的问题。
- 每种类型的房间的价格分布是什么?

上图显示了所有可用列表的价格分布。 在直方图中很难看到,但是范围从$ 20到$ 1,300。 这种差异很大,主要是由一些异常值引起的。 因此,让我们看一下价格在$ 1,000以下的所有价格。

现在我们已经摆脱了异常值,我们可以清楚地看到所有列表的大部分价格都在40至140美元之间。
为了查看每种房型的价格,我将清单分类为可通过Airbnb预订的所用房型。 以下是每种类型的价格分布:
整套房子/公寓

我们可以看到,所有整个房屋/公寓清单的大部分价格从150美元到220美元不等。
共享房间

我们可以看到,所有共享房间列表的价格从大约20美元到100美元不等。
私人房间

我们可以看到,所有共享房间列表的价格从大约60美元到80美元不等。
让我们看一下以上所有数据的摘要。
房间类型:整套房子/公寓
历史高位:$ 1,300.0
最低价:$ 11.0
价差:$ 1,289.0
房间类型:共用房间
历史高位:$ 500.0
最低价:$ 22.0
价差:$ 478.0
房间类型:私人房间
最高价:$ 350.0
最低价:$ 20.0
价差:$ 330.0
2.与价格高度相关的功能是什么?
为了回答第二个问题,我们将对我们认为与我们相关的功能进行更深入的研究。 从常识上,我可以推断出最重要的特征将与每个属性中可以容纳多少位客人,属性类型和为每位客人提供的住宿(实际的卧室数量(与此类床相比),浴室的数量)有关。 )。 此外,我相当确定在这种情况下,属性(邮政编码)的位置将非常重要。 让我们看看数据是否证明正确我的假设。

如上图所示,与价格高度相关的功能是:
- 容纳
- 卧室
- 床铺
这是价格高于50%的3个修正。
3.波士顿最昂贵的邮政编码是什么?
这是一件容易的事。 从第一个问题开始,我们知道最高价格为1,300美元,代表着南端附近整个房屋的清单。 房子可容纳8人,设有4.5间浴室,5个房间和6张床。
南端社区代表2118邮政编码。

从上图可以看出,2118不仅价格最高,而且价差最大。 在所有数据集中,98%的价格低于500美元。 因此可以肯定地说,任何高于500美元的上市都是少数,而且价格昂贵。
我希望您喜欢阅读这个简单的分析并学到一两个关于波士顿Airbnb场景的知识。
要查看此分析的python笔记本,请查看此GitHub存储库。