让每个人都成为科学家的旅程

在GOJEK中,我们与众不同,认为数据的作用比以往任何时候都重要。 我们在这里做出的每个决定都是基于数据的。 我们的下一个扩展计划是什么? 我们去我们的数据库。 明年我们应该提供什么服务? 让我们浏览一下数据。 我们的客户想要什么? 你知道去哪里。 作为一家高科技公司,对数据进行相关分析对于我们将业务推向新阶段并赢得市场至关重要。 拥有超过1亿的应用程序下载量,敏锐的直觉逐渐失去了吸引力,因为我们需要坚实的基础来支持我们的决策,而不是“当时我的胆量告诉我”。 不,我们不这样做。 BI大学 在此基础上,2018年4月成立了商业智能大学,其主要任务是:使GOJEK中的每个人都成为科学家。 来自各个团队的选定人员将在商业智能(BI)团队的指导下进行为期六周的指导,以吸引和利用数据来创建更有效的决策过程。 该计划的灵感来自于AirBnb的数据大学计划,该计划旨在鼓励员工授权他们做出数据明智的决定。 直接参与程序管理的丽贝卡·罗塞里尼(Rebecca Rossellini)说,最初提出这个主意是作为一种解决方案,它可以通过使每个人都可以访问他们所请求的数据并鼓励自助服务流程来减少对BI团队越来越多的请求。 首先将向参与者告知我们在GOJEK中拥有的数据仓库以及可以提取哪种数据。…

我想成为数据科学家,第1部分

我叫托比亚斯。 我在大学期间学习经济学,从杂货店装袋手到酒店经理,都从事过各种工作。 我从来没有研究或做过任何可能被视为“技术领域”的事情。 几个月前,我还无法告诉您什么是编译器,但我还是决定从事数据科学事业。 同时,我决定记录学习进度,以便: a)回馈社区-我什至不知道该怎么称呼-庞大的在线资源,其中99%的问题都可以通过快速的Google搜索回答 b)内化我的进步,并给自己一点社交压力,使自己能够通过 c)对我学到的最重要的东西进行心理评估 这是我从不知道一个字节中有多少位(或者是一个字节中的字节?)到成为技术社区中富有成效的成员的道路的起点: “什么是数据科学家?” 如今,这个问题越来越频繁地被问到,并且也有许多人,博客和新闻报道回答,辩论和推测这个问题,所以我什至不在这里尝试。 据我所知,我可以总结出数据科学领域的最好方法是统计,计算机科学和领域专业知识之间的交叉。这是一种跨学科的方法,可以回答诸如“一般的TwitterSphere对网站巨大的混乱感觉如何”的问题。还是“昨晚的奥斯卡奖?”或“珍妮弗会更喜欢看《 纳科斯 》或《 新来的橘子 》吗?”或更严重的问题,例如“根据鲍勃目前的消费水平,鲍勃患心脏病的可能性有多大?” “我从哪里开始?” 至少可以说,从头开始独自学习诸如数据科学之类的过程似乎令人生畏。…

数据分析实用指南

在过去的几个月中,我有很多朋友,同事和熟人给我发送电子邮件,询问我如何获得数据分析工作或如何学习数据分析技能。 这篇文章是我的回复的总结,对于您想从事分析工作还是只是想扩展自己的技能范围都将有所帮助。 是什么让您对数据分析感兴趣?您是如何找到第一份工作的? 我放学后的第一份工作是数字媒体购买-我们有分析师支持我们,我们还使用了由算法和分析提供支持的工具。 我一直喜欢这份工作的一部分(分析和利用数据工具),而不是真正的媒体购买纪律。 那是我最初引起我兴趣的地方。 我能够利用自己的一些数字媒体经验,以及在(无关的)硕士课程期间进行的有限学习(以及一些良好的面试),进入一家完全专注于大数据分析(清晰)咨询公司的领导力发展计划见解)。 如果我想进入分析领域,应该在学校学习什么? 业内对此有很强的见解,但我的观点是,获得何种学位并不重要,而是在学校期间获得的技能和知识。 我本人毕业于拉丁美洲研究,并拥有国际关系硕士学位-与数据分析完全无关。 但是,当我获得研究生学位时,我可以与学校的业务分析计划进行交叉学习,在那里我学习了有关SQL,数据库设计和预测建模的基础课程。 我的国际学习课程也有相当强大的统计要求,这也非常有帮助。 如果您强烈希望选择特定的学位课程,那么信息系统或统计专业的学位都可以帮助您获得分析工作或学习数据分析技能(意味着减少学习时间)你自己)。 现在,许多学校也在提供实际的数据科学/分析程序(但是,请帮自己一个忙,并仔细阅读课程要求-这些程序有些“蓬松”,这意味着它们在任何一个主题上都不够深入,以至于不能是有用的(或者某些设计具有更多计算机科学的角度),在某些分析角色中这可能是非常重要的,但对所有人而言却不是必需的或非常合适的,这可能会令人沮丧。 请注意,尽管我个人认为您不需要技术学位就可以成为优秀甚至出色的数据科学家/分析专家,但许多公司,人事部门和专业人员甚至都不会在没有技术学位的情况下看您。 我个人认为这是招聘的一种短视方式,但确实存在这种态度。 您在分析工作中使用的或数据分析师应了解的基本技能是什么? 一开始要学习的最好的东西与ETL和数据清理有关,这可能非常无聊,耗时且单调,但是(以我的经验)却占了企业所面临问题的80%。…

兔子更多

《经济学人》最近发表了一篇不错的文章和图表,详细介绍了每个国家在联合国演讲的平均讲话时长。 在本文中,我们对分析进行了一些调整,以查看一个基本变量GDP。 《经济学人》杂志客气地让我们访问了他们的源数据,然后我们继续使用GDP数据进行补充,然后将其汇总为口语参与次数,而不是原始文章中使用的平均语音时长。 数据集从2010年扩展到2015年。我们没有采用这些年的平均GDP,而是采用了一种更简单的方法,并获得了每个国家的2013年GDP(以2016年美元为单位)。 最终数据集可在此处以csv的形式获得。 DataSplash在散点图中显示这些数据,并立即显示智能结果。 我们在“ DataSplash关联”选项卡上看到正相关但无关紧要的关联。 但是,通过对散点图的目视检查,我们发现在GDP方面有两个大的异常值似乎在影响趋势线,分别是美国和中国。 左侧的数据变得混乱,但是我们仍然可以通过将鼠标悬停在该点上来识别每个国家。 在DataSplash中,我们可以轻松删除这两个离群值。 只需右键单击与要删除的数据点关联的点。 除去这些离群值之后,我们看到了新的关系,它既重要又重要。 旧的关系用虚线显示,新的回归线用实线显示。 在对数据进行简短的探索之后,分析师通常会尝试进行因果关系的解释。 也许较贫穷的国家没有被赋予向富裕国家大喊大叫的权利,或者也许较富裕的国家已经获得了极大的智慧,因此它们花费更长的时间进行交流。 显然,对于法国人,我们也有文化上的解释。 随意研究其他模式。…

机器学习的“第0天”入门

本杰明·曼宁博士 我相信我们可以从我们的经验中学到最好的知识,当我们分享有关我们的经验的故事时,我们可以分享同样的经验。 我喜欢向人们教授东西; 我真正喜欢谈论和教授的一个主题是机器学习(ML)。 多年来,我已经向各种水平的各种学生教授ML。 不要相信炒作-学习者不需要在任何给定领域的任何类型的特定背景知识或领域知识,就可以理解甚至将ML概念应用于问题。 当然-在任何领域的经验都可以帮助您,但是许多人可能会向潜在的学习者表明,要使他们入门,需要掌握大量的统计或数学技能,而事实并非如此。 实际上,在本文的其余部分中,我将表明,任何人只要了解并完全理解整个ML过程,就需要对我们自己的学习有一个总体了解。 在那些更有经验的人向我尖叫之前,请记住这是为学习第0天的学习者而写的,目的是提供一种整体的,易于理解的,无需担心的方法。 因此,让我们开始吧-快速讲故事! 童年最美好的回忆之一是父亲教我骑新自行车。 我认为这是我的第一次“真正的”硬敲击经历,因为父亲没有告诉我如何骑自行车,而是让我每次尝试并最终摔倒时都会稍微失败。 看来,我永远都不会到达那里,但我会根据每次尝试骑行时所学到的正确经验,缓慢而可靠地推论出自己做错了什么。 在我的经验和实验过程中,我对每个变量进行了调整,直到结果类似于我自己走到穷途末路并与最快的朋友一起骑行所需的外表。 当时我几乎不知道,无论结果如何(失败还是成功),每次迭代都代表着一种学习经验,我正在学习如何管理诸如平衡,动力,速度甚至毅力之类的东西。 最崇高的荣幸就是理解的喜悦。 达芬奇(Leonardo da…