年度#10周

使用R进行回归和分类,网络抓取工具实现以及通过阅读Cassel和Gauld的“ Python项目”对Python基础进行修订。


这是艰难的一周。 很难找到时间编写代码并继续学习这些主题。 然而,我每天至少花费一个小时来编码或学习未来的项目和目标。


回归与分类

我着迷于处理数据并将其可视化。 因此,本周我花了一天时间来学习回归和分类的区别。 我注意到,许多人将这些术语用作同义词,所以我做到了。 但这不是事实。 两者之间有区别,我想知道这一点,因此我不会犯再次将两者都用作同义词的错误。

只要我想在以后的机器学习项目中使用这些知识,我就搜索了一篇与机器学习有关的解释它的文章。

我在机器学习精通课程中找到了一篇有意义的文章,标题为:机器学习中分类和回归之间的差异。

在对两个术语进行区分之后,我希望像往常一样尝试这些主题。

我从回归部分开始。 因此,我对线性回归模型和逻辑回归模型有一些了解。 在这两个主题中,我都深入研究了数学以真正理解我想编写的代码。

最后,我在R中实现了Logistic回归模型。此刻,我真的很喜欢R中的编码,它是我正在研究的主题的一种很好的编程语言。

此外,我创建了一个Jupyter Notebook,其中包括此模型,以便与他人共享并对其进行评论以重新阅读该主题:

链接到要点

R中的Web爬虫实现

星期五早上,我醒来,想到要写另一个网络刮板。 但是这次我想用R代替Python来实现。 因此,我在网上搜索了有关此主题的资源。

我决定创建一篇文章,该文章可以从Techcrunch.com获取给定主题的最新文章。 但是仅拥有数据不是很有用。 我也可以直接访问该网站并查看概述,或输入关键字进行搜索。

因此,我以与计划不同的方式实施了网络抓取工具。 提取的信息被记录在带有可点击链接的HTML文件中的HTML表中。 此外,我希望按日期对主题进行排序,这花了我一段时间才能实现。

最后,我编写了一个小的bash脚本,可以轻松地在终端中调用刮板,并通过命令行参数指定要搜索的主题。

我将R应用程序上传到GitHub,供那些想使用它或对我实现它的方式感兴趣的人使用。


修订Python基础

您可以使用某种编程语言进行长时间编码,并经常在该语言和其他语言之间切换。 但是,对语言的基础进行修订以重新获得特定特征可能会有所帮助。 我选择了Python,这意味着重新捕捉pythonic的编码方式

因此,我从劳拉·卡塞尔(Laura Cassel)和艾伦·高尔德(Alan Gauld)那里摘了《 Python项目 》一书,有人在Twitter上向我推荐了这本书。

我从一开始就开始使用Python中存在的不同数据类型。 不想跳过任何东西! 这使我一周来都遇到了诸如列表推导之类的Python之类的东西,我想进一步阅读(本文末尾提到了一篇很棒的文章)。

实现几个pythonic特性是我理解它的义务。 我重新学习了很多很酷的东西,这些东西在过去几个月(现在已经)用Python进行编码中已经被我忘记了。 我真的可以建议大家在长时间使用编程语言并在其他语言之间进行切换后,从另一种语言开始学习编程语言的基础知识。


文章和播客剧集

这是我在过去的Wekk上阅读过的文章和片段,我可以向您推荐-继续编码!

文章

  • 使用安全摄像机镜头解释二进制搜索算法
  • 如何在R中执行Logistic回归
  • 如何仅用7行R代码构建Hacker News Frontpage爬虫
  • Python列表理解教程
  • 使用Python进行测试驱动开发的简单介绍
  • 5个Python开发设置技巧来提高您的生产力
  • 如何用17行代码构建一个简单的Twitter机器人
  • 数据科学,机器学习和人工智能之间有什么区别?
  • 您没有写代码的报酬
  • 马尔可夫链导论
  • 5小时规则:为什么要花时间学习
  • 如何克服拖延症,养成高效的日常工作
  • 佛教寺院的10天教了我……第1部分
  • 30种借口阻止您过上最好的生活(以及30种克服方法的解决方案)
  • 9种简化生活的简便方法

集数

  • 使用机器学习来监视和优化聊天机器人— O’Reilly Data Show
  • #153 Python的发展方式-与Python交流
  • #154 Python in Biology and Genomics —在Python和我谈谈
  • 116 | Evanthia Dimara的认知偏差和可视化—数据故事