书评:数学毁灭性武器-大数据如何增加不平等并威胁民主

根据同事的推荐(这是我还没有见面的人)挑选了这本书。到目前为止,互动一直是虚拟的

IT行业的佼佼者,无论是股票市场上的数亿美元宠儿还是新兴的新兴企业,都可以听到鹰派他们的大数据mal )软件的声音。 它几乎是当今IT世界中的“蛇油” 。 这是解决所有现实问题的“ 银弹 ”。 一枚“ 银弹 ”。

是的,大数据的潜力绝对是有道理的,但是它已经远远超出了理解范围。 在过去的几年中,我有机会与跨领域的客户一起工作,他们一直非常谨慎地将其婴儿步伐带入BigData的世界。 他们中的绝大多数人敬畏地看着大数据平台。 他们想加入潮流,为未来的BigData计划创建一个“数据湖”

听说过这些吗?

·客户微细分? BigData是必经之路。 让我们建立一个数据湖

·欺诈分析? BigData是必经之路。 让我们建立一个数据湖

·提高销售? BigData是必经之路。 让我们建立一个数据湖

· 运营效率 ? BigData是必经之路。 让我们建立一个数据湖

· 网上约会 ? BigData是必经之路。 让我们建立一个数据湖

·影响竞选活动? BigData是必经之路。 让我们建立一个数据湖

·公民计划? BigData是必经之路。 让我们建立一个数据湖(在这种情况下,让管理员可以很高兴地以$ 8的价格出售此宝库。您可能会认为它的价值更高,更多。但是事实证明,它只有$ 8足够了)

尽管Data Lake如今风靡一时,但很少有公司以清晰的愿景开始,说明他们希望通过Data Lake实现的目标以及实现这一愿景的步骤。 有人可能会争辩说,随着进入大数据超级碗的壁垒不断减少( 由于基础架构设置中使用了商用服务器,大大降低了成本 ),创建一个大型转储仍然是明智的选择( 是的。直到您开始从中挤压情报为止 ),然后等待“尤里卡”时刻找出应对之

但是随着多个故障逐渐蔓延到系统中,这些数据湖常常最终变成了“垃圾进,垃圾出”的缩影。 这些系统具有深远的影响力,能够对以下方面的结果产生重大影响:工作背景检查,健康/汽车保险费( 或在某些情况下甚至有资格获得保险 ),融资/再融资( 记住次贷危机)有人吗? ),监禁刑罚( 是的,即使他们使用大数据来确定刑罚的轻重程度。顺便说一句-美国的许多监狱都由私人实体拥有和管理。

这种恐惧放错了地方吗? 不,不是。 以下是凯茜·奥尼尔(Cathy O’Neil)着重指出的一些关键因素,这些因素促使此类BigData计划陷入恶性循环,从而加剧了不平等现象。

1.人类的偏见:最终,人类为这些系统建模。 人类固有的偏见也进入系统(有意/无意)。 什么是偏见-种族,性别,肤色,城市等。人们可能会再次争辩说,这些偏见也存在于前数字时代。 但是在数字化时代之前,这些偏见在更广泛的范围内趋于平衡甚至平衡(至少在一定程度上)。 引用作者

“人类决策虽然常常有缺陷,但具有一个主要优点。 它可以进化”

但是在这个由BigData推动的世界中,将这种简单的偏差编入模型后,可以潜在地以非常有效的方式应用于庞大的人群。 女士们,先生们,那就是可怕的未来。

这与我2005年的个人经历产生了很好的共鸣,当时我正在寻找学生贷款来攻读MBA。 凭着我潜在大学的证明,说我是一名优秀候选人,获得了25%的奖学金( 根据他们的入学考试 ),我带着一种顺风顺水的幻想来到附近的银行。 但是后来现实发生了变化–第一家银行的经理与我共度了大约5分钟的时间,并认为我做错了赌注,因此拒绝了我的贷款。 人为的偏见对我不利–我无法显示贷款抵押( 财产,投资政策(以我的名义等 ))。 而我是第一代文盲,我的父母也无法代表他们想像出令人信服的证书( 学历等 )。 顺便说一下,这就是印度政府已经宣布教育贷款不需要抵押的情况( 因此,我将其称为银行经理的人为偏见 )。 那么,政府政策就这么多了。

但是对我来说幸运的是,我父亲的一位商业伙伴能够给我写一封推荐信,写给已经与之开展业务的一家银行。 这打开了大门,我确实得到了贷款。 整个过程与数字化时代之前的时代非常相似,只有您知道通过内部人员提供职位空缺的人,该人也愿意推荐您,您才能找到工作。

就我的教育贷款而言,当我接近其他资金来源时,人为的偏见最终被抵消了,这些资金来源考虑了其他数据点并为我提供了贷款。 现在想象一下我在数字世界中的潜在情况,如果那个正好拒绝了我的贷款的经理正好是向BigData推动模型(识别一个人的信用度)提供关键输入的那个经理,那么我和其他所有类似的人对我来说注定了。 我们将被拒绝提供贷款,不仅是在该分支机构,而且是在印度银行的所有分支机构,他们都会以相同的模型对我进行评估。 诚然—该模型可能会降低银行的呆账风险,而经理人则为他的模型而赞誉,但这也无意中增加了系统中的不平等

因此,您会看到,这些大数据模型可以成倍地放大人为偏见,并且相对容易地大规模进行。 这对我来说是可怕的。 非常吓人的

2.腐败的数据:我们要应对的不仅仅是人为偏见。 好的数据是独角兽。 问题不是信息匮乏,而是信息准确性。 我们拥有过多的信息,但不一定有准确的信息,这是训练我们的模型所必需的。 许多现有的数据,例如说-从位置x选择某人从事y工作的概率/相关性,已经是先前人类偏见的系统性最终结果( 并非全部,但大多数人都遭受了人类偏见 )。 在许多领域,您无法实际监视/跟踪所需的确切数据( 由于政府法规,监视精确数据的高昂成本等 ),因此依赖“代理”,这一事实进一步加剧了这一事实。 这使破坏数据的可能性更加严重

3.辛普森悖论:辛普森悖论与数据解释有关,并且再次是人为错误,系统可以乘以极大的影响。 这是当整个数据显示一个趋势,但是当细分为子组时,出现相反的趋势。 一个好的数据科学家/统计学家总是对此负责,并有效地使用了“ 分层 ”。 但是,如果符合他们最初的假设,绝大多数人都愿意跳到结论。 如果愿意的话,一种“ 期望偏差 ”。

4.没有反馈回路:没有人第一次获得正确的模型。 别让别人告诉你。 一个好的数据科学家将需要来自现实世界的不断反馈,以不断地调整模型。 但是很少有一个模型会根据实际结果持续监控有效性。 展望未来-随着更多的行为数据被输入到AI驱动的决策引擎中,它缓慢而可靠地成为人类的不透明黑匣子,从而丧失了质疑模型/结果并提供有价值的反馈回路的能力

以上所有4个重要元素相互补充,可以迅速将BigData模型变成一个巨大的恶性循环

设计BigData系统时,请务必记住Ben叔叔所说的话: “功能强大,责任重大”。 毕竟,他对于同样复杂的网络纺纱主角已经有足够的经验。

有关这本书的更多信息,请访问:https://weaponsofmathdestructionbook.com