书评：数学毁灭性武器-大数据如何增加不平等并威胁民主小小书 XXshu

根据同事的推荐（这是我还没有见面的人）挑选了这本书。到目前为止，互动一直是虚拟的

IT行业的佼佼者，无论是股票市场上的数亿美元宠儿还是新兴的新兴企业，都可以听到鹰派他们的大数据（ mal ）软件的声音。它几乎是当今IT世界中的“蛇油” 。这是解决所有现实问题的“ 银弹 ”。一枚“ 银弹 ”。

是的，大数据的潜力绝对是有道理的，但是它已经远远超出了理解范围。在过去的几年中，我有机会与跨领域的客户一起工作，他们一直非常谨慎地将其婴儿步伐带入BigData的世界。他们中的绝大多数人敬畏地看着大数据平台。他们想加入潮流，为未来的BigData计划创建一个“数据湖” 。

听说过这些吗？

·客户微细分？ BigData是必经之路。让我们建立一个数据湖

·欺诈分析？ BigData是必经之路。让我们建立一个数据湖

·提高销售？ BigData是必经之路。让我们建立一个数据湖

· 运营效率？ BigData是必经之路。让我们建立一个数据湖

。

· 网上约会？ BigData是必经之路。让我们建立一个数据湖

·影响竞选活动？ BigData是必经之路。让我们建立一个数据湖

·公民计划？ BigData是必经之路。让我们建立一个数据湖（在这种情况下，让管理员可以很高兴地以$ 8的价格出售此宝库。您可能会认为它的价值更高，更多。但是事实证明，它只有$ 8足够了）

尽管Data Lake如今风靡一时，但很少有公司以清晰的愿景开始，说明他们希望通过Data Lake实现的目标以及实现这一愿景的步骤。有人可能会争辩说，随着进入大数据超级碗的壁垒不断减少（ 由于基础架构设置中使用了商用服务器，大大降低了成本 ），创建一个大型转储仍然是明智的选择（ 是的。直到您开始从中挤压情报为止 ），然后等待“尤里卡”时刻找出应对之策。

但是随着多个故障逐渐蔓延到系统中，这些数据湖常常最终变成了“垃圾进，垃圾出”的缩影。这些系统具有深远的影响力，能够对以下方面的结果产生重大影响：工作背景检查，健康/汽车保险费（ 或在某些情况下甚至有资格获得保险 ），融资/再融资（ 记住次贷危机）有人吗？ ），监禁刑罚（ 是的，即使他们使用大数据来确定刑罚的轻重程度。顺便说一句-美国的许多监狱都由私人实体拥有和管理。

这种恐惧放错了地方吗？不，不是。以下是凯茜·奥尼尔（Cathy O’Neil）着重指出的一些关键因素，这些因素促使此类BigData计划陷入恶性循环，从而加剧了不平等现象。

1.人类的偏见：最终，人类为这些系统建模。人类固有的偏见也进入系统（有意/无意）。什么是偏见-种族，性别，肤色，城市等。人们可能会再次争辩说，这些偏见也存在于前数字时代。但是在数字化时代之前，这些偏见在更广泛的范围内趋于平衡甚至平衡（至少在一定程度上）。引用作者

“人类决策虽然常常有缺陷，但具有一个主要优点。 它可以进化”

但是在这个由BigData推动的世界中，将这种简单的偏差编入模型后，可以潜在地以非常有效的方式应用于庞大的人群。女士们，先生们，那就是可怕的未来。

这与我2005年的个人经历产生了很好的共鸣，当时我正在寻找学生贷款来攻读MBA。凭着我潜在大学的证明，说我是一名优秀候选人，获得了25％的奖学金（ 根据他们的入学考试 ），我带着一种顺风顺水的幻想来到附近的银行。但是后来现实发生了变化–第一家银行的经理与我共度了大约5分钟的时间，并认为我做错了赌注，因此拒绝了我的贷款。人为的偏见对我不利–我无法显示贷款抵押（ 财产，投资政策（以我的名义等 ））。而我是第一代文盲，我的父母也无法代表他们想像出令人信服的证书（ 学历等 ）。顺便说一下，这就是印度政府已经宣布教育贷款不需要抵押的情况（ 因此，我将其称为银行经理的人为偏见 ）。那么，政府政策就这么多了。

但是对我来说幸运的是，我父亲的一位商业伙伴能够给我写一封推荐信，写给已经与之开展业务的一家银行。这打开了大门，我确实得到了贷款。整个过程与数字化时代之前的时代非常相似，只有您知道通过内部人员提供职位空缺的人，该人也愿意推荐您，您才能找到工作。

就我的教育贷款而言，当我接近其他资金来源时，人为的偏见最终被抵消了，这些资金来源考虑了其他数据点并为我提供了贷款。现在想象一下我在数字世界中的潜在情况，如果那个正好拒绝了我的贷款的经理正好是向BigData推动模型（识别一个人的信用度）提供关键输入的那个经理，那么我和其他所有类似的人对我来说注定了。我们将被拒绝提供贷款，不仅是在该分支机构，而且是在印度银行的所有分支机构，他们都会以相同的模型对我进行评估。诚然—该模型可能会降低银行的呆账风险，而经理人则为他的模型而赞誉，但这也无意中增加了系统中的不平等

因此，您会看到，这些大数据模型可以成倍地放大人为偏见，并且相对容易地大规模进行。这对我来说是可怕的。非常吓人的

2.腐败的数据：我们要应对的不仅仅是人为偏见。好的数据是独角兽。问题不是信息匮乏，而是信息准确性。我们拥有过多的信息，但不一定有准确的信息，这是训练我们的模型所必需的。许多现有的数据，例如说-从位置x选择某人从事y工作的概率/相关性，已经是先前人类偏见的系统性最终结果（ 并非全部，但大多数人都遭受了人类偏见 ）。在许多领域，您无法实际监视/跟踪所需的确切数据（ 由于政府法规，监视精确数据的高昂成本等 ），因此依赖“代理”，这一事实进一步加剧了这一事实。这使破坏数据的可能性更加严重

3.辛普森悖论：辛普森悖论与数据解释有关，并且再次是人为错误，系统可以乘以极大的影响。这是当整个数据显示一个趋势，但是当细分为子组时，出现相反的趋势。一个好的数据科学家/统计学家总是对此负责，并有效地使用了“ 分层 ”。但是，如果符合他们最初的假设，绝大多数人都愿意跳到结论。如果愿意的话，一种“ 期望偏差 ”。

4.没有反馈回路：没有人第一次获得正确的模型。别让别人告诉你。一个好的数据科学家将需要来自现实世界的不断反馈，以不断地调整模型。但是很少有一个模型会根据实际结果持续监控有效性。展望未来-随着更多的行为数据被输入到AI驱动的决策引擎中，它缓慢而可靠地成为人类的不透明黑匣子，从而丧失了质疑模型/结果并提供有价值的反馈回路的能力

以上所有4个重要元素相互补充，可以迅速将BigData模型变成一个巨大的恶性循环

设计BigData系统时，请务必记住Ben叔叔所说的话： “功能强大，责任重大”。 毕竟，他对于同样复杂的网络纺纱主角已经有足够的经验。

有关这本书的更多信息，请访问：https://weaponsofmathdestructionbook.com