《如何说谎达雷尔·霍夫的统计数字》中的摘录小小书 XXshu

在完成了Udacity的统计课程之后，我了解了样本选择及其规模对于进行研究证明的重要性。有很多随机研究可用，任何人都在发表论文，但是论文执行的精确度是我心中的一个大问题。然后我碰到一本书“达里尔·霍夫（Darell Huff）如何撒谎”。啊! 标题太有趣了。然后我开始阅读…

这本书是关于如何每天偷偷摸摸地使用统计数据的绝妙入门。这里有一些值得参考的选择…

“要赚钱，基于抽样的报告必须使用代表性样本，该样本已消除了所有偏见。”

您看到的许多结论都来自样本太小，有偏差或两者兼而有之。

当您听到一个统计数据，例如，平均每天美国人刷牙1.02次时，问自己：“他们怎么能弄清楚呢？”是否可以对其进行有效研究有意义吗？在这种情况下，他们不得不问，您是否认为这是人们撒谎的安全假设？

平均均值有三种，中位数和众数。在正态分布中，三个将彼此靠近，但是在不规则分布中，每个将得到截然不同的数字。这些数字可能是非常不同的，例如，记者和其他人将选择最能支持其论点的数字。 选择哪种平均数对当前员工的平均工资和所有者的利润有很大的不同。

组织一直在进行实验，直到获得所需结果为止，而丢弃了 “未能产生重大发现” 的实验 。对于较小的样本，您将拥有较大的方差。书中描述了一些示例，例如，掷10枚硬币，您可能会获得8个头，但100枚硬币的硬币中，您可以获得80个头的可能性要小得多。

有两种测量误差的方法，可能误差和标准误差。可能的误差基于测量设备的故障量来测量测量误差。例如，如果您使用的尺子是英尺3英寸，那么整个试验的测量值是+/-3。当根据正面或负面的结果制定业务决策时，这种差异变得很重要 。

这三个都是相同的图（明智的数据），但明智的印象却非常不同：

您必须查看两个轴上使用的数据范围。

如何处理图形以便显示膨胀/缩小的图片 （基于您在图形上绘制的内容）。一些技巧包括-遗漏了轴的度量，不标记轴仅留下数字，因此让读者自己做出假设。

“如果您无法证明自己想证明的东西，请证明其他东西并假装它们是同一回事。”

例如：“您不能证明自己的发霉药可以治愈感冒，但是您可以发表（大写的）宣誓的实验室报告，其中半盎司的物质在十一秒钟内杀死了试管中的31,108个细菌。”

您可以证明晴朗的天气比大雾的天气更危险。在晴朗的天气中发生更多的事故，因为晴朗的天气比有雾的天气多。尽管如此，雾气可能会更加危险。

您还可以通过许多不同的方式来表示相同的数据：“通常有很多表达任何图形的方式。例如，您可以表达完全相同的事实，称其为销售回报率为1％，投资回报率为15％，利润为一千万美元，利润增加了40％（与1935年至39年的平均水平相比）），或比去年减少60％。”

“有人说，如果B跟随A，那么A会导致B。人们正在做出毫无根据的假设，因为吸烟和低等级并存，吸烟会导致低等级。反之亦然吗？”

它说这些数字表明，如果您上大学，可能会比决定以其他方式度过未来四年的时间赚更多的钱。这个无根据的结论以同样无根据的假设为基础，即既然受过大学训练的人赚更多的钱，他们之所以赚钱是因为他们上了大学。实际上，我们不知道，但是这些人即使没有上过大学也能赚更多的钱。

作者举了一个例子，说明吸烟与不良成绩有关。现在在这种情况下，是因为吸烟是成绩不佳的原因，还是因为成绩不好的人决定吸烟？如何对抗这样的假设？

该地图显示了联邦政府目前在美国收入中所占的比例。它通过在密西西比州以西的州面积上加阴影来表示联邦支出已等于这些州人民的总收入，从而达到此目的。

使用相同的数据，在查看此地图的任何人的脑中，他都会产生完全不同的印象。

2.他怎么知道？

3.缺少什么？

4.有人改变话题了吗？

5.有道理吗？