统计学中的置信区间是什么?

由:Jesslyn盾牌|
抛硬币"width=
如果你抛一枚硬币,连续出现10次反面的可能性很小。但是抛10次之后,下一次得到反面的概率仍然是50%蒙蒂·拉库森/盖蒂图片社

统计学是两者的混合体数学和概率。统计学的意义在于描述你可以在世界上观察到的过程——橡树的高度或概率疫苗将致力于抵御疾病——不需要测量世界上的每一棵橡树,也不需要在决定一种药物的有效性之前为每个人接种疫苗。18新利最新登入

因为概率描述的是包含偶然性的事物,所以我们必须接受这样一个事实:无论我们用统计学来衡量什么过程,我们都永远无法得到全貌。

广告

为什么使用统计数据?

假设你抛硬币四次。你得到三个正面和一个反面。如果不使用统计数据,我们可能会得出得到正面的概率是75%,而在抛硬币中得到正面的实际概率是1:1,或50-50的概率。如果我们抛40次硬币,我们肯定会得到更接近1:1的正面和反面的比例,而统计数据的使用将反映这一点。

“很多统计学都与从样本(实际观察结果)到总体特征(所有可能的观察结果)的推理有关,”麻省理工学院研究教授约翰·德雷克(John Drake)说传染病生态学中心他在一封电子邮件中说。“例如,我们可能对橡树的高度感兴趣。我们无法测量世界上所有的橡树,但我们可以测量一些。我们可以计算样本中橡树的平均高度,但这并不一定与所有橡树的平均高度相同。”

广告

置信区间

因为我们无法测量世界上所有的橡树,统计学家根据概率和他们所掌握的所有数据得出了一个估计的高度范围。这个范围被称为置信区间,它由两个数字组成:一个可能比真实值小,一个可能比真实值大。真正的价值可能介于两者之间。

德雷克说:“‘95%置信区间’意味着在100次置信区间中有95次是这样构建的,该区间将包含真实值。”“如果我们对橡树样本进行100次测量,基于其中95次实验收集的数据的置信区间将包括总体平均值,即所有橡树的平均高度。因此,置信区间是估计精度的度量。随着收集的数据越来越多,估计也会越来越精确。这就是为什么随着可用数据的增多,置信区间会越来越小。”

广告

因此,置信区间有助于显示估计的好坏。18新利最新登入当我们只抛硬币四次时,我们估计的75%有一个很宽的置信区间,因为我们的样本量非常小。我们用40次抛硬币来估计的置信区间要小得多。

置信区间的实际意义在于一遍又一遍地重复一个实验。在四次抛硬币的情况下,95%置信区间意味着如果我们重复抛硬币实验100次,其中95次,得到正面的概率落在这个置信区间内。

广告

统计的局限

统计数据是有局限性的。你必须设计一个好的研究——统计数据不能告诉你任何你没有问过的问题。

假设你正在研究一种疫苗的功效,但你的研究中没有包括儿童。你可以根据收集到的数据得出一个置信区间,但它不会告诉你疫苗保护儿童的效果如何。18新利最新登入

广告

德雷克说:“除了要有足够的数据,样本还需要具有代表性。”“通常,这意味着有一个随机样本或分层随机样本。假设你假设的疫苗试验的1000名参与者代表了人口,那么可以合理地得出结论,疫苗的真实功效在报告的置信区间内。如果样本不具有代表性——如果不包括儿童——那么就没有统计基础来得出关于人口中未被代表的部分的结论。”

特色

广告

加载……
Baidu