为什么使用统计数据?
假设你抛硬币四次。你得到三个正面和一个反面。如果不使用统计数据,我们可能会得出得到正面的概率是75%,而在抛硬币中得到正面的实际概率是1:1,或50-50的概率。如果我们抛40次硬币,我们肯定会得到更接近1:1的正面和反面的比例,而统计数据的使用将反映这一点。
“很多统计学都与从样本(实际观察结果)到总体特征(所有可能的观察结果)的推理有关,”麻省理工学院研究教授约翰·德雷克(John Drake)说传染病生态学中心他在一封电子邮件中说。“例如,我们可能对橡树的高度感兴趣。我们无法测量世界上所有的橡树,但我们可以测量一些。我们可以计算样本中橡树的平均高度,但这并不一定与所有橡树的平均高度相同。”
广告
置信区间
因为我们无法测量世界上所有的橡树,统计学家根据概率和他们所掌握的所有数据得出了一个估计的高度范围。这个范围被称为置信区间,它由两个数字组成:一个可能比真实值小,一个可能比真实值大。真正的价值可能介于两者之间。
德雷克说:“‘95%置信区间’意味着在100次置信区间中有95次是这样构建的,该区间将包含真实值。”“如果我们对橡树样本进行100次测量,基于其中95次实验收集的数据的置信区间将包括总体平均值,即所有橡树的平均高度。因此,置信区间是估计精度的度量。随着收集的数据越来越多,估计也会越来越精确。这就是为什么随着可用数据的增多,置信区间会越来越小。”
广告
因此,置信区间有助于显示估计的好坏。18新利最新登入当我们只抛硬币四次时,我们估计的75%有一个很宽的置信区间,因为我们的样本量非常小。我们用40次抛硬币来估计的置信区间要小得多。
置信区间的实际意义在于一遍又一遍地重复一个实验。在四次抛硬币的情况下,95%置信区间意味着如果我们重复抛硬币实验100次,其中95次,得到正面的概率落在这个置信区间内。
广告