跳至主要內容

置信区间

Hirsun大约 10 分钟

置信区间

案例

sns.catplot(x="day", y="total_bill",data=tips,kind="bar")
1654241988121.png
1654241988121.png
  • Lines(也叫误差线) show 95% confidence intervals for the mean
  • Shows uncertainty about our estimate
  • Assumes our data is a random sample

什么是置信区间

很多时候,我们无法得到整体的情况,只能有样本的统计结果来预估整体的结果。但是样本总归不是整体,不同样本得到的结果还不同,所以样本结果和整体结果之间的误差区间,就是置信区间,

例如,我要统计中国18岁及以上年龄男性的身高均值。我们不可能去搜集全中国所有符合条件的人的身高,但是这个总体的平均值肯定存在。为了得到这个总体的信息,我们通过抽样的方法得到样本信息,然后来估计总体信息。

1654242341677.png
1654242341677.png

图中每一个横短线代表一个样本的置信区间,除了一个红色的那条线,其他黑色的线都包含了总体平均值。如果我们抽了100个样本,得到100个这样的区间,其中有95个区间包含了总体样本平均值,那我们就可以说这个包含所有样本区间的某个大区间内的置信水平为95%。

换句话说,置信水平就是指区间包含总体平均值的概率p(a<样本平均值<b)=Y%

通常用[a,b]表示样本估计总体平均值的误差范围的区间,a和b的确切数值取决于你希望‘a和b之间包含总体样本’的概率有多少.

如何计算置信区间

第1步:确定要求解的问题是什么

计算全国成年男性的平均身高

第2步:求样本的平均值和标准误差

  • 大样本:当一个抽样调查的样本数量大于30。
  • 此时样本分布趋近于正态分布,因此它符合中心极限定理。
  • 下面以计算全国成年男性的平均身高为例,假设抽取样本100人,平均值167.1cm,标准差0.2cm。
1654242474870.png

第3步:确定置信水平

误差范围即置信区间[a,b]的大小,取决于你需要对“区间中包含总体平均值”这一说法有多大信心。【置信水平越高,区间越宽,置信区间包含总体平均值统计量的概率越大。】常用的置信水平是95%。但这个数字并不是必然的,而是人为设定的。

置信水平的设定是有影响的——如果我们对置信水平要求过高,我们可能会拒绝实际上是正确的理论(犯了I类错误);反之如果我们对置信水平要求过低,我们可能会接受错误的理论(犯了II类错误)。由于无法保证让犯两种错误的可能性同时降低,根据习惯选择接受错误I,因此我们一般选择95% 的置信区间。

第4步:求出置信区间上下限的值

我们如果能计算出a离总体平均值多少个标准误差,那么我们就可以知道

  • a=总体平均值-2个标准误差,同时根据对称性就可以知道
  • b=总体平均值+2个标准误差

这里距离平均值几个标准误差,就是以标准分Z来表示几个标准误差,查标准正态分布表。

这里的z可以通过标准正态分布表查到置信水平为95% 的标准误。

即概率P(Z<Za)=2.5%。

1654242689719.png

Ref