Statistic I Part1

这是一份简明扼要的统计学I笔记,内容简单,目的是为了快速对知识点有一定了解但不求甚解。

首先我们需要理解我们讨论的东西是什么。 在统计学中,我们所学习的对象是一组组统计得到数据。而统计学则是基于我们在生活、生产中得到的数据进行理论研究并得到一定结论的学科。统计学的目的,旨在通过各种可以观测到的数——样本(sample) 去得到总体(population) 的某些规律和结论。

那么首先我们需要理解这些数据的一些术语。

1 DISTRIBUTIONS, MEANS AND VARIANCE

这部分内容大家需要回忆一些最基础的概念。

1.1 Random Variables, Distribution Functions and Normal Distribution

Random Variables (R. V.) 随机变量

随机变量指的是我们对于生活生产中的某个随机事件(random event)量化的指标。例如对于我们的事件A「中国女性身高」我们就可以量化出一组有几亿数据的自由变量 X_A

根据我们事件本身的性质,这种量化的指标可以分为连续(continuous)离散(discrete) 两种。例如:事件「XXX高考数学成绩」就是一个离散的变量,因为数学成绩分数的值域是离散的整数;事件「中国女性的身高」就是一个连续的变量,因为每一个人的身高都是在是数轴上连续分布的。

而需要注意的是,无论变量的连续与否,我们的数据总体(population) 一定是离散的,因为统计本身其实就是「计数」,也许被计数的物体可能会是连续的,但是我们「计数」的东西一定是可数的。例如我们无法对「一块区域的海拔」进行全面的统计。而这种情况,无论是物理上不可数(例如世界上所有的分子)或者是理论上不可数(一块区域的海拔),我们就会在之后的样本统计里进行抽样检验。

总的来说,随机变量就是我们从某个事件中抽离的一组数集。而在统计论(I)中,我们只研究连续变量。

Distribution 分布

对于一个随机变量来说,它的分布顾名思义就是指这个变量的数值是如何分布的。而我们如何用一种量化的东西去表现一个变量的分布呢?这里就会用到我们的两个分布函数

Cumulative Distribution Function (CDF) 累计分布函数

累计分布函数是描述的是小于某一个数的变量的概率。具体定义为——

对于随机变量 X 其累计分布函数 F(x)F(x)=\Pr(X\le x) .

CDF性质如下

  1. 0\le F(x) \le 1 for all x
  2. F(x) is non-decreasing
  3. \lim_{x\to -\infty}F(x)=0
  4. \lim_{x\to \infty}F(x)=1

但是,这并不能很好地反映我们的数据的分布,虽然我们能够通过它直接得到某一点的概率。所以我们就有了第二个分布函数——

Probability Density Function (PDF) 概率密度函数

概率密度函数顾名思义反映的是数据分布的密度,其函数值高则数据在该部分更加集中。其具体定义为

定义 对于连续随机变量 X, 概率密度函数 f(x)f(x)=dF/dx

而根据我们的微积分基本定理,我们有

    \[F(x)=\int_{-\infty}^xf(u)du\]


换句话说,我们的概率密度函数曲线下面的区域面积就是代表了我们的变量在该区域的概率。

    \begin{align*}\nonumber\Pr(a\le X\le b)&=\Pr(X\le b)-\Pr(X\le a)\\&=F(b)-F(a)\\&=\int_a^bf(x)dx\end{align*}



image-20211125011218993

Normal Distribution 正态分布

在所有的分布中,最重要的分布便是我们的正态分布。其中,

标准正态概率密度函数(standard normal pdf)

    \[\phi(z)=\frac1{\sqrt{2\pi}}\exp{\left(-\frac{z^2}2\right)}\]


如果一个随机变量 Z 满足标准正态分布,我们记 Z\sim N(0,1)

image-20211125010926382

而这个钟形的偶函数就是我们赫赫有名的标准正态分布概率密度函数的曲线了。而我们如何计算一个分布为标准正态的随机变量的概率呢?这就需要我们之前的cdf了。

标准正态累计分布函数(Standard normal cdf)

    \[\Phi(z)=\Pr(Z\le z)=\int_{-\infty}^z\phi(u)du\]


image-20211125010729235

而对于一个满足标准正态分布的变量 Z 来说,其小于 z 的概率就是我们的 \Phi(z),通常叫做 phi-值 。而对于不是标准正态分布的变量,我们会需要通过一些线性转化——

一般正态分布的概率密度函数是

    \[f(x)=\frac1{\sigma\sqrt{2\pi}}\exp\left(-\frac12\left(\frac{x-\mu}\sigma\right)^2\right)\]


其中 \mu\in(-\infty,\infty),\sigma\in(0,\infty),记作 X\sim N(\mu,\sigma^2)

可以看到,我们的一般正态分布实际上就是我们标准正态分布的平移和拉伸的结果——

image-20211125010407884
image-20211125004505398

而这个线性的转化则是

    \[X\sim N(\mu,\sigma)\Longrightarrow Z=\frac{X-\mu}\sigma\sim N(0,1)\]


这样,所有计算正态分布的概率问题都可以被转化成标准正态分布的概率问题了。而我们通常称转化后的值叫 z 值(z-value)。

1.2 Mean and Variance

接下来就是我们的老朋友均值(Mean)方差(Variance) 了。

Expectation 数学期望

首先是均值,均值的最基础的定义自不必多说就是一组数据的平均值。而对于我们统计的过程中来说,还有一种均值是我们无法通过统计得到的,那就是我们所研究的事件的总体均值,或者说是我们的数学期望(expectation) 。对于一个连续随机变量 X 来说,数学期望的定义如下

    \[E[X]=\int_{-\infty}^\infty xf(x)dx\]


其中f(x)是它的pdf。事实上这个积分公式就是对我们计算数学期望时所用到的加权平均求和过程做了一次极限。

Variance 方差

有了数学期望之后,我们在研究一组数据的集中程度的时候会用到另一个重要概念,方差。对于一个数学期望为 \mu=E[x] 的随机变量 X 它的方差为

    \[\text{Var}[X]=E[(X-\mu)^2]=\int_{-\infty}^\infty(x-\mu)^2f(x)dx\]


而与之对应的标准差(standard deviation, s.d.)\sqrt{\text{Var}[X]}

Properties for Mean and Variance

对于这些基础的概念,设 a,b,c 为常数,X,Y 为自由变量,我们有这些重要的性质——

  • E[g(x)]=\int_{-\infty}^\infty g(x)f(x)dx 其中 f(x) 是自由变量 X的pdf;
  • E[aX+bY+c]=aE[X]+bE[Y]+c,即数学期望是线性的;
  • \text{Var}[aX+b]=a^2\text{Var}[X]
  • \text{Var}[X]=E[X^2]-(E[X])^2

而对于相互独立(independent)X,Y,我们更有

  • E[XY]=E[X]E[Y]
  • \text{Var}[X+Y]=\text{Var}[X]+\text{Var}[Y].

而我们之前提到的标准正态分布和一般正态分布,他们的数学期望和方差是如何的呢?

  • 对于X\sim N(\mu,\sigma^2) 我们有 E[X]=\mu,\text{Var}[X]=\sigma^2
  • 对于 Z\sim N(0,1) 我们自然也就有了 E[Z]=0, \text{Var}[Z]=1

1.3 Chi-squared Distribution

Definition 定义

一个自由度(degrees of freedom)n卡方分布(\mathbf{\chi^2}-distribution) 描述的是对 n 次独立同分布的标准正态随机变量进行平方求和的结果:Y=\sum_{i=1}^n Z_i^2,记作 Y\sim\chi_n^2

卡方分布的pdf很复杂,其中有积分函数Gamma函数:f(x)=\frac1{2^{n/2}\Gamma(\frac n2)}x^{\frac n2-1}e^{-x/2}。但是我们更关心卡方分布的性质,那就是它的方差和数学期望:

对于随机变量 Y\sim \chi_n^2 我们有

  • E[Y]=n;
  • \text{Var}[Y]=2n.

而对于我们的统计学来说,自由度是一个很重要的概念。自由度指的是计算某一统计量的时候,取值不受限制的变量的个数。例如:
我们要研究中国家庭厨房刀的数量,我们采集了4组样本 (a,b,c,d)
如果我们要研究均值 \mu=(a+b+c+d)/4,我们发现这四组样本都是相互独立的,可以不受限制地变化。但是当我们要研究方差的时候,我们发现「由于方差计算中满足 (a-\mu)+(b-\mu)+(c-\mu)+(d-\mu)=0」也就是说,我们在计算方差的时候只要知道三个数据就可以确定第四个数据,即我们的第四个数据是不能不受限制的,所以计算方差的时候自由度为 n-1

而在我们的卡方分布中,由于各个标准正态分布是相互独立的,因此自由度自然就是标准正态分布的数量。

Graphs 图像

image-20211125211724656

可以看到,随着我们的独立标准正态分布的次数(自由度)的增加,我们的卡方分布概率最高点会逐渐朝数轴右边倾斜。这边是因为我们随着样本的增多,由于每一个样本都服从正态分布,自然我们的和会变大的概率也就越来越大。

而卡方分布则是我们统计学中的一个基础模版,因为我们统计学的主要特征便是通过有限的样本去估计总体,而卡方分布就是最基础的有限个分布的累计。

1.4 Student t-distribution

t 分布最早是由吉尼斯世界纪录的创始人阿瑟·吉尼斯底下工作的威廉·戈赛发现的,由于吉尼斯酒厂规定不允许发表除了啤酒以外的研究成果,因此他用笔名「Student」发表了关于 t 分布的成果,所以得名「Student t- distribution」。

t 分布的发明主要是为了解决我们在样本检验的过程中用样本方差来代替总体方差时产生误差的问题。因为大多数情况下我们并不知道总体方差,因为我们无法获得总体所有的数据,因此我们需要用样本的方差这一变量去代替原本总体的方差。因此,我们为了弥补这多出来的「不确定性」就需要一个相较于正态分布更加保守、容错率的模型,而这个模型需要在样本逐渐增多的情况下接近正态分布。因此,我们便有了 t 分布。

Definition 定义

对于相互独立的分布 Z\sim N(0,1)Y\sim \chi_n^2,我们有自由度为 n 的 t 分布 T=\frac Z{\sqrt{Y/n}}。记作:T\sim t_n.其概率密度函数为

    \[f(x)=\frac{\Gamma(\frac{n+1}2)}{\Gamma(\frac n2)\sqrt{n\pi}}\left(1+\frac{x^2}n\right)^{-(n+1)/2}\]


可以看到,我们的 t 分布的定义就是围绕着对正态分布的修正这一目的来的,而其中使用到的卡方分布就是为了引入我们试验次数的不确定性。我们还可以从图像中看到——

Graphs 图像

image-20211125220609226

1.5 F-ditribution

最后一个分布是 F分布,主要适用于方差分析(ANOVA, analysis of variance) 以分析多总体均值的比较。它是基于两个卡方分布的,也就是手它有两个自由度——

Definition 定义

对于两个独立的自由变量 X\sim \chi^2_mY\sim \chi^2_n,我们有自由度为 (m,n) 的 F 分布 F=\frac{X/m}{Y/n},记作 F\sim F_{m,n}。其概率密度函数为

    \[f(x)=\frac{\Gamma(\frac{m+2}2)}{\Gamma(\frac m2)\Gamma (\frac n2)}\left(\frac mn\right)^{m/2}x^{m/2-1}\left(a+\frac mn x\right)^{-(m+n)/2}\]

Graphs 图像

image-20211125225822025
image-20211125225834148

可以看到,和卡方分布一样,F分布整体是朝右的。但是当m和n都变得十分大的时候,它便和正态分布相似了。

image-20211125230621496

2 ESTIMATORS AND SAMPLING DISTRIBUTION

2.1 Inferential Statistics 推断统计学

我们统计学所用到的理论叫做推断统计学(Inferential Statistics) ,指统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。而最常见的两种统计推断(statistic inference) 就是

  • 置信区间(confidence intervals)
  • 假设性检验(hypothesis tests)

其中,我们通常分为有参数统计学(Parametric Statistics)无参数统计学(Non-Parametric Statistics) 。我们所学习的统计学大都是有参数统计学,它假设样本数据来自总体,而总体可以通过具有固定参数的概率分布模型充分建模。例如我们之前的正态分布和卡方分布等,他们都可以通过总体的均值、方差等统计参数充分建模。反之,则是无参数统计学。而显然,我们最常用的有参数统计采用的是正态分布。

2.2 Estimators 估计量

在基于参数统计学,由于我们的统计是不完全的,因此我们会采用通过样本来估计总体的参数这样的方法去拟合总体的参数模型。简言之,估计量(estimator) 是基于样本空间映射到样本估计值(estimate)的一个函数。我们表达估计量的方法是这样的:对于一个被估量(estimand) \theta, 我们可以基于样本 X 得到估计量 \hat\theta(X)。注意,估计量、估计值和被估量是不同的,其中估计量和被估量都是随机变量。

可能这样表述还是比较抽象。我们举个例子:

为了研究全国人口身高,我们需要获得全国人口身高均值 \mu 这一参数进行参数建模。因此这里我们的 \mu 就是一个被估量,而我们的估计量就是样本均值 \hat\mu 这一变量。而我们无法统计全国人口的身高,因此我们采集了各省的1000人作为样本 X={X_1,X_2,\dots,X_{1000}}。那么我们的估计值就是这1000人的样本的均值:\hat\mu(X)=\overline{X}=\frac 1n\sum_{i=1}^{100}X_i。 可以看到,我们的估计量和估计值的区别就在于我们的估计量是个变量,它可以随着我们的样本不同而变化的。例如我们还有另一组样本 X'={X'<em>1,X'_2,…,X</em>{1000}'},那么基于这个样本的新的估计值就变成了 \hat\mu(X')=\overline{X'}

可以发现,我们的估计量都是源自于我们对不可统计的总体进行抽样统计的变量,所以它又叫做统计量

总的来说,我们的估计量就是一个函数 \theta: X^n\to\mathbb{R},包扩上面提到的均值,我们有下面一些常见的估计量。

  • 样本均值(mean) – \overline{X}=\frac 1n \sum_{i=1}^n X_i
  • 未修正的样本方差 – s_0^2=\frac 1n \sum_{i=1}^n (X_i-\overline{X})^2
  • 样本方差(varience) – s^2=\frac 1{n-1} \sum_{i=1}^n (X_i-\overline{X})^2
  • 样本标准差(standard deviation) – s =\sqrt{s^2}=\sqrt{s^2=\frac 1{n-1} \sum_{i=1}^n (X_i-\overline{X})^2}

2.3 Sampling Distribution 抽样分布

由于我们的估计值本身是基于样本的不同而会发生变化的量,所以它本身也就是一种分布。这便是抽样分布(sampling distribution) 。需要注意的是,为了保证估计值是一个随机变量,我们需要保证我们样本是随机样本。因此,在抽样的过程中我们需要保证随机抽样(random sampling)。其中,通过随机抽样的样本我们称之为随机样本(random sample)。

而由于是从同一个整体里面随机抽样得到的样本,因此他们的总体应该是相同的,并且是互相独立的,所以我们称通过随机抽样从同一个总体得到的样本叫做**独立同分布(independent, identically distributed) **的随机样本。对于一个总体均值 \mu ,方差为 \sigma^2的独立同分布的样本 { X_1,X_2,…,X_n},它满足这样的性质:E[X_i]=\mu\text{Var}[X_i]=\sigma^2

我们研究的抽样分布的估计值通常是样本均值 \bar{X}

那么对于上述的独立同分布的样本,我们发现它们的均值满足这样的性质——

    \[E[\bar{X}]=\mu, \quad\text{Var}[\bar X]=\frac {\sigma^2}n\]


样本均值的期望等于总体均值这是显然的,而样本均值的方差则是反映了我们选取样本的可靠程度。如果我们样本均值的方差为 0,那么就说明我们这组样本得到的数据与我们总体的数据十分相似。因此,对于样本均值的标准差 s.d.(\bar{X})=\sigma/\sqrt{n},我们又称之为标准误差(standard error, s.e.)。

而对于任意的样本均值的抽样分布,我们通常有以下结论:

  • 样本数越大,标准误差就越小,均值的估计量就越可靠;
  • 样本均值的分布形状由总体分布形状决定;
  • 如果样本正态分布,那么样本均值也正态分布;
  • 根据中心极限定理,随着样本增多,无论样本分布形状如何,样本均值都会趋于正态分布。

因此,在统计学运用中,我们大都假设总体是满足正态的。而我们就可以使用抽样分布定理(sampling distribution theorem)——

Sampling Distribution Theorem 抽样分布定理
对于总体 X\sim N(\mu,\sigma^2) 的独立同分布样本 {X_1,X_2,…,X_n} ,我们有

  1. \bar X \sim N(\mu,\sigma/n);
  2. \bar Xs^2 相互独立;
  3. \frac{ns^2}{\sigma^2}\sim\chi^2_n
  4. \frac{\bar X-\mu}{\sqrt{s^2/n}}\sim t_{n-1}.

可以看到,这里我们就回到了卡方分布和 t 分布了。这就是我们后面假设性检验用到的原理。

2.4 Central Limit Theorem 中心极限定理

中心极限定理最早是讨论的伯努利试验随着次数增多逐渐趋于正态分布的问题,而后来随着数理统计学的研究,将这个结论拓展到了普遍的分布。其内容是

大量独立同分布的变量和的极限分布是正态分布,即
{X_1,X_2,…,X_n } 是独立同分布,E[X_i]=\mu, \text{Var}[X_i]=\sigma^2, 我们有

    \[\lim_{n\to \infty}P\left(\frac{\sum_{i=1}^n (X_i-\mu)}{\sqrt n\sigma}\le x\right)=\Phi(x)\]


或者用不严谨地表达:

    \[\lim_{n\to \infty}\frac{\sum_{i=1}^n (X_i-\mu)}{\sqrt n\sigma}\sim N(0,1)\]


例如下面的三幅图就很明显地反映了我们随着样本数提升,其分布越来越趋于正态的过程。

image-20211126224127765

事实上,中心极限定理的中心其实不是数学上的中心,而是极限定理在统计学中的地位是中心的所以叫做中心极限定理。而正是因为这个定理,我们的正态分布的地位就获得了更多的理论支撑。其实,正态分布的出现就是反映了我们的随机变量的独立性。

3 CONFIDENCE INTERVALS FOR A POPULATION MEAN

对于我们的样本均值估计量,由于它是从我们的有限个统计样本获得的数据,因此总会存在一定的误差。而由于均值是无偏差(unbiased)的估计量,也就是说样本均值的数学期望是与我们的总体均值相等的。因此,我们需要对于有一定误差的样本均值围绕总体均值设定一个范围,以评估我们采集的样本均值的可靠性。

而这个范围就是我们的**置信区间(confidence interval) **。

置信区间是指由估计量所构造的总体参数的估计空间,其展现的是这个估计量的真实值有一定概率落在估计结果的周围的程度,其给出的是被估量的估计值的可量化的可信程度。

可以直观感受到的是,置信区间的宽度是和我们的可信程度有线性关系的,置信区间越窄,可信程度越高。

例如:对于一个数学成绩均分为65分(满分100分)的班级,我们的置信区间和其表达的含义可以通过下面的表格感受——

置信区间间隔宽窄程度表达的含义
0~100100等于什么也没有告诉
30~8050较窄能够大概地估计出平均分的范围
60~7010基本上可以敲定班级平均分了

而我们用来描述置信区间表达含义的量化指标叫做显著性水平(significance level) ,一般记作「\alpha」。其表达的意思就是「估计总体参数(\mu)落在置信区间内可能犯错误的概率」,就是 \mu 不属于置信区间的概率。而与之对应的「1-\alpha」就叫做置信水平(confidence level) ,说明「估计总体参数(\mu)落在置信区间内的概率」。

那么,对于置信区间 [\bar X-\epsilon,\bar X+\epsilon],它满足 \Pr(\bar X-\epsilon<\mu<\bar X+\epsilon)=1-\alpha,或者

    \[\Pr(\mu-\epsilon< \bar X< \mu +\epsilon)=1-\alpha\]


那么问题的关键就在于如何计算这里的误差 \epsilon 了。而由于这里我们采用的是有参数统计学,因此我们只需要根据参数去寻找适合 \bar X 的参数模型即可。

而我们发现,根据 抽样分布定理 我们有 \bar X \sim N(\mu,\sigma/n)\frac{\bar X-\mu}{\sqrt{s^2/n}}\sim t_{n-1}。也就是说,根据我们是否知道总体的方差,我们可以通过两种方法去求得我们的置信区间。当然,对于知道总体方差 \sigma^2,我们优先选择正态分布。

3.1 Confidence Interval for µ when Variance is known

当我们已经知道了总体方差 \sigma^2 我们有 \bar X\sim N(\mu,\sigma/n) 即,

    \[\frac{\bar X -\mu}{\sigma/\sqrt n}\sim N(0,1)\]


那么,我们的置信区间的误差 \epsilon 就满足:

    \begin{align*}1-\alpha&=\Pr(\mu-\epsilon< \bar X< \mu +\epsilon)\nonumber\\&=\Pr(\frac{-\epsilon}{\sigma/\sqrt n}< \frac{\bar X -\mu}{\sigma/\sqrt n}<\frac{\epsilon}{\sigma/\sqrt n})\nonumber\\&=\Phi\left(\frac{\epsilon}{\sigma/\sqrt n}\right)-\Phi\left(\frac{-\epsilon}{\sigma/\sqrt n}\right)\nonumber\\&=2\Phi\left(\frac{\epsilon}{\sigma/\sqrt n}\right)-1\nonumber\\\end{align*}




    \[\epsilon=\Phi^{-1}\left(1-\frac \alpha2\right)\frac{\sigma}{\sqrt{n}}=x\left(\frac\alpha2\right)\frac{\sigma}{\sqrt{n}}\]


例如:

Suppose that ther weight of a bag of potato chips (in grams) is a normal random variable weith unkown mean \mu and variance \sigma^2=100. A random sample of 75 bags has the mean 245 grams. Construct a 90\% confidence interval for \mu.

Solution

We have 1-\alpha=0.9, \sigma^2=100 and n=75, where \alpha =0.1 and \sigma=10. Thus,

    \[\epsilon =\Phi^{-1}(0.95)\frac{10}{\sqrt{75}}=1.645\frac{10}{8.660}=1.900\]


So the C.I. is [243.1,246.0], of which we are 90\% confidence that the population mean weight of a bag of potato is between 243.1 grams and 246.9 grams.

>>R语言实现

关于 R 语言中我们如何计算 \Phi^{-1}(x),我们采用代码

qnorm(x)

例如我们输入qnorm(0.95)再回车便会得到[1] 1.644854,即 \Phi(1.644854)=0.95

3.2 Confidence Interval for µ when Variance is unknown

在不知道整体方差的情况下,我们采用 t 分布:\frac{\bar X-\mu}{\sqrt{s^2/n}}\sim t_{n-1},即

    \begin{align*}1-\alpha&=\Pr(\mu-\epsilon< \bar X< \mu +\epsilon)\nonumber\\&=\Pr(\frac{-\epsilon}{s/\sqrt n}< \frac{\bar X -\mu}{s/\sqrt n}<\frac{\epsilon}{s/\sqrt n})\nonumber\\&=\T_{n-1}\left(\frac{\epsilon}{s/\sqrt n}\right)-\Tau_{n-1}\left(\frac{-\epsilon}{s/\sqrt n}\right)\nonumber\\&=2\T_{n-1}\left(\frac{\epsilon}{s/\sqrt n}\right)-1\nonumber\end{align*}



于是

    \[\epsilon=\T_{n-1}^{-1}\left(1-\frac \alpha2\right)\frac{s}{\sqrt{n}}=t_{n-1}\left(\frac\alpha2\right)\frac{s}{\sqrt{n}}\]


例如:

At a certain production factory, the diameters of ball bearings follow a normal distribution with mean \mu and variance \sigma^2 both unknown. Find a 95\% confidence interval for the population mean if a smple of 28 gives mean 3.001cm and standard deviation 0.004cm. Interpret this interval.

Solution

We have 1-\alpha=0.95, s=0.004 and n=28 with \bar X =3.001. Thus, with \alpha=0.05 we have

    \[\epsilon=\T_{27}^{-1}(0.975)\frac{0.004}{\sqrt{28}}=2.0518\frac{0.004}{5.292}=0.00155\]


So the C.I. is [2.99945,3.00255], of which we are 95 \% confidence that the population mean diameters of ball bearings is between 2.99945cm and 3.00255cm.

>>R语言实现

关于 R 语言中我们如何计算 \T^{-1}_{n-1}(x),我们采用代码

qt(x,n-1)

例如我们输入qnorm(0.975,27)再回车便会得到[1] 2.051831,即 \T_{27}(2.051831)=0.975

3.3 Robustness

稳健性(Robustness) 是源自控制理论的词语,其大致的定义就是描述一个指标解释能力的强壮性(robust adj.强壮的)。而在我们上述的置信区间的有关内容中,我们大都假设我们的样本是源自正态分布的独立同分布。而事实上我们正是情况可能并不是如此。但是,根据中心极限定理,随着我们的样本数越来越大,我们就有足够的把握在保证稳健性的情况下假设我们的样本是正态的。而这个「足够大的样本数」一般取 30.

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注