参数估计

期望和方差

期望计算公式
image.png
方差计算公式 image.png

点估计

初衷:由于无法用无穷的点来算(积分),因此采用有限的点来进行估计

使用最大似然法,构造极大似然函数
image.png
通过解方程,使得解满足极大似然函数值达到最大,有
image.png
该结果是极大似然函数的点估计

  • 无偏性,点估计的期望与n无关,因此对点估计的方差进行校正
    image.png
  • 有效性:方差小的估计量有效

区间估计

$\hat{X}$作为μ的估计值,同时具有无偏性、有效性和充分性, 但是随机变量 不可能恰好落在μ上,点估计有不足之处。 但是可以用一个区间去包含μ

  • 已知多个点对均值的区间估计
    公式
    image.png
    t根据$\alpha,f$查表,$\sigma$标准差,平均平方和开根号,$n$样本量
    例题
    image.png

样本容量确定(均值估计样本量)

解决的问题:多少样本才是对分析最佳的?

  • 样本量过大,虽然可以提高统计推断精度,但是成 本随之增加;
  • 样本量过小,会使统计推断误差过大;

公式推导:
image.png
例题 image.pngimage.png
image.png
表:
image.png

例题解析:

  • 例题1
    根据公式,均值方差给定,d=均值x允许误差(10%),$\alpha=0.95,\alpha/2=0.975$
    这个实际原理是:
    当我们谈论95%的置信区间时,我们通常是在讨论中心的95%,这将留下2.5%在每侧的尾部。因此,为了找到与上侧2.5%相对应的Z分数,我们需要找到表中累积到0.9750(因为 0.5 + 0.475 = 0.975)的值,这意味着中心到Z分数点的面积占总面积的97.5%。
    找点:
    找表格中累计达到0.975的点,找到横坐标1.9,纵坐标.06,因此z为1.96

  • 例题2
    同理,得出$\alpha=0.99,\alpha/2=0.995$,读表找出对应的横坐标2.5,纵坐标.08,因此z为2.58

样本总量确定(总体比例估计样本量)

已知次品率,求总体n,未知次品率的情况下,p=0.5保证结果可靠性(图例题二)
image.png
例题1
image.png
解析 :

  • 代入次品率p,d为误差控制,置信度查表0.025表示表格中到达0.975的值

例题2
image.png
解析:

  • 为保证结果可靠性,取p=0.5,同理计算即可

统计检验

原理

  • 此矛盾是从实际推断和原理的矛盾,即“小概率事件在 一次实验中几乎不可能发生”
  • 若在一次实验中发生了小概率事件,则拒绝原假设,否 则接受假设

步骤:
image.png

数据分布检验

偏度峰度检验

若总体为正态分布,随机抽取样本研究, 偏度g1和峰度g2都服从正态分布
计算公式 :
image.png
image.png
例题:
image.png
注意$\alpha/4$,多个检验统计量的时候就要多除一个
例题解析 :
按照计算公式,先计算出$g_1$和$g_2$,然后代入$u_i=u(g_i,n)$进行计算,通过比较检验临界值得出结论

K-S分布检验

用于检验检验一组样本数据 的实际分布是否与某一指定的理论分布相符合。简单来说就是能否用正态分布函数来拟合这组样本量,通过构造假设统计量检查最大的误差,来进行假设验证
image.png
例题
image.png
例题解析 :

  • 计算样本均值和方差
    u = 4.8525
    # 计算方差
    s = ((4-4.8525)**2 *20 +(4.5-4.8525)**2 *372 +(5-4.8525)**2*498+(5.5-4.8525)**2 * 103+(6-4.8525)**2*7)/999** 0.5
    0.3521274627176926
  • 作为正态分布u和s的假设,
    • H0:样本服从均值=4.85,标准差=0.352的正态分布 •
    • H1:样本不服从均值=4.85,标准差=0.352的正态分布
      image.png
      每一列解析(第二行为例)代入4.25和4.75,得出在对应的标准化正态分布中的实际分布区间;查表得该区间的概率($X_{-0.28}-X_{-1.70}$,注由于对称性,表中只有正值,相应变换一下即可,另外表中给的也是累计概率分布$F(x)$),得出累计概率(与前面的累加),实际的累计工人以及累计频率,相减

得出最大概率-频率区间(这个就是$D_n$)
image.png
最后计算实际的临界值(根据n和$\alpha$查表即可),然后看看接受还是拒绝解设

卡方拟合优度检验 (可能考)

检验抽取样本的总体分布与某种 特定分布的符合程度
具体步骤
image.png
卡方计算公式
image.png
例题:
image.png
解析:

  • 区间划分
    image.png
  • 计算相应的理论分布
    image.png
    先计算均值和标准差。然后与上一节[[#K-S分布检验]]相同,计算正态分布下的对应理论频率分布,以第一行为例,可以算得(129.5-143.8)/6=-2.3833333,查表得
    image.png
    因此为0.0087。后面代入公式计算得到卡方和即可。检验 量计算方式为:
    image.png
    其中0.1为置信水平,k=划分的区间数,r为参数估计数量(正态分布为2),查表

例题2
image.png
用上面的方法也能做[[#假设检验]],但是理论上这种方法好一点。
本质上就是划分为良品和不合格品两个区间,然后相应的计算就行。

列联表

表示形式为
image.png

记住计算公式
image.png

边界值为X((r-1)(c-1))

例题 :
image.png
直接代入公式计算就行:
image.png

离群值检验

相关应用——异常数据的取舍

四种方法

拉依达准则(3σ准则)

image.png
简单算一下就行了

肖维特(Chauvent)准则

image.png

格拉布斯(Grubbs)准则——兼顾了置信概率(可能考)

image.png
比上面那个多了个置信概率
例题
image.png
主要是方差计算公式,这个是样本方差要n-1
image.png
其他的都是按步骤来就行
image.png
剔除之后再算一遍

狄克逊准则——通过极差比判定剔除异常数据

异常数据应该是最大数据和最小数据,因此 其基本方法是将数据按大小排队,检验最大数据和最小 数据是否异常数据

方差比较检验

需要区别单方差检验与多方差检验
image.png
其中S为样本标准差,$\sigma$为总体标准差

单方差检验例题
image.png
代入数据就行 ,注意卡方是n-1

image.png
注意是F(m-1,n-1)

(0.07**2+0.01**2+0.08**2+0.03**2+0.05**2)/4=0.0037

计算F以及临界值比较

均值检验

μ检验(方差已知)

计算公式
image.png
例题
image.png

其中μ就是正态分布的分布表的值

t检验(方差未知)

单分布计算公式
image.png
s是样本标准差

image.png

双分布计算公式
image.png

image.png

例题
image.png
解析:配对的情况

image.png
非配对情况

image.png

方差分析

方差分析概述

单因素方差分析

计算公式
image.png
image.png

image.png

image.png

例题:
image.png
计算:
image.png
解析:根据公式来就行,SSE组内的方差的和,SSA组间(和总体的均值)的和

image.png
image.png

例题2
image.png
计算SSA和SSE
image.png

image.png

无重复双因素方差分析

其实一样的,就是每列如果也是有参数影响的话,每列再算一个MSB

例题:

image.png

image.png

image.png
image.png

例题 2
image.png

image.png
image.png

有重复双因素方差分析

image.png
image.png
image.png
image.png