统计_假设检验

假设检验是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。
当遇到两个或几个样本均数（或率）、样本均数（率）与已知总体均数（率）有大有小时，应当考虑到造成这种差别的原因有两种可能：一是这两个或几个样本均数（或率）来自同一总体，其差别仅仅由于抽样误差即偶然性所造成；二是这两个或几个样本均数（或率）来自不同的总体，即其差别不仅由抽样误差造成，而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响，区分差别在统计上是否成立，并了解事件发生的概率。

原理

假设检验使用了一种类似于“反证法”的推理方法，它的特点是：
（1）先假设总体某项假设成立，计算其会导致什么结果产生。若导致不合理现象产生，则拒绝原先的假设。若并不导致不合理的现象产生，则不能拒绝原先假设，从而接受原先假设。
（2）它又不同于一般的反证法。所谓不合理现象产生，并非指形式逻辑上的绝对矛盾，而是基于小概率原理：概率很小的事件在一次试验中几乎是不可能发生的，若发生了，就是不合理的。至于怎样才算是“小概率”呢？通常可将概率不超过0.05的事件称为“小概率事件”，也可视具体情形而取0.1或0.01等。在假设检验中常记这个概率为α，称为显著性水平。而把原先设定的假设成为原假设，记作H0。把与H0相反的假设称为备择假设，它是原假设被拒绝时而应接受的假设，记作H1。

基本思想

1.小概率原理
如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。

2.假设的形式
H0——原假设， H1——备择假设

样例

例　某种产品按规定次品率不超过4%才能出厂,今从一批产品中抽查10件,发现有4件次品,问这批产品能否出厂?
解　假设次品率等于4％(H0次品率等于4%,H1次品率不等于4%,结合这里场景其实对应H0次品率小于4%,H1次品率大于4%,H0一般是明确的(用来计算概率)和我们想推翻的，Ｈ1一般是模糊的和我们想证明的)
P(任抽10件发现4件次品)
＝

从 明确的(且我们想拒绝的)H0=>本次抽样落在了小概率区间＝>随便一抽样就发生小概率事件，你糊弄鬼呢？＝>H0被否决，H1成立。

假设检验的核心

所以整件事情干了什么呢？
明确的H0(我们想否认的)=>计算概率，概率小于特定取值0.05(0.01),被认定为小概率＝>H0否决，H1成立

问题01:小概率的判定和两类错误

接受或拒绝H0，都可能犯错误
I类错误——弃真错误，发生的概率为α
II类错误——取伪错误，发生的概率为β

α大β就小，α小β就大
基本原则：力求在控制α前提下减少β
α——显著性水平，取值：0.1, 0.05, 0.001, 等。如果犯I类错误损失更大，为减少损失，α值取小；如果犯II类错误损失更大，α值取大。
确定α，就确定了临界点c。

问题02:如何计算概率

现实生活中的概率未必像上例中的那么好算。
Z分布：标准正态分布，属于正态分布的特例
T分布：T分布是一簇曲线，其形态变化与n（确切地说与自由度df）大小有关。 自由度df越小，t分布曲线越低平；自由度df越大，T分布曲线越接近标准正态分布（u分布）曲线；
随着自由度逐渐增大，t分布逐渐接近标准正态分布。

Z分布与T分布的关系
在总体已知的条件下，根据Z分布；在总体未知需要通过参数来估计总体时，根据T分布。
Z分布是固定的形态分布（均数为0，标准差为1），T分布是随着df值得变化的一簇函数。
T分布可以看做总体方差未知情况下的“Z分布”（阉割版Z分布），典型的Ｚ分布要求知道总体均值方差，但现实大多都是抽样一部分，用一部分”假装”全部,为了区别原始分布就用Ｔ分布。

Z检验：数据符合Z分布时，用Z分布概率公式计算“现象对应概率值”，用于推翻H0假设的方式or套路，可以看做对一种操作序列（概率计算方法）的称谓
T检验：数据符合T分布时，用T分布概率公式计算“现象对应概率值”，用于推翻H0假设的方式or套路，可以看做对一种操作序列（概率计算方法）的称谓

概率的计算_Z检验(分布)

首先说如下公式结论：
对于分布X均值为μ,方差为σ**2,在X中抽取数据n个，记,S**2分别是样本均值和样本方差。

这里的)本身就是正态分布(基于抽样的元素本身就是正态分布前提下，（当然即使抽样元素非正态，由于中心极限定律也可以推导出就是正态分布），这里加个限制为了更容易理解，其实可以去掉子元素限制），这也是为何上面例子都直接用正态分布公式求解概率值的原因。

实际使用时我们不会直接使用正态分布，而是转为标准正态分布
普通正态分布转换成标准正态分布。这需要用到下面Z分数的计算公式：

所以推导出

再看实例

根据假设检验规则(套路),需要计算这次事件概率，恰好，这次事件是“一次”对“正态分布数据”的“16次的抽样”
所以本次事件概率＝正态分布16次抽样概率~~(符合)~~z(均值,原正态标准差/n)的正态分布=(1080-1020)/(100/4)=2.4(将此次事件映射到标准正态分布图后的x的坐标)

z=2.4位于z=1.645外(右)侧,而ｐ(z=1.645)对应概率0(0.05单侧),所以p(z=2.4)相比ｐ(z=1.645)更小,更“被拒绝”（被认为小概率）

Z检验的其他用法

有了Z分布，Z分数的计算公式不仅可以用作普通正态分布的标准化，还被用于判断均值差异显著性的Z检验，也就是下面的情况：
1、总体标准差已知或样本容量大于30，比较两个样本的均值是否有显著性的差异，检验公式如下：

2、总体标准差已知或样本容量大于30，比较某个总体的均值与某个常数是否有显著性的差异，检验公式如下：

注意点：样本容量大于30时，样本标准差与总体标准差的误差非常小，样本容量越大，它们之间的误差越小。

概率的计算_T检验(分布)

实例

T检验的其他用法

Z检验虽然能够进行均值差异性检验，但是，它要求总体标准差已知或者样本容量足够大，这是很难做到甚至无法达成的。这时候t检验就粉墨登场了，只需从正态总体中抽取小规模的样本数据，并计算均值与标准差，用来代替正态总体的均值和标准差即可，t值计算公式如下：

样本数据计算得到的所有t值就组成了新的数据序列，这个新的数据形态就是t分布。t分布是曲线族，曲线与自由度密切相关，自由度为n-k-1（这里n是样本容量，k是样本中已知变量个数），自由度越小，曲线越低平，三自由度越大，曲线越接近正态分布。

1、配对样本的T检验
所谓配对样本的T检验，是指参与对比的两列数据都是满足正态分布，而且两列数据之间存在一一对应关系。要想判断这种数据序列之间的差异是否显著，就可以使用配对样本T检验。处于待检验状态的两列配对样本，应该具有相同的数据个数，而且两列数据在语义上有一一对应关系。例如对同一个班级的两次考试成绩，这两次成绩都按照学号顺序存放，具有明确的对应关系。T检验公式如下：

独立样本T检验
独立样本是两个没有对应关系的独立正态分布数据集合，可以有不同的数据个数，例如，对同一学校的某次考试，如果需要检验男生与女生的成绩之间有无显著性差异在总体成绩满足正态分布的情况下，则都可以使用独立样本的T检验，但是在进行T检验之前，需要明确两个样本的方差是否相同，然后根据方差齐性与否选择相应的计算方法。

2、等方差独立样本T检验