满天星
Fork me on GitHub

统计学学习笔记01

03 统计学

//note 01

如果有一个很大的极端值,则均值考虑会很不科学
极差:简单地描述数据的范围大小,表示离散程度
方差:
标准差:有效地避免了因单位平方而引起的度量问题,与方差一样,标准差的值越大,表示数据越分散
直方图
频数分布表
频数直方图
频率直方图(常用) 纵坐标:频率/组距

组距就是分组的极差

箱线图
四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字
上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字
四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值
上边缘:除异常点以外的数据中的最大值
下边缘:除异常点以外的数据中的最小值

箱线图简单画法:
reg:8 23 7 4 9 6 9 4 3
1. 排序:2 3 3 4 4 6 7 8 9 9
2. 找出中位数:(4+6)/2=5
3. 分别找出前半部分不后半部分的中位数——下四分位数不上四分位数:3与8 
4. 判断异常点:3-1.5*(8-3)=-4.5;8+1.5*(8-3)=15.5;没有异常点
5. 找出最大值不最小值:2不9
6. 在3到8之间画一个箱子,分别用箭头指向2,9
异常点用空心圆标出

茎叶图
茎叶图可以在保留全部数据信息的情况下,直观地显示出数据的分布情况

简单画法:
53 53 59 61 61 63 65 67 67 69 69 69 70 70 71 74 75 75 76 77 78 79 80 81 81 81 81 82 84 85 86 87 87 87 88 89 90 91 91 94 95
1. 将数据分为茎和叶两部分,这里的茎是指十位上的数字,叶是指个位上的数字
2. 将茎部分(十位)从小到大,从上到下写出来
3. 相对于各自的茎,将同一茎(十位)的叶子(个位)从小到大,从左往右写出来

线图
以时间为横坐标,变量为纵坐标,反映变量随时间推移的变化趋势

柱形图
柱形图:显示一段时间内的数据变化或显示各项之间的比较情况(可以比较组内情况)

柱形图与直方图比较:
从横坐标看,直方图是同一个变量的分组划分,而柱形图则是不同的组别
从作用上看,直方图用于显示一组数据的分布情况,而柱形图则是用于比较不同组别的数据差异

饼图

//note 02

总体方差
样本方差 (除数为n-1)

分位数
四分位数的选择具有争议性
分位数的数学定义:
    选择四分位的百分比值y,及样本总量n,分位数的位置可以由下面的公式计算:
    Ly = n * (y/100)
情况1:如果L是一个整数,则取第L和第L+1的平均值
情况2:如果L不是一个整数,则取下一个最近的整数(比如1.25,则取2)

随机试验
3个特点:
1. 可以在相同的条件下重复进行
2. 试验的可能结果不止一个,但在试验前可以知道所有可能结果 
3. 试验前不能确定哪个结果会出现

样本空间,样本点
对于随机试验E,E的所有可能结果组成的集合称为E的样本空间,记为S。其中,S中的 元素,即E的每个可能结果,称为样本点。
S={范围}

事件
随机事件
基本事件
    由一个样本点组成的单点集
事件发生
必然事件
不可能事件

事件关系
包含,和,积,差,互斥,逆

事件运算定律
交换律
    A ∩ B = B ∩ A;A ∪ B = B ∪ A  
结合律
    A ∪ (B ∪ C) = (A ∪ B) ∪ C;A ∩ (B ∩ C) = (A ∩ B) ∩ C
分配律
    A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) 
    A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
德摩根律:

频数
频率
概率:(需要满足的条件)
    1.非负性:P(A) >= 0
    2.规范性: 对于必然事件S,有P(S)=1
    3.可列可加性
    性质:
    1.P(∅)=0     不可能事件发生的概率为0
    2.有限可加性
    3.对于A,B两个事件,若A⊃B,则P(A-B)=P(A)-P(B);P(A)>=P(B)
    4.对于任一事件A,有P(A)<=1
    5.对于任一事件A,有P(A(逆))=1-P(A)
    6.对于A,B两个事件,有P(A ∪ B)=P(A)+P(B)-P(AB)(称为加法公式)

Buffon投针实验
𝛑的估算

古典概型
1. 试验的样本空间只包含有限个元素
2. 试验中每个基本事件发生的可能性相同,即每个基本事件发生的概率相等
    则称这样的试验E为古典概型,也叫等可能概型
    例如:抛硬币,抛骰子等

排列组合
    A3 9(从上往下,3,9) = 9*8*7
    C3 9 = 9*8*7 / 3*2*1

实际推断原理:
    概率很小的事件在一次试验中实际上几乎是不发生的

几何概型
1. 试验的样本空间包含无限个元素
2. 试验中每个基本事件发生的可能性相同,即每个基本事件发生的概率相等
    P(A)=构成事件A的区域长度(面积或体积)/实验的全部结果所构成的区域长度(面积或体积)

//note 03

条件概率
    已知某个事件A发生的条件下,另一个事件B发生的概率称为条件概率,记为P(B|A)
    P(B|A)=P(AB)/P(A)
乘法定理
    P(AB)=P(B|A)P(A),其中P(A)>0
    ->P(ABC)=P(C|AB)P(B|A)P(A)=P(A|BC)P(B|C)P(C)
全概率公式
    P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn)
    B1...Bn 是样本空间S的划分
划分
贝叶斯公式:
    设试验E的样本空间为S。A为E的一个事件,B1,b2.....Bn是S的一个划分,且P(A)>0,P(Bi)>0(i=1,2,....,n),则
    P(Bi|A)=P(ABi)/P(A)=P(A|Bi)P(Bi)/(j=1 n累加)P(A|B1)P(B1)+P(A|B2)P(B2)+...P(A|Bj)P(Bj)


贝叶斯公式的应用——--垃圾邮件判别
原理:若已知某些字词经常出现在垃圾邮件中,却很少出现在合法邮件中,当一封邮 件含有这些字词时,那么他是垃圾邮件的可能性就很大。
(1)创建基于字词符号的贝叶斯数据库——--垃圾邮件不非垃圾邮件
(2)创建贝叶斯概率库——--垃圾概率
(3)创建个性化的贝叶斯库——--根据个人需求更改先验概率

公式比较
乘法公式、全概率公式与贝叶斯公式
1 乘法公式是求“几个事件同时发生”的概率;
2 全概率公式是求“最后结果”的概率;
3 贝叶斯公式是已知“最后结果” ,求“某个事件”的概率.


先验概率与后验概率
1 P(Bj|A)是在事件A发生的条件下, 某个事件Bj发生的概率, 称为 “后验概率”; 
2 Bayes公式又称为“后验概率公式”或“逆概公式”;
3 称P(Bj) 为“先验概率”.

独立性
    设A,B是两个事件,如果满足:P(AB)=P(A)P(B),则称事件A,B相互独立。简称A,B独立。
    -- A(逆)与B(逆)也相互独立

多事件相互独立
    多个事件相互独立!=多个事件两两独立

相互独立事件与互斥事件,对立事件
    互斥事件与对立事件都不是相互独立事件


//note04

随机变量----Random Variable

定义:设随机试验的样本空间为S={e},X=X(e)是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量

离散(Discrete)型随机变量
连续(Continuous)型随机变量

取值概率
    对于离散型随机变量,随机变量的每一个取值都一定的概率

分布律
    (0-1)分布/两点分布
        伯努利试验
        n重伯努利试验:将一个伯努利试验独立地重复n次的一串重复的独立试验
    二项分布
    泊松分布 (p<=0.1时,可以直接用它来代替二项分布)(n>=20,p<=0.05)

概率密度分布图
分布函数
    对于连续型随机变量,由于其可能的取值不能一一列出,所以就不能像离散型随机变量那样使用分布律去描述它。这时我们需要更加通用的描述方式--分布函数
    设X是一个随机变量,x是任意实数,函数F(x)=P(X<=x)称为X的分布函数(累积分布函数)(英文简写CDF)
    性质:
        1.F(x)是一个不减函数
        2.0<=F(x)<=1,且F(-∞)=lim x->∞F(x)=0;
                    F(∞)=lim x->∞ F(x) = 1
        3.F(x)是右连续的


连续型随机变量的分布函数
连续型随机变量
    严格定义:
    对于随机变量X的分布函数F(x),存在非负可积函数f(x),使对于任意实数x有
            F(x)= ∫x -∞ f(t)dt
    则称X为连续型随机变量,f(x)称为X的概率密度凼数
    ( Probability Density Function ),简称概率密度(PDF)

概率密度
    性质:
    1.f(x) >=0
    2.∫∞ -∞ f(x)dx = F(∞) = 1
    3.对于任意实数X1,X2(X1<=X2),P{X1<=X<=x2}=F(x2)-F(x1)=∫x2 x1 f(x)dx
    4.若f(x)在点x处连续,则有F'(x)=f(x)

均匀分布
    若连续函数X具有概率密度f(x)={1/(b-a),a<x<b     ; 0,其他,则称X在区间(a,b)上服从均匀分布,记为X~U(a,b)

正态分布
    若连续型随机变量X的概率密度为f(x)=1/(√(2𝝿𝛔)e)^(-(x-𝛍)^2/2𝛔^2),-∞<x<∞,则称X服从参数为𝛍,𝛔^2的正态分布,记为X~N(𝛍,𝛔^2)
    性质:
    1.曲线关于x=u对称
    2.当x=u时,概率密度函数可以取得最大值f(x)=1/(√(2𝝿𝛔))
    3.在具有同样长度的区间中,当区间离u越远,X落在区间的概率越小
    (𝛔^2越大越窄,u负数左移)

标准正态分布
    u=0,𝛔^2=1时,为标准正态分布
标准正态分布查表

正态分布->标准正态分布

二项分布与正态分布
    二项分布是离散情况下的正态分布
    当n足够大时,可以用正态分布近似二项分布,从而避免二项分布中繁杂的计算
    若X~B(n,p),当n足够大时,有X近似服从正态分布N(np,np(1-p))


导数
    求导公式
不定积分
简单定积分
    牛顿——莱布尼兹公式:
        ∫b a f(x)dx=F(x)|b a = F(b)-F(a)
    其中,F(x)为f(x)的原函数,即𝐹′(𝑥) = 𝑓(𝑥)
    分部积分公法:
    设u(x)、v(x)在[a,b]上具有连续导数u'(x),v'(x),则
        ∫b a u(x)dv(x) = u(x)v(x)|b a - ∫b a v(x)du(x)

二维随机变量(或向量)
    一般,设E是一个随机试验,它的样本空间是S={e},设X=X{e}和Y={e}是定义在S上的 随机变量,由X与Y构成的向量(X,Y)叫做二维随机向量或是二维随机变量(Two- dimensional random vector)

二维随机变量的分布函数:
    联合分布函数:
        设(X,Y)是二维随机变量,对于任意实数x,y,二元函数: 
                F(x,y)=P{(X≤x)∪(Y≤y)}=P{X≤x,Y≤y}
        称为二维随机变量(X,Y)的联合分布函数(Joint probability distribution)
    性质:
    1. F(x,y)是对于x和y的不减函数,即
    x1<x2 => F(x1,y)<=F(x2,y)
    y1<y2 =? F(x,y1)<=F(x,y2) 
    2. 0≤F(x,y)≤1,且对于任意固定的y,F(-∞,y)=0;对于任意固定的x,F(x,-∞)=0 F(-∞,-∞)=0,F(∞,∞)=1
    3. F(x,y)关于x右连续,关于y右连续,即 lim ℇ->0+ F(x+ℇ, y)=F(x, y)
                                lim ℇ->0+ F(x, y+ℇ)=F(x, y) 
    4. 对于任意(x1,y1),(x2,y2),x1<x2,y1<y2,下述不等式成立:
                F(x2,y2)-F(x2,y1)+F(x1,y1)-F(x1,y2)≥0

(积分的时候是上限值-下限值)

离散型的二维随机变量
    如果二维随机变量(X,Y)全部可能取到的值是有限对或是可列无限对,则称(X,Y) 为离散型的二维随机变量。
连续型的二维随机变量
    如果对于二维随机变量(X,Y)的分布函数F(x,y),存在非负可积函数f(x,y)使得对 于任意x,y有
        F(x,y)=∫x -∞∫y -∞ f(v,v)dudv
    称(X,Y)为连续型的二维随机变量。
联合概率密度
    性质:
    1. f(x,y)≥0
    2. ∫∞ -∞ ∫∞ -∞ 𝑓(𝑥,𝑦)𝑑𝑥𝑑𝑦=𝐹(∞,∞) =1
    3.
    4.

多维随机变量
边缘分布
    在多维随机变量中,将X,Y各自的分布称为边缘分布函数

边缘分布律
    边缘分布律具有一维分布律的性质
    联合分布律唯一决定边缘分布律. 具体求法是将联合分布律写成表格形式, 然后各行分
    别相加得关于X的分布律;各列相加得Y的分布律

边缘概率密度

条件分布
条件分布律
条件概率密度
条件分布函数

各种分布的关系
    联合分布可以唯一地确定边缘分布和条件分布

随机变量的独立性


//note06
离散型随机变量的数学期望
绝对收敛

随机变量的期望值=均值

二项分布的数学期望
连续型随机变量的数学期望
    E(X) = ∫∞ -∞ xf(x)dx

//第6周 stat06b     03:00
-------------本文结束期待您的评论-------------