03 统计学
//note 01
如果有一个很大的极端值,则均值考虑会很不科学
极差:简单地描述数据的范围大小,表示离散程度
方差:
标准差:有效地避免了因单位平方而引起的度量问题,与方差一样,标准差的值越大,表示数据越分散
直方图
频数分布表
频数直方图
频率直方图(常用) 纵坐标:频率/组距
组距就是分组的极差
箱线图
四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字
上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字
四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值
上边缘:除异常点以外的数据中的最大值
下边缘:除异常点以外的数据中的最小值
箱线图简单画法:
reg:8 23 7 4 9 6 9 4 3
1. 排序:2 3 3 4 4 6 7 8 9 9
2. 找出中位数:(4+6)/2=5
3. 分别找出前半部分不后半部分的中位数——下四分位数不上四分位数:3与8
4. 判断异常点:3-1.5*(8-3)=-4.5;8+1.5*(8-3)=15.5;没有异常点
5. 找出最大值不最小值:2不9
6. 在3到8之间画一个箱子,分别用箭头指向2,9
异常点用空心圆标出
茎叶图
茎叶图可以在保留全部数据信息的情况下,直观地显示出数据的分布情况
简单画法:
53 53 59 61 61 63 65 67 67 69 69 69 70 70 71 74 75 75 76 77 78 79 80 81 81 81 81 82 84 85 86 87 87 87 88 89 90 91 91 94 95
1. 将数据分为茎和叶两部分,这里的茎是指十位上的数字,叶是指个位上的数字
2. 将茎部分(十位)从小到大,从上到下写出来
3. 相对于各自的茎,将同一茎(十位)的叶子(个位)从小到大,从左往右写出来
线图
以时间为横坐标,变量为纵坐标,反映变量随时间推移的变化趋势
柱形图
柱形图:显示一段时间内的数据变化或显示各项之间的比较情况(可以比较组内情况)
柱形图与直方图比较:
从横坐标看,直方图是同一个变量的分组划分,而柱形图则是不同的组别
从作用上看,直方图用于显示一组数据的分布情况,而柱形图则是用于比较不同组别的数据差异
饼图
//note 02
总体方差
样本方差 (除数为n-1)
分位数
四分位数的选择具有争议性
分位数的数学定义:
选择四分位的百分比值y,及样本总量n,分位数的位置可以由下面的公式计算:
Ly = n * (y/100)
情况1:如果L是一个整数,则取第L和第L+1的平均值
情况2:如果L不是一个整数,则取下一个最近的整数(比如1.25,则取2)
随机试验
3个特点:
1. 可以在相同的条件下重复进行
2. 试验的可能结果不止一个,但在试验前可以知道所有可能结果
3. 试验前不能确定哪个结果会出现
样本空间,样本点
对于随机试验E,E的所有可能结果组成的集合称为E的样本空间,记为S。其中,S中的 元素,即E的每个可能结果,称为样本点。
S={范围}
事件
随机事件
基本事件
由一个样本点组成的单点集
事件发生
必然事件
不可能事件
事件关系
包含,和,积,差,互斥,逆
事件运算定律
交换律
A ∩ B = B ∩ A;A ∪ B = B ∪ A
结合律
A ∪ (B ∪ C) = (A ∪ B) ∪ C;A ∩ (B ∩ C) = (A ∩ B) ∩ C
分配律
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
德摩根律:
频数
频率
概率:(需要满足的条件)
1.非负性:P(A) >= 0
2.规范性: 对于必然事件S,有P(S)=1
3.可列可加性
性质:
1.P(∅)=0 不可能事件发生的概率为0
2.有限可加性
3.对于A,B两个事件,若A⊃B,则P(A-B)=P(A)-P(B);P(A)>=P(B)
4.对于任一事件A,有P(A)<=1
5.对于任一事件A,有P(A(逆))=1-P(A)
6.对于A,B两个事件,有P(A ∪ B)=P(A)+P(B)-P(AB)(称为加法公式)
Buffon投针实验
𝛑的估算
古典概型
1. 试验的样本空间只包含有限个元素
2. 试验中每个基本事件发生的可能性相同,即每个基本事件发生的概率相等
则称这样的试验E为古典概型,也叫等可能概型
例如:抛硬币,抛骰子等
排列组合
A3 9(从上往下,3,9) = 9*8*7
C3 9 = 9*8*7 / 3*2*1
实际推断原理:
概率很小的事件在一次试验中实际上几乎是不发生的
几何概型
1. 试验的样本空间包含无限个元素
2. 试验中每个基本事件发生的可能性相同,即每个基本事件发生的概率相等
P(A)=构成事件A的区域长度(面积或体积)/实验的全部结果所构成的区域长度(面积或体积)
//note 03
条件概率
已知某个事件A发生的条件下,另一个事件B发生的概率称为条件概率,记为P(B|A)
P(B|A)=P(AB)/P(A)
乘法定理
P(AB)=P(B|A)P(A),其中P(A)>0
->P(ABC)=P(C|AB)P(B|A)P(A)=P(A|BC)P(B|C)P(C)
全概率公式
P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn)
B1...Bn 是样本空间S的划分
划分
贝叶斯公式:
设试验E的样本空间为S。A为E的一个事件,B1,b2.....Bn是S的一个划分,且P(A)>0,P(Bi)>0(i=1,2,....,n),则
P(Bi|A)=P(ABi)/P(A)=P(A|Bi)P(Bi)/(j=1 n累加)P(A|B1)P(B1)+P(A|B2)P(B2)+...P(A|Bj)P(Bj)
贝叶斯公式的应用——--垃圾邮件判别
原理:若已知某些字词经常出现在垃圾邮件中,却很少出现在合法邮件中,当一封邮 件含有这些字词时,那么他是垃圾邮件的可能性就很大。
(1)创建基于字词符号的贝叶斯数据库——--垃圾邮件不非垃圾邮件
(2)创建贝叶斯概率库——--垃圾概率
(3)创建个性化的贝叶斯库——--根据个人需求更改先验概率
公式比较
乘法公式、全概率公式与贝叶斯公式
1 乘法公式是求“几个事件同时发生”的概率;
2 全概率公式是求“最后结果”的概率;
3 贝叶斯公式是已知“最后结果” ,求“某个事件”的概率.
先验概率与后验概率
1 P(Bj|A)是在事件A发生的条件下, 某个事件Bj发生的概率, 称为 “后验概率”;
2 Bayes公式又称为“后验概率公式”或“逆概公式”;
3 称P(Bj) 为“先验概率”.
独立性
设A,B是两个事件,如果满足:P(AB)=P(A)P(B),则称事件A,B相互独立。简称A,B独立。
-- A(逆)与B(逆)也相互独立
多事件相互独立
多个事件相互独立!=多个事件两两独立
相互独立事件与互斥事件,对立事件
互斥事件与对立事件都不是相互独立事件
//note04
随机变量----Random Variable
定义:设随机试验的样本空间为S={e},X=X(e)是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量
离散(Discrete)型随机变量
连续(Continuous)型随机变量
取值概率
对于离散型随机变量,随机变量的每一个取值都一定的概率
分布律
(0-1)分布/两点分布
伯努利试验
n重伯努利试验:将一个伯努利试验独立地重复n次的一串重复的独立试验
二项分布
泊松分布 (p<=0.1时,可以直接用它来代替二项分布)(n>=20,p<=0.05)
概率密度分布图
分布函数
对于连续型随机变量,由于其可能的取值不能一一列出,所以就不能像离散型随机变量那样使用分布律去描述它。这时我们需要更加通用的描述方式--分布函数
设X是一个随机变量,x是任意实数,函数F(x)=P(X<=x)称为X的分布函数(累积分布函数)(英文简写CDF)
性质:
1.F(x)是一个不减函数
2.0<=F(x)<=1,且F(-∞)=lim x->∞F(x)=0;
F(∞)=lim x->∞ F(x) = 1
3.F(x)是右连续的
连续型随机变量的分布函数
连续型随机变量
严格定义:
对于随机变量X的分布函数F(x),存在非负可积函数f(x),使对于任意实数x有
F(x)= ∫x -∞ f(t)dt
则称X为连续型随机变量,f(x)称为X的概率密度凼数
( Probability Density Function ),简称概率密度(PDF)
概率密度
性质:
1.f(x) >=0
2.∫∞ -∞ f(x)dx = F(∞) = 1
3.对于任意实数X1,X2(X1<=X2),P{X1<=X<=x2}=F(x2)-F(x1)=∫x2 x1 f(x)dx
4.若f(x)在点x处连续,则有F'(x)=f(x)
均匀分布
若连续函数X具有概率密度f(x)={1/(b-a),a<x<b ; 0,其他,则称X在区间(a,b)上服从均匀分布,记为X~U(a,b)
正态分布
若连续型随机变量X的概率密度为f(x)=1/(√(2𝝿𝛔)e)^(-(x-𝛍)^2/2𝛔^2),-∞<x<∞,则称X服从参数为𝛍,𝛔^2的正态分布,记为X~N(𝛍,𝛔^2)
性质:
1.曲线关于x=u对称
2.当x=u时,概率密度函数可以取得最大值f(x)=1/(√(2𝝿𝛔))
3.在具有同样长度的区间中,当区间离u越远,X落在区间的概率越小
(𝛔^2越大越窄,u负数左移)
标准正态分布
u=0,𝛔^2=1时,为标准正态分布
标准正态分布查表
正态分布->标准正态分布
二项分布与正态分布
二项分布是离散情况下的正态分布
当n足够大时,可以用正态分布近似二项分布,从而避免二项分布中繁杂的计算
若X~B(n,p),当n足够大时,有X近似服从正态分布N(np,np(1-p))
导数
求导公式
不定积分
简单定积分
牛顿——莱布尼兹公式:
∫b a f(x)dx=F(x)|b a = F(b)-F(a)
其中,F(x)为f(x)的原函数,即𝐹′(𝑥) = 𝑓(𝑥)
分部积分公法:
设u(x)、v(x)在[a,b]上具有连续导数u'(x),v'(x),则
∫b a u(x)dv(x) = u(x)v(x)|b a - ∫b a v(x)du(x)
二维随机变量(或向量)
一般,设E是一个随机试验,它的样本空间是S={e},设X=X{e}和Y={e}是定义在S上的 随机变量,由X与Y构成的向量(X,Y)叫做二维随机向量或是二维随机变量(Two- dimensional random vector)
二维随机变量的分布函数:
联合分布函数:
设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:
F(x,y)=P{(X≤x)∪(Y≤y)}=P{X≤x,Y≤y}
称为二维随机变量(X,Y)的联合分布函数(Joint probability distribution)
性质:
1. F(x,y)是对于x和y的不减函数,即
x1<x2 => F(x1,y)<=F(x2,y)
y1<y2 =? F(x,y1)<=F(x,y2)
2. 0≤F(x,y)≤1,且对于任意固定的y,F(-∞,y)=0;对于任意固定的x,F(x,-∞)=0 F(-∞,-∞)=0,F(∞,∞)=1
3. F(x,y)关于x右连续,关于y右连续,即 lim ℇ->0+ F(x+ℇ, y)=F(x, y)
lim ℇ->0+ F(x, y+ℇ)=F(x, y)
4. 对于任意(x1,y1),(x2,y2),x1<x2,y1<y2,下述不等式成立:
F(x2,y2)-F(x2,y1)+F(x1,y1)-F(x1,y2)≥0
(积分的时候是上限值-下限值)
离散型的二维随机变量
如果二维随机变量(X,Y)全部可能取到的值是有限对或是可列无限对,则称(X,Y) 为离散型的二维随机变量。
连续型的二维随机变量
如果对于二维随机变量(X,Y)的分布函数F(x,y),存在非负可积函数f(x,y)使得对 于任意x,y有
F(x,y)=∫x -∞∫y -∞ f(v,v)dudv
称(X,Y)为连续型的二维随机变量。
联合概率密度
性质:
1. f(x,y)≥0
2. ∫∞ -∞ ∫∞ -∞ 𝑓(𝑥,𝑦)𝑑𝑥𝑑𝑦=𝐹(∞,∞) =1
3.
4.
多维随机变量
边缘分布
在多维随机变量中,将X,Y各自的分布称为边缘分布函数
边缘分布律
边缘分布律具有一维分布律的性质
联合分布律唯一决定边缘分布律. 具体求法是将联合分布律写成表格形式, 然后各行分
别相加得关于X的分布律;各列相加得Y的分布律
边缘概率密度
条件分布
条件分布律
条件概率密度
条件分布函数
各种分布的关系
联合分布可以唯一地确定边缘分布和条件分布
随机变量的独立性
//note06
离散型随机变量的数学期望
绝对收敛
随机变量的期望值=均值
二项分布的数学期望
连续型随机变量的数学期望
E(X) = ∫∞ -∞ xf(x)dx
//第6周 stat06b 03:00