1.复杂系统
1.1物理预测的胜利与失效
牛顿力学
预测模型
Complexity ruins predictability
):Randomness
):Chaos. 混沌。 三体。 精确小数点位数
):Reflectivity
):Network Effect
):History Dependency
引论:
Complex Theory that predicts when unpredictable happens
群体制约个体
Complex System In Common:
Global structure rises from simple
Evolved instand of being designed
2 大数据与机器学习
Data grows,but not our insight
3. 人工智能的三个阶段
3.1 规则阶段
3.2 机器学习阶段发展至连接主义阶段
符号,学派,控制
Classic Machine Learning
贝叶斯网络。 决策树.
3.4 连接主义阶段发展至学习阶段
神经网络没有唯一的答案
GPU
特征工程: 将混淆的数据分成可以机器学习能够线性切割的组的工程
r =. x^2 + y^2
𝛼 = y/x
3.3 三个阶段总结分析
Three Generation of AI
Rule-based systems
Classic machine learning
Representation learning
3.6 应用
文本分类
图片抽取
音频
翻译
人工智能艺术家
无人机
医疗
课程大纲:
贝叶斯与随机过程
贝叶斯分析
随机过程理论
监督学习
KNN
线性回归
线性分类
神经网络
支持向量机
决策树
模型选择
扫描各种算法。 数学推导 -- 理解/ 参数 超参。 重点
程序 -- 安装
-- 介绍
深度学习
CNN 卷积网络 -- 对抗学习
RNN 循环网络
公式 稍微理解
理论工具 RRM等
python实践 重点
应用 -- 图像
-- 语言
复杂系统
统计力学(1.5天)
非线性动力学(1.5d)
应用
复杂系统反推机器学习
社会组织结构
计算神经科学
agent base model 应用于市场及分析里
4.高数
4.1 实数的定义(一)
高数 -> 解决连续问题
线代 -> 离散
+概率统计
什么是实数?
整数
->有理数:Q P
->实数: 有理数+无理数
戴的金分划:全集分成几个子集
实数的定义:
1.A中存在最大值,B中不存在最小值
2.A中不存在最大值,B中存在最小值 1.2叫做有理分划
3.A中不存在最大值,B中不存在最小值 无理分划
性质:
1):稠密性
2):有序性
4.4 实数元素个数
势,集合元素的个数。
等势:A,B集合间元素可一一对应。
希尔伯特旅馆:
可列/可数:(列成一排) 意思是可以像一一对应那样列成实线
4.6 自然数个数少于实数个数
反证法
实数的势>正整数的势
4.8 无穷大之比较:
ln n < n ^ 1/a1 < n < n ^ a2 < a3^n < n! < n ^ n
n!~= √2𝛑n * (n/e)^n
n ~= 10 要小于 1 / 10^6
4.10 级数的收敛
无穷小
无穷大的倒数顺序
发散。 收敛。
1 / n^a1 收敛(a>1)
级数收敛的分界线
....1/a^n < 1 / n^a1 < 1/n(ln n)^a 分界线 < 1/n(ln n)< 1/n < 1/n^1/a < 1/lna ....
a = 1 发散
a > 1 收敛
4.11 极限的定义
ℇ-∂语言 ℇ-N语言
lim(fx) = L
x->x0
ℇ -- 任意目标变量
∂ -- 自变量与目标变量的差值(????)
|x-x0| < ∂ 表示x 与 x0足够近
有|f(x) - L| < ℇ
lim Sn = L
n->∞
ℇ,N
n> N时
有|Sn-L|<ℇ
4.12 极限的四则运算
加法。。。
xxx.+ xxx = L1 + L2
4.13 极限的复合
若lim f(x) = L1
x->x0
lim g(x) = L2
x->L1
则 lim g(f(x)) = L2
x->x0
4.14 连续性
f(x)在x0处连续
lim f(x) = f(x0)
x->x0
若左极限与右极限不相等,则f(x)在x0点不连续
5.复杂网络经济学
5.1 用网络的思维看经济结构
从复杂网络看产业森林
5.2 复杂网络认识前后
有个公式。 重要的参数是阈值。 阈值大的话两点间不易越迁,小的话预测不好
5.3 从网络结构看不同地区
预测模拟的时候:相似度越高越容易越迁
6 机器学习
6.1 什么是机器学习
大数据时代
大数据时代1.0:数据的积累和呈现
大数据时代2.0:机器学习:用历史数据预测未来
DT时代数据即财富
机器学习给数据赋予价值
-- 机器学习(偏技术) -- 神经网络。 ---深度学习
人工智能 -- 数据挖掘(偏应用,站在商业角度)
-- 知识表示,推理,自然语言处理,感知。。
在试错中学习
6.2 机器学习的类型
监督学习:通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的
数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力
无监督学习:我们事先没有任何训练数据样本,需要直接对数据进行建模
监督学习(反馈及时)VS强化学习(反馈不及时)
达到的是预测结果足够和真实结果接近
因素:叫做特征。(影响预测的关键因素)
泛化算法
reg(线性回归):
Y= w1a + w2b + w3c
w: 权重
a,b,c:特征因素
6.3 简单回归 (接上)
监督学习:
def estimate_house_sales_price(num_of_bedrooms,sqft,neightborhood):
price = 0
if ....
怎么找权重: 用计算机找
第一步:把每个权重都设置为1
第二步:将每栋房产带入你的函数运算,检验估算值与正确价格的偏离程度。
例如:上表中第一套房产实际成交价为25万美元,你的函数估价为17.8万,相差了7.2万,这个时候要将你的数据集中的
每套房产估价偏离值平方后求和。假设一共有500套房,则其平方求和总计为xxx,除以500的到平均误差值。该平均误差值称为函数的代价。
**如果你能调整权重使得这个代价变为0,你的函数就完美了。
第三步:不断重复第二步,尝试所有可能的权重值组合。哪一个组合使得代价最接近于0,它就是你要使用的。
Cost = (求和(i1-i2))^2/500/2. 为什么会除以2呢? 为了后面方便求导
怎么找到最优秀的权重值?
将其(reg:cost)在空间上表示出来
先仅考虑2个特征的权重,x,y,然后z轴来表示cost值。 然后找z轴最低点
寻找遍历最短的途径。。。即开始点到z轴最低点的最短路线,即变为了求梯度问题
解决其他不相干因素造成的偏倚:
如果w1与w2有线性关系,则有时候会出现不唯一的结果。还易出现过拟合。解决方法:引入范数。
(新加入数据后,会采用随机梯度法)
过拟合:即把一份数据分成几个子数据,用子数据来进行预测的,则其不能用为另外的数据集上。
(经常见,原因即样本永远不是一个完整的样本)
1)引入假设可以有效减少过拟合。
2)分割成训练集和测试样本集(用测试样本来检验是否过拟合)
贝叶斯分析
7. 阿尔法狗和强化学习
7.1 人工智能的发展:
min-max算法
围棋与象棋的区别
解决穷举法的办法:强化学习,让机器来举一反三。。
7.2 强化学习算法
环境元素
决策/行为 观测 反馈
行为者
以围棋为例:
马尔可夫决策树
Action
State
->Reword(奖励)
永远是从当下指向当下
策略与估值函数
要考虑所有时刻的奖励
要引入监督学习
马尔可夫决策树+DL
https://github.com/RochesterNRT/RocAlphaGo/blob/develop/AlphaGo/mcts.py
RL. : 强化学习
SL:监督学习
UL:无监督学习
正确+1分,错误-1分
启示:
1.目标明确
2.规则明确
3.信息完全
这样的游戏是机器学习可以玩的游戏
为什么炒股不能拿来当人工智能:炒股的规则,反伸性,信息不明确,对手还会伪装
生存策略:
提高效率
数据思维
专业知识
7.6 无监督学习
推荐算法
8 高数-两个重要的极限定理
8.1 回顾
IR。实数
取反方式从Q构建IR
8.2 (一)
lim(1+1/n)^n = e
n->∞
lim(sinx/x) = 1
x->0
证明方法:二项式展开,单调递增
夹逼定理:(三角函数,导数的证明相关)
lim f(x) = L
x->x0
lim g(x) = L
x->x0
且在(x1,x2)内,x1<x0<x2
有f(x) <= k(x) <= g(x)
=> lim k(x) = L
x->x0
9 高数-导数
9.1 定义
f`(x) = lim f(x)-f(x0) / x-x0
x->x0
特例:
处处连续且处处不可导
初等函数的导数:
(x^n)` = n x^ n-1 (n != 0)
(e^x)` = e^x
sin`x = cos x
...
反函数的导数: 自变量因变量互换就是反函数
f` = lim ∆y/∆x
g` = lim ∆x/∆y
f`(x)g`(y) = 1
arcsin`x = 1/ (cos(arcsinx))
arctan`x = 1/ 1+x^2
ln`x = 1 / x
所有初等函数:
sinx ,cosx,tanx,arcsinx,arccosx,arctanx,x^n,e^x,ln x
复合函数的导数:
g`(f(x)) = g`(f) * f`(x)
k = e^ ln k
9.6 泰勒展开
f(x) = f(x0) + f`(x0)(x-x0)/1! + f''(x0)(x-x0)^2 / 2! + ... 在x0处会得出展开范围内的任意值
典型项:
f(n) (x0)(x-x0)^n / n!
f(n) ---- f的n次导
9.7 罗尔定理 (为了证明洛比塔法则)
y = f(x) 在闭区间【a,b】内可导,且f(a) = f(b)
则一定存在c, c属于(a,b) f'(c) = 0
9.8 微分中值定理和柯西中值定理
微分中值定理
f(x)在[a,b]可导,那么一定存在c
f'(c) = f(b) - f(a) / b-a
柯西中值定理
f(x),g(x)在[a,b]可导,且g(x) != 0
则一定存在c。
f(b)-f(a) / g(b)-g(a) = f'(c)/g'(c)
9.9 洛比塔法则
lim f(x) = 0 , lim g(x) = 0
x->a x->a
有
lim f(x)/g(x) = lim f'(a)/g'(a)
x->a x->a
10. 贝叶斯理论
10.1 梯度优化
数据通常用.csv保存,可以用excel打开,也可以用python打开
jupyter
机器学习都需要通过代价函数转化为优化问题
解决的最简单的方法:遍历
图上各个点即构成了代价函数
Gradient(梯度)
G = [cos(t)]' / x'
一维的话是指变化的速率
二维的话(即x,y,z),导数分偏x导数,与偏y导数 ,,寻找在哪个方向是最快的(reg:下降的方向(reg:加负号))
步幅(步伐)。与 梯度的模长成正比。 在距离目标较远时,步伐较大,越接近时,步伐较小
10.3 概率基础
监督学习:有标准答案的试错学习
无监督学习:根据一定的假设寻找数据内部的结构
强化学习:延迟满足,根据结果调整行为
衡量模式的方法-概率论
Probability is common sense reduced to calculation.
机器学习问题随机性的来源:
问题内在的不确定性
信息不完全
模型所能考虑的特征有限
模型本身永远脱离真实
概率与事件:
1.试验
2.事件
3.概率空间
4.概率运算
4.1 A∪B
4.2 A∩B
4.3 !A = 1 - P(A)
4.4 P(A | B)
P(B|A) = P(A,B) / P(A)
P(B|A) 独立 = P(B)
P(A) = P(A | B)P(B) + P(A|!B)P(!B)
10.5 贝叶斯推理
P(A,B) = P(A|B)P(B)
P(B,A) = P(B|A)P(A)
-> P(A|B) = P(B|A)P(A) / P(B|A)P(A)+P(B|!A)P(!A) 贝叶斯公式
P(A) --- 先验概率
P(A|B) -- 后验概率
B -- 证据
A -- 事件
证据 -- 数据
**根据数据更新对事件可能性的估计
贝叶斯代表的是主观概率
10.8 辛普森案件