人工智能学习笔记01

1.复杂系统

1.1物理预测的胜利与失效

牛顿力学
预测模型

Complexity ruins predictability

):Randomness
):Chaos.         混沌。   三体。   精确小数点位数
):Reflectivity
):Network Effect
):History Dependency

引论：
Complex Theory that predicts when unpredictable happens

群体制约个体

Complex System In Common:
Global structure rises from simple

Evolved instand of being designed

2 大数据与机器学习
Data grows,but not our insight

3. 人工智能的三个阶段
3.1 规则阶段

3.2 机器学习阶段发展至连接主义阶段
                                    符号，学派，控制
Classic Machine Learning
贝叶斯网络。 决策树.   

3.4 连接主义阶段发展至学习阶段

神经网络没有唯一的答案
GPU

特征工程：  将混淆的数据分成可以机器学习能够线性切割的组的工程
r =. x^2 + y^2
𝛼 = y/x

3.3 三个阶段总结分析

Three Generation of AI

Rule-based systems
Classic machine learning
Representation learning 

3.6 应用

文本分类
图片抽取
音频
翻译
人工智能艺术家
无人机
医疗

课程大纲：
贝叶斯与随机过程
    贝叶斯分析
    随机过程理论
监督学习            
    KNN    
    线性回归
    线性分类
    神经网络
    支持向量机
    决策树
    模型选择

        扫描各种算法。  数学推导    --    理解/ 参数 超参。 重点
                      程序        --    安装
                                --    介绍
深度学习
    CNN    卷积网络        --    对抗学习
    RNN 循环网络
    公式        稍微理解
    理论工具        RRM等
    python实践    重点    
    应用        --    图像
            --    语言

复杂系统
    统计力学（1.5天）
    非线性动力学（1.5d）
    应用
    复杂系统反推机器学习
    社会组织结构
    计算神经科学
    agent base model    应用于市场及分析里


4.高数
4.1 实数的定义（一）
    高数 -> 解决连续问题
    线代 -> 离散
    +概率统计


什么是实数？
    整数
    ->有理数：Q P    
    ->实数： 有理数+无理数
    戴的金分划：全集分成几个子集

    实数的定义：
    1.A中存在最大值，B中不存在最小值
    2.A中不存在最大值，B中存在最小值         1.2叫做有理分划
    3.A中不存在最大值，B中不存在最小值        无理分划

    性质：
    1）：稠密性
    2）：有序性

4.4 实数元素个数
    势，集合元素的个数。
    等势：A，B集合间元素可一一对应。

    希尔伯特旅馆：

    可列/可数：（列成一排）  意思是可以像一一对应那样列成实线

4.6 自然数个数少于实数个数
    反证法
    实数的势>正整数的势

4.8 无穷大之比较：
    ln n < n ^ 1/a1 < n < n ^ a2 < a3^n < n! < n ^ n
    n！～= √2𝛑n * (n/e)^n 
    n ~= 10   要小于 1 / 10^6

4.10 级数的收敛
    无穷小
    无穷大的倒数顺序
    发散。 收敛。 
    1 / n^a1 收敛(a>1)

    级数收敛的分界线
     ....1/a^n  < 1 / n^a1   < 1/n(ln n)^a 分界线 < 1/n(ln n)< 1/n < 1/n^1/a < 1/lna ....
     a = 1 发散
     a > 1 收敛

4.11 极限的定义
    ℇ-∂语言     ℇ-N语言
    lim(fx) = L
    x->x0
    ℇ --  任意目标变量
    ∂ --  自变量与目标变量的差值(????)
    |x-x0| < ∂   表示x 与 x0足够近
    有|f(x) - L| < ℇ

    lim Sn = L
    n->∞
    ℇ,N
    n> N时
    有|Sn-L|<ℇ

4.12 极限的四则运算
    加法。。。
    xxx.+ xxx   = L1 + L2

4.13 极限的复合
    若lim f(x) = L1
      x->x0
      lim g(x) = L2
      x->L1
    则 lim g(f(x)) = L2
       x->x0

4.14 连续性
    f(x)在x0处连续
    lim f(x) = f(x0)
    x->x0

    若左极限与右极限不相等，则f(x)在x0点不连续

5.复杂网络经济学
5.1 用网络的思维看经济结构

    从复杂网络看产业森林

5.2 复杂网络认识前后

    有个公式。  重要的参数是阈值。  阈值大的话两点间不易越迁，小的话预测不好

5.3 从网络结构看不同地区
    预测模拟的时候：相似度越高越容易越迁

6 机器学习
6.1 什么是机器学习
    大数据时代
    大数据时代1.0:数据的积累和呈现
    大数据时代2.0:机器学习：用历史数据预测未来    
    DT时代数据即财富
    机器学习给数据赋予价值

            -- 机器学习（偏技术）                -- 神经网络。    ---深度学习
    人工智能 -- 数据挖掘（偏应用，站在商业角度）
            -- 知识表示，推理，自然语言处理，感知。。

    在试错中学习

6.2 机器学习的类型
    监督学习：通过已有的训练样本（即已知数据以及其对应的输出）来训练，从而得到一个最优模型，再利用这个模型将所有新的
    数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的，那么这个最优模型也就具有了对未知数据进行分类的能力
    无监督学习：我们事先没有任何训练数据样本，需要直接对数据进行建模

    监督学习（反馈及时）VS强化学习（反馈不及时）
    达到的是预测结果足够和真实结果接近

    因素：叫做特征。（影响预测的关键因素）
    泛化算法
    reg（线性回归）：
    Y= w1a + w2b + w3c    
    w: 权重
    a,b,c：特征因素

6.3 简单回归 （接上）
    监督学习：
    def estimate_house_sales_price(num_of_bedrooms,sqft,neightborhood):
        price = 0
        if ....

    怎么找权重：   用计算机找
    第一步：把每个权重都设置为1
    第二步：将每栋房产带入你的函数运算，检验估算值与正确价格的偏离程度。
    例如：上表中第一套房产实际成交价为25万美元，你的函数估价为17.8万，相差了7.2万，这个时候要将你的数据集中的
    每套房产估价偏离值平方后求和。假设一共有500套房，则其平方求和总计为xxx，除以500的到平均误差值。该平均误差值称为函数的代价。
    **如果你能调整权重使得这个代价变为0，你的函数就完美了。
    第三步：不断重复第二步，尝试所有可能的权重值组合。哪一个组合使得代价最接近于0，它就是你要使用的。
    Cost = (求和(i1-i2))^2/500/2.    为什么会除以2呢？ 为了后面方便求导

    怎么找到最优秀的权重值？
    将其(reg:cost)在空间上表示出来
    先仅考虑2个特征的权重,x,y，然后z轴来表示cost值。  然后找z轴最低点
    寻找遍历最短的途径。。。即开始点到z轴最低点的最短路线，即变为了求梯度问题

    解决其他不相干因素造成的偏倚：
    如果w1与w2有线性关系，则有时候会出现不唯一的结果。还易出现过拟合。解决方法：引入范数。
    （新加入数据后，会采用随机梯度法）
    过拟合：即把一份数据分成几个子数据，用子数据来进行预测的，则其不能用为另外的数据集上。
    （经常见，原因即样本永远不是一个完整的样本）
    1）引入假设可以有效减少过拟合。
    2）分割成训练集和测试样本集（用测试样本来检验是否过拟合）

    贝叶斯分析

7. 阿尔法狗和强化学习
7.1 人工智能的发展：
    min-max算法
    围棋与象棋的区别
    解决穷举法的办法：强化学习，让机器来举一反三。。
7.2 强化学习算法
        环境元素
    决策/行为        观测 反馈
        行为者
    以围棋为例：
    马尔可夫决策树
    Action
    State
            ->Reword(奖励)
    永远是从当下指向当下
    策略与估值函数
    要考虑所有时刻的奖励
    要引入监督学习

    马尔可夫决策树+DL
    https://github.com/RochesterNRT/RocAlphaGo/blob/develop/AlphaGo/mcts.py
    RL. : 强化学习
    SL：监督学习
    UL：无监督学习
    正确+1分，错误-1分

    启示：
    1.目标明确
    2.规则明确
    3.信息完全
    这样的游戏是机器学习可以玩的游戏

    为什么炒股不能拿来当人工智能：炒股的规则，反伸性，信息不明确，对手还会伪装

    生存策略：
    提高效率
    数据思维
    专业知识

7.6 无监督学习
    推荐算法

8 高数-两个重要的极限定理
8.1 回顾
    IR。实数
    取反方式从Q构建IR
8.2 （一）
    lim(1+1/n)^n = e
    n->∞
    lim(sinx/x) = 1
    x->0
    证明方法：二项式展开，单调递增

    夹逼定理：（三角函数，导数的证明相关）
    lim f(x) = L
    x->x0
    lim g(x) = L
    x->x0
    且在(x1,x2)内，x1<x0<x2
    有f(x) <= k(x) <= g(x)
    => lim k(x) = L
       x->x0

9 高数-导数
9.1 定义
    f`(x) = lim f(x)-f(x0) / x-x0
            x->x0   
    特例：
    处处连续且处处不可导

    初等函数的导数：
    (x^n)` = n x^ n-1 (n != 0)
    (e^x)` = e^x
    sin`x = cos x
    ...

    反函数的导数：   自变量因变量互换就是反函数
    f` = lim ∆y/∆x
    g` = lim ∆x/∆y
    f`(x)g`(y) = 1
    arcsin`x = 1/ (cos(arcsinx))
    arctan`x = 1/ 1+x^2
    ln`x = 1 / x
    所有初等函数：
    sinx ,cosx,tanx,arcsinx,arccosx,arctanx,x^n,e^x,ln x
    复合函数的导数：
    g`(f(x)) = g`(f) * f`(x)

    k = e^ ln k

9.6 泰勒展开
    f(x) = f(x0) + f`(x0)(x-x0)/1! + f''(x0)(x-x0)^2 / 2! + ...  在x0处会得出展开范围内的任意值
    典型项：
    f(n) (x0)(x-x0)^n / n!
    f(n) ---- f的n次导

9.7 罗尔定理  (为了证明洛比塔法则)
    y = f(x) 在闭区间【a,b】内可导，且f(a) = f(b)
    则一定存在c， c属于（a,b)    f'(c) = 0
9.8 微分中值定理和柯西中值定理
    微分中值定理
    f(x)在[a,b]可导，那么一定存在c
    f'(c) = f(b) - f(a) / b-a
    柯西中值定理
    f(x),g(x)在[a,b]可导，且g(x) != 0
    则一定存在c。 
    f(b)-f(a) / g(b)-g(a) = f'(c)/g'(c)

9.9 洛比塔法则
    lim f(x) = 0 , lim g(x) = 0
    x->a            x->a
    有
    lim f(x)/g(x) = lim f'(a)/g'(a)
    x->a             x->a

10. 贝叶斯理论
10.1 梯度优化
    数据通常用.csv保存，可以用excel打开，也可以用python打开
    jupyter

    机器学习都需要通过代价函数转化为优化问题
    解决的最简单的方法：遍历

    图上各个点即构成了代价函数

    Gradient（梯度）
    G = [cos(t)]' / x'

    一维的话是指变化的速率
    二维的话（即x,y,z)，导数分偏x导数，与偏y导数 ，，寻找在哪个方向是最快的（reg：下降的方向（reg：加负号））
    步幅（步伐）。与 梯度的模长成正比。   在距离目标较远时，步伐较大，越接近时，步伐较小

10.3 概率基础
    监督学习：有标准答案的试错学习
    无监督学习：根据一定的假设寻找数据内部的结构
    强化学习：延迟满足，根据结果调整行为

    衡量模式的方法-概率论
    Probability is common sense reduced to calculation.

    机器学习问题随机性的来源：
    问题内在的不确定性
        信息不完全
            模型所能考虑的特征有限
                模型本身永远脱离真实

    概率与事件：

    1.试验
    2.事件
    3.概率空间    
    4.概率运算
        4.1 A∪B 
        4.2 A∩B
        4.3 ！A         = 1 - P(A)
        4.4 P(A | B)

    P(B|A) = P(A,B) / P(A)
    P(B|A) 独立 =  P(B)
    P(A) = P(A | B)P(B) + P(A|!B)P(!B)

10.5 贝叶斯推理
    P(A,B) = P(A|B)P(B)
    P(B,A) = P(B|A)P(A)
    -> P(A|B) = P(B|A)P(A) / P(B|A)P(A)+P(B|!A)P(!A)      贝叶斯公式

    P(A) --- 先验概率
    P(A|B) -- 后验概率
    B -- 证据
    A -- 事件
    证据  --  数据
    **根据数据更新对事件可能性的估计

    贝叶斯代表的是主观概率

10.8 辛普森案件