本章首先简要介绍了神经网络的由来,神经元模型包括连接权值、求和单元、激活函数三个重要部分。介绍了几种常用的阈值函数等内容。人工神经网络结构包括输入神经元数,输出神经元个数、隐层数,每个隐层中神经元个数、每个神经元的激活函数f三个组成部分。并举例介绍前馈神经网络的学习等内容。最后介绍了聚类方法在预测中的应用。

注脚

展开查看详情

1.基于神经网络的预测与分类

2. 人工神经网络产生背景 机器智能 研究怎样用机器(计算机)模仿人 脑从事推理、设计、思考、学习等思维活 动,以解决和处理较复杂的问题。 人工神经网络 是机器智能的一部分,它模拟大脑的神 经系统,更简单的说,就是人脑神经系统的一 个数学模型

3.大脑神经系统 大脑内约含 1000 亿个神经元 神经系统是由这些神经元经过高 度的组织与相互作用而构成的复 杂的网络 特征:神经元 + 相互作用

4. 神经元模型 突触 突触 突触 突触 突触 x1 突触是可变的 神经元与神经元之间如何 w1 相互作用(传递信息 相互作用 )? w2 a 依赖于突触的联接!突触的联接 x2 会受外界信息的影响或自身生长 过程的影响而变化。正是通过神 经元及其突触联接的可变性,使 可变 wn 得大脑具有学习、记忆和认知等 xn 神经元模型 各种智能。 连接权值 w 对应于突触 对应于

5. 完成输入 - 输出的非线性映射,有三个关键 连接权值 求和单元 激活函数 x1 w1 权值 激活函数 n 阈值 x2 w2 a 多输入   f wn 单输出 xn 输入 - 输出关系  w1   x1      n  w2   x2  净输入 n   ii w x i 1    wT x 其中, w      x       wn   xn  a  f (n)  f ( wT x)     1    

6. 常见的几类激活函数 这些非线性函数具有两个显著的特征,一是 突变性,二是饱和性,这正是为了模拟神经 细胞兴奋过程中所产生的神经冲动以及疲劳 等特性

7. 人工神经网络 人工神经网络=神经元+连接 连接 神经元 神经元 神经网络分类 •无反馈网络:前馈神经网络 •有反馈网络:递归神经网络

8. 神经网络的结构 前馈神经网络 输入 -- 输出关 系? 递归神经网络 特点:神经元之间 有反馈连接

9. 单个神经元 x1 w1 权值 n x2 w2 a   f 多输入 单输出 wn xn 输入 - 输出关系  w1   x1      n  w2   x2  净输入 n   ii w x i 1    wT x 其中, w      x       wn   xn  a  f (n)  f ( wT x)     1    

10. 单层前馈神经网络 p1 w11 w12 输入 - 输出关系: w13 n1 f1 a1  R  ai  f i   wij p j  w21  j 1  p2 w22 n2 f 2 a2 R w23 ni  wij p j j 1 wR1 wR 2 ns f s as a  f W p  T wR 3 pR

11. 权值, 求和,激活函数 多层前馈神经网络 x1 w11 w12 1 1 a1 2 2 a12 3 3 a12 1 n f 1 1 n f 1 1 n1 f1 w13 w21 1 1 a 12 2 2 a 22 3 x2 w22 n f2 2 n f 2 2 n f 2 2 3 a 22 w23 wR1 wR 2 n1s1 f s1 a 1s1 2 n f s2 2 a s22 s2 3 n f s3 3 a s2 s3 2 1 wR 3 xR 输入层 隐含层 隐含层 输出层 输入 - 输出关系: 输出关系 a  f W , p 

12. 人工神经网络 一、网络结构 1 、输入神经元数,输出神经元个数 2 、隐层数,每个隐层中神经元个数 3 、每个神经元的激活函数 f 输入 - 输出关系 p a 神经网络 a  f (W , p )

13.二、前馈神经网络的学习 这类网络模型 怎样实现分类、识别、 预测等智能行为? 通过学习!改变连接权值 W ! 通过样本更新权值和阈值

14. 以识别苹果和香蕉为例 期望输出 训练样本:{ p1, t 1}  { p2, t 2}    {pQ,tQ } 输入 关键:调整权值 p a 神经网络 a  f (W , p) 输入:苹果或香蕉 期望输出 shape t=1--- 苹果 p = texture t=0--- 香蕉 w eight

15. 有导师的学习 期望输出(向量) 训练样本:{ p1, t 1}  { p2, t 2}    {pQ,tQ } 输入(向量) 基本思想: 对样本对(输入和期望输出)进行学习;将样本的输 入送至神经网络,计算得到实际输出;若实际输出与 期望输出之间的误差不满足精度要求,则调整权值 W 和阈值 b,逐渐减小误差,直至满足精度要求。

16.学习过程:通过样本更新权值和阈值 输出目标 训练样本 { p1, t 1}  { p2, t 2}    {pQ,tQ } 输入 p 神经网络 a a  f (W , p ) W(old) W(new)

17. 学习  网络的学习:通过样本不断调整权值  学习好以后的网络:权值不再改变,所学的知 识存储在权值中  学习好以后的网络进行预测、分类等等 下面将给出三种典型的有导师学习的神经网络 : BP,RBF,PNN

18. BP (反向传播)神经网络原理 一、结构 误差反向传播 ( 学习算法 ) 1 、多层前馈网络: x1 j i k - + 前、后层之间各神经元 x2 实现全联接;同一层的 xn 神经元之间无联接。 M wij q wki L 输入层 隐含层 输出层 信息流 2 、输入输出关系: a  f W , x  激活函数通常采用 S 形函数,如 logsig , tansig 函数;输 出层激活函数多采用 purelin 函数。 3 、理论上,具有一个隐含层的 BP 网络可以以任意精 度逼近任意非线性函数。

19.二、 BP 网络的学习算法 训练样本 { p1, t 1}  { p2, t 2}    {pQ,tQ } BP 网络的学习算法是典型的有导师学习算 法:将样本输入神经网络,得到网络的实际输出 ,若输出值与期望输出之间的误差不满足精度要 求,则从输出层反向传播该误差,从而调整权值 从输出层反向传播该误差 及阈值,使得网络的输出和期望输出间的误差逐 渐减小,直至满足精度要求。 学习过程: 信号前向传播 + 误差反向传播

20.二、 BP 网络的学习 1 、信号前向传播 p BP 神经网 a a  f络(W , p ) Forward Propagation 0 a = p m+1 m+ 1 m+1 m m+ 1 a = f W a +b  m = 0 2   M – 1 a = aM

21. 2 、误差反向传播 训练样本: { p1, t 1}  { p2, t 2}    {pQ,tQ } 均方误差(单输出) 均方误差(多输出) 2 2 T T F  x = E  e  = E  t – a   F  x = E  e e  = E   t – a   t – a  F w(k  1) w(k )    w 梯度下降法:权值阈值的调整沿着误差函数下降 最快的方向——负梯度方向

22. BP 网络的学习算法(梯度下降法) F 第m w(k  1) w(k )    层的灵 w 敏度 Weight Update m m m m–1 T m m m W  k + 1  = W  k  – s a  b k + 1  = b k  – s 误差反向传播  M M s  2 F ( n M )(t  a )  s m F M m (n ) W   m 1 T s m 1 m = M – 1   2  1

23. BP 学习过程 Step1 • 选定样本 ,p=1,…,P, p=1,p=1,…,P, …,p=1,…,P, P,p=1,…,P, 随机确定初始权矩 阵W(0) Step2 • 利用样本计算网络输出,更新权值和阈值。直到误差满足精得到误差 Step3 • 利用误差反向计算每一层的 sensitivty ,更新权值和阈值。直到误差满足精 更 新权值和阈值。直到误差满足精 度要求。

24. BP 网络学习算法的改进  BP 算法缺点小结  易形成局部极小而得不到全局最优;  训练次数多使得学习效率低,收敛速度慢;  隐节点的选取缺乏理论指导;  训练时学习新样本有遗忘旧样本的趋势。 针对上述问题,国内外已提出不少有效的改 进算法,其中基于 LM 的改进算法是较常用的 一种方法。

25.概率神经网络

26. 概率神经网络 训练好以 通过训练集学习数 后的网络 据背后的统计规律 - 进行分类 分布函数

27. 概率神经网络  许多研究已表明概率神经网络具有以下特性: (1) 训练容易,收敛速度快,从而非常适用于 实时处理; (2) 可以完成任意的非线性变换,所形成的判 决曲面与贝叶斯最优准则下的曲面相接近; (3) 各层神经元的数目比较固定,因而易于硬 件实现; 这种网络已较广泛地应用于非线性滤波、模 式分类、联想记忆和概率密度估计当中。

28. 练习 1、现给出一药品商店两年当中 24 个月的药品销售量(单位 :箱)如下: 1856 1995 2220 2056 1123 1775 1900 1389 1609 1424 2276 1332 2056 2395 2600 2298 1634 1600 1873 1487 1900 1500 2046 1556 要求用当前的所有数据预测下一个月的药品销售量。

29.问题分析 BP , RBF 网络均可达到预测目的:用前三个 月的销售量预测下一个月的销售量,也就是用 1-3 月的销售量预测第 4 个月的销售量,用 2-4 个月 的销售量预测第 5 个月的销售量,如此循环下去, 直到用 9-11 月预测 12 月份的销售量。这样训练 BP 神经网 络后,就可以用 10-12 月的数据预测来年一月的 销售量。

30. 2 、 2000 年全国竞赛 A 题 人类基因组计划中 DNA 全序列草图是由 4个字符 A, T, C, G按一定顺序排成的长约 30 亿的字符序列,其中没有“断句”也没有标点符号.虽然人类对它知之甚少,但也发现了”也没有标点符号.虽然人类对它知之甚少,但也发现了 其中的一些规律性和结构.例如,在全序列中有一些是用于编码蛋白质的序列片段,即由 这 4个字符组成的 64 种不同的 3字符串,其中大多数用于编码构成蛋白质的 20 种氨基酸 .又例如,在不用于编码蛋白质的序列片段中, A和 T的含量特别多些,于是以某些碱基 特别丰富作为特征去研究 DNA 序列的结构也取得了一些结果.此外,利用统计的方法还发 现序列的某些片段之间具有相关性,等等.这些发现让人们相信, DNA 序列中存在着局部 的和全局性的结构,充分发掘序列的结构对理解 DNA 全序列是十分有意义的.目前在这项 研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象 .作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)请从 20 个已知类别的人工制造的序列(其中序列标号 1~ 10 为 A类, 11 ~ 20 为 B 类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好. 然后用你认为满意的方法,对另外 20 个未标明类别的人工序列(标号 21 ~ 40 )进行分类 ,把结果用序号(按从小到大的顺序)标明他们的类别(无法分类的不写入) 2)同样方法对 182 个自然 DNA 序列 ( 他们都较长 ) 进行分类,像 1)一样地给出分类结果 .

31. 已知的人工序列  1.aggcacggaaaaacgggaataacggaggaggacttggca cggcattacacggaggacgaggtaaaggaggcttgtctacgg ccggaagtgaagggggatatgaccgcttgg   2.cggaggacaaacgggatggcggtattggaggtggcggact gttcggggaattattcggtttaaacgggacaaggaaggcggctg gaacaaccggacggtggcagcaaagga  。。。。。。。。  40.ccattagggtttatttacctgtttattttttcccgagaccttaggttt accgtactttttaacggtttacctttgaaatttttggactagcttaccct ggatttaacggccagttt 

32.网络构建:输入为特征,期望输出为类别: 0.1 或 0.9 网络的训练及检验: 在已知类别序列 1 ~ 20 中 , 取 A 类前 7 个序列 (1 ~ 7) 和 B 类前 7 个序列 (11 ~ 17) 作为训练集 P_train, 序列 8 ~ 10 、 18 ~ 20 作为测试集 P_test. 对 BP/RBF/PNN 网络进行训练 , 给定样本总体误差标 准为 10^(-5). 当网络学习收敛于给定的标准后 , 用测 试集进行分类检验 , 考察这三种网络性能优劣,选择 性能最好的网络进行分类。 网络进行分类 将标号 21 ~ 40 的特征输入训练好的网络,输出即 为类别

33.Utilizing Clustering Methods for Forecasting

34.Pattern Sequence Forecasting (PSF)  PSF is a forecasting method mixing traditional regression methods (such as moving average (MA) and auto-regression (AR)) with clustering methods, such as Kmeans and EM  PSF can achieve extremely high forecasting results in electricity consumption forecasting

35.Electricity Power Consumption Forecasting

36.Daily Power Consumption Variation

37.Pattern Sequence Forecasting (PSF)  Step 1: Pre-processing Data (Re- organizing table) day1 1st 2nd … Clas hour hour s1 day2 Clas s2 day3 Clas s3

38.Selecting the number of Clusters

39.Distribution of Weekdays for Clusters

40.Misclassification by Kmeans

41.Means of Daily Electricity Consumption

42.Pattern Sequence Forecasting (PSF)

43.Predictions