1. 深度学习简介
深度学习是机器学习领域一个新的研究方向,近年来在语音识别、计算机视觉等多类应用中取得突破性的进展。其动机在于建立模型模拟人类大脑的神经连接结构,在处理图像、声音和文本这些信号时,通过多个变换阶段分层对数据特征进行描述,进而给出数据的解释。以图像数据为例,灵长类的视觉系统中对这类信号的处理依次为:首先检测边缘、初始形状、然后再逐步形成更复杂的视觉形状,同样地,深度学习通过组合低层特征形成更加抽象的高层表示、属性类别或特征,给出数据的分层特征表示。
深度学习本质上是一个复杂的机器学习算法,在语言和图像识别方面取得的效果,远远超过先前相关技术。它在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术,以及其它相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
2. 深度学习发展概述
深度学习新近发展的热门技术,其发展的历史并不如人们所想的那般短暂,事实上深度学习的起源可以追溯到20世纪40年代,并经历了先后几次发展高峰期,只是在不同时期采用的名称,近期才作为“深度学习”为人所周知。
目前为止神经网络经历了三次发展高潮,神经网络的最早前身是20世纪40年代到20世纪60年代,从神经科学角度出发的简单线性模型,这些模型希望通过学习一组权重来获得想要的输出结果,于是这第一波神经网络的研究浪潮被称为控制论,期间发展的简单学习算法大大影响了如今机器学习的发展,其中的随机梯度下降法仍然是当今深度学习的主要训练算法。但是线性模型有很多局限性。最著名的是,它们无法学习异或(XOR)函数,观察到线性模型这个缺陷的批评者对此普遍地产生了抵触,这导致了神经网络热潮的第一次大衰退。
在20世纪80年代,在认知科学的背景下,联结主义产生,联结主义的中心思想是,当网络将大量简单的计算单元连接在一起时可以实现智能行为,这与生育系统中的神经元工作原理相符,神经网络迎来了第二次发展高潮,但受限于计算机的硬件水平,研究人员建立的模型对于大量数据的处理效果不甚理想,而与此同时,在机器学习的其他领域(核方法,图模型等)却取得了进步,导致了神经网络的第二次衰退。
神经网络的第三次高潮在2006年,由hinton命名为深信度网络的神经网络可以使用贪婪预训练策略进行训练,这是深度学习的一次巨大的突破,这种策略同样可以用来训练其他的神经网络,使得其能广泛地应用于更多的领域,新的浪潮以“深度学习”的术语深入人心,表示现在的研究人员已经有能力对深层的神经网络进行训练,神经网络的第三次高潮一直至今,如今的神经网络研究有着日新月异的变化。
3. 深度学习算法的介绍和应用
1) 在To recognize shapes, first learn to generate images [1] 总结了神经网路的发展历程,介绍了几种提出的算法,并说明如何将这些算法结合起来生成混合方法,这种混合方法可以在多层和数百万个自适应连接的网络中高效地工作。
2) 在The wake-sleep algorithm for unsupervised neural networks [2] 中,描述了用于多层随机神经元网络的无监督学习算法,介绍了利用其中的唤醒算法解决了需要指定网络的期望输出,并且需要一些将错误信息传达给所有连接的方法等多层神经网络监督算法面临的问题。
3) 在Building high-level features using large scale unsupervised learning [3] 文中提出了使用未标记的数据来构建特征检验器,并以人脸识别为例,采用1000万数据集对这个问题进行验证,运用一个深度稀疏自动编码器,结果表明,对于人脸数据不需要提前进行标记,并且对于图像平移和缩放识别效果也十分稳健。
4. 深信度网络的改进和应用
1) 在论文A building block for hardware belief networks [4] 中,针对现在信念网络涉及概率推理问题时,大部分使用标准确定性硬件的软件,来提供将数十亿个晶体互连成有用网络所需的增益和方向性的情况,构建了一个名为transynapse的概念,这个设备以已经构建好的纳米磁体物理学装置,结合突触的功能与类晶体管的增益性和方向性,用实验基准模型模拟已建立的现象来构建概率网络。
2) 在A fast learning algorithm for deep belief nets [5] 中,针对含有较多隐含层的信念网络,学习过程初始化较慢,调整权值困难等问题,使用“互补先验”概念,构造出一种快速贪婪算法,可以一次一层地学习深度的,定向的信念网络,采取此算法生成的模型在模式识别中有非常好的效果,经过微调后的模型比最好的判别式学习算法能提供更好的分类。
3) 在Acoustic modeling using deep belief networks [6] 的对于语音识别的研究中,通过增加神经网络的层数以及大量的参数,通过“预先训练”一层一层的多层神经网络作为语音系数窗口的生成模型,使得对具有多层隐藏单元的深层神经网络进行优化变得容易,随后使用标准反向传播算法进行判别性微调,然后稍微调整每一层的特征,使其更有用于区分,可以替代高斯混合模型,实现更好的电话识别性能。此模型的特点在于预训练,在语音系数窗口中构建更丰富的信息的多层生成模型来发现特征本身,并且不需要标记的数据。
4) 在Efficient learning of sparse representations with an energy-based model [7] 中,描述了一种新的无监督学习的方法,用于识别图像的特征,模型使用一个线性编码器和一个线性解码器,用来直接稀疏代码的非线性,要比在损失函数中增加一个稀疏项来控制要简单得多,该模型没有以前提出的稀疏过度完整特征学习方法的低效率和特性。解码器产生补丁的精确重建,而编码器提供代码的快速预测,而不需要对输入图像进行任何特定的预处理。
5) 在Real-time classification and sensor fusion with a spiking deep belief network [8] 中,提出了由于深信度网络固有的需要反馈和大量单元的并行更新,在串行计算机上实现DBN是昂贵的问题的解决方案,文章提出一种利用尖峰神经元的发射速率的近似来使DBN的常规训练算法与尖峰神经元适应的新颖方法,这是一种从模型分布采样以及不同感官模型的融合提供了一种新颖且计算强大的模型,大大提升了识别效率。
6) 在Reducing the dimensionality of data with neural networks [9] 中,描述了一个初始化权重的有效方法,允许深度自动编码器网络学习低于主要组件分析的低维代码作为降低数据维度的工具,来解决当利用多层神经网络来重建高维输入向量,将高维数据转换为低维码时,只有初始权重接近良好的解决方案时,才能正常工作的问题。
5. 玻尔兹曼机的改进和应用
1) 在Training restricted Boltzmann machines: an Introduction [10] 中,从马尔可夫随机场的角度介绍RBM,从所需的无向图模型的概念开始。讨论了不同的RBM学习算法,包括对比散度学习和平行回火。作为RBM的抽样,以及大部分的学习算法,都是基于马尔科夫链蒙特卡罗(MCMC)方法,提供了马尔可夫链和MCMC技术的介绍。实验证明了RBM培训的相关方面。
2) 在Adaptive sensor modelling and classification using a continuous restricted Boltzmann machine (CRBM) [11] 中,使用连续受限玻尔兹曼机(CRBM)在嵌入式传感器的无线系统中执行本地数据融,证明CRBM能够模拟复杂的非高斯分布,并自动调整到测量的传感器漂移,CRBM可以解决典型的基于联想记忆模型的灾难性干扰问题,并证明自适应传感器融合在动态环境中的优势。
3) 在Restricted Boltzmann machines for collaborative filtering [12] 中,使用限制玻尔兹曼机来模拟表格数据,来解决了现有的协同过滤技术不能处理非常大的数据集,以用户对于电影的评分为例,本文为这一类模型提供高效的学习和推理程序,并证明RBM可以成功应用于Netflix数据集,其中包含超过1亿用户/电影评级。
4) 在Spectral classification using restricted Boltzmann machine [13] 中,将受限制的玻尔兹曼机应用于天文学中的光谱分类,在谱分类之前,原始数据按照一定的规则进行二值化。然后用于二元受限玻尔兹曼机器来分类灾变变量和非灾变变量(所有给定数据的一半用于训练,另一半用于测试)。实验结果显示了100%的最新精度,这表明了二元受限波尔兹曼算法的效率。
5) 在Temperature based restricted Boltzmann machines [14] 中,根据玻尔兹曼分布依赖于温度的物理事实,文中引入称为“温度参数”的参数T来修改RBM,并且提出了一种名为“基于温度的受限玻尔兹曼机”(TRBM)的模型,新引入的T只是一个给RBM带来更多灵活性(或更多自由度)的参数。当T = 1时,模型TRBM减少到现有的RBM。并在文中进一步证明,温度参数T起着控制隐藏层中发射神经元选择性的重要作用。
6. 神经元模型的介绍及改进
1952年,A.L. Hodgkin和A.F. Huxley基于鱿鱼巨大原子的电生理实验,提出了一种非线性动力学系统作为神经膜的数学模型。神经膜中的混沌已经在混沌文献中进行了理论和实验研究。
1) 在Adaptive Control of the FitzHugh-Nagumo Chaotic Neuron Model [15] 中,研究了著名的Fitz Hugh-Nagumo (FHN)混沌神经元模型的定性性质,这是对Hodgkin-Huxley模型的二维简化。接下来,通过自适应控制方法获得Fitz Hugh-Nagumo (FHN)神经元模型的输出调节的新结果。并运用MATLAB图来说明Fitz Hugh-Nagumo (FHN)神经元模型的相位以及FHN神经元模型的输出调节。
2) 在All-memristive neuromorphic computing with level-tuned neurons [16] 中,提出一个全记忆神经形态结构,包括通过使用相变忆阻器的物理性质和状态动态来实现神经元和突触的性质。该架构采用了将同一层中的神经元互连的新概念,从而让神经元有着水平调整来优先处理输入信息的性质。文中在无监督学习和在并行输入流中检测多个时间相关性的实验中证明了所提出的体系结构。
3) 在Response of Hodgkin-Huxley stochastic bursting neuron to single-pulse stimulus [17] 一文研究了具有外部高斯噪声的Hodgkin-Huxley神经元模型,以标准的Hodgkin-Huxley模型为基础,并考虑了系统强非线性的激励阈值附近的参数范围;让随机系统在脉冲状刺激下不再是平稳的,而且也不用传统的方法来量化随机过程,最后使靠近激励阈值的神经元显示迟滞,该模型在参数范围内表现出稳态;论文以简化电流的单脉冲来研究系统的简单响应。当噪声幅度增加时,刺激和第一个尖峰之间的延迟时间大大减少,甚至对于亚阈值刺激也是如此。刺激后突发的峰值的平均数量在一定的噪声幅度范围内是最大的。因此,可以得出随机爆发的Hodgkin-Huxley神经元对单脉冲刺激的敏感性比无声刺激的灵敏度更高的结论。
4) 在A simplified computational memory model from information processing [18] 中,从信息处理的角度提出了一种计算模型,首先定义基于生物学和图论的元记忆来表达神经元或大脑皮质,然后用建模算法通过映射节点和边缘来开发一个模块内网络,然后描述双模块网络采用模块化内部模块化。构造了一个通过抽象记忆功能和模拟记忆信息处理的双模块分层功能记忆网络,称为简化记忆信息检索网络(SMIRN)的模型,理论分析和仿真结果表明,该模型符合信息处理视角下的记忆现象。
7. 深度学习最新著作的介绍
1) 在 Learning both Weights and Connections for Efficient Neural Networks [19] 中,描述了一种方法来减少神经网络所需的存储和计算一个数量级,而不影响它们的准确性,只学习重要的连接(首先,训练网络来了解哪些连接是重要的。接下来,剪掉非重要的连接。最后,重新训练网络来微调其余连接的权重);成功的解决了传统神经网络难以在嵌入式网络上部署,并且在训练期间不能改变其结构的限制。
2) 在Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks [20] 中,描述了一种可以被训练以产生一些输入的令牌序列的递归神经网络,存在着训练和推断之间的差异会产生可以沿着生成的序列快速积累的错误,文章中提出了一个课程学习策略,从一个完全指导的方案,使用真正的上一个令牌,转向一个主要使用生成的令牌的较少指导方案,从而轻松地将训练过程改变。对几个序列预测任务的实验表明,这种方法产生了显着的改进。
3) 在Learning Multi-Domain Convolutional Neural Networks for Visual Tracking [21] 中,基于一个已经受训好的神经网络,文章提出了一种新颖的视觉追踪算法,首先使用大量视频追踪事实为基础来预先训练CNN,以获得通用的目标函数表示,用共享图层和多个特定领域层的分支构成神经网络,随后迭代地训练网络中的每个域以获得共享层中的通用目标函数表示。当以新序列跟踪目标时,通过将预训练CNN中的共享层与新的在线更新的二元分类层相结合来构建新的网络。通过评估在前一个目标状态周围随机采样的候选窗口来进行在线跟踪。所提出的算法表现了现有跟踪基准的优异性能。
4) 在Multi-Centrality Graph Spectral Decompositions and Their Application to Cyber Intrusion Detection [22] 中,文章提出了一种新的单图分析的PCA方法,称为多中心图PCA (MC-GPCA),以及一种新的的字典学习方法,称为多中心图学习(MC-GDL)两者都基于多中心矩阵的谱分解。并据此来集成了多个特征(包括中心度量和参考节点的图形距离)。作为网络入侵检测的一种应用,MC-GPCA可以作为异常连接模式的有效指示,MC-GDL可以为攻击分类提供判别依据。
5) 在Pixel Recurrent Neural Networks [23] 中,在处理自然图像的分布建模上,提出了一个深度神经网络,按照顺序预测沿着两个空间维度的图像中的像素,这个方法模拟了原始像素值的离散概率,并对图像中的完整的依赖关系进行了编码。网络结构新奇,包括快速的二维递归层等等。以不同的Image Net数据集为基准,模型生成的结果清晰多样,在自然图像上获得对数似然分布,这比以前的分布水平要好得多。
6) 在Conditional Random Fields as Recurrent Neural Networks [24] 中,为了解决深度学习技术去除视觉对象的能力有限的问题,引入了一个新型卷积神经网络,它结合了卷积神经网络(CNNs)和基于条件随机场(CRFs)的概率图模型的优势,将带有高斯成对电位的条件随机场作为递归神经网络的平均场近似推断,然后将这个称为CRF-RNN的网络作为CNN的一部分插入,以获得具有CNN和CRF的所需特性的深度网络。使得可以用通常的反向传播算法对整个深度网络进行端到端的训练。新的算法在语义图像分割问题上获得了最佳结果。
7) 在Multimodal Deep Learning [25] 中,提出了一种深度网络的新颖应用来学习多种形式的特征,展示了交叉模态特征学习,其中如果在特征学习时间存在多个模态(例如,音频和视频),则可以学习针对一个模态(例如,视频)的更好特征。此外,论文展示了如何学习模态之间的共享表示,并在一个独特的任务上进行评估,分类器只使用纯音频数据进行训练,而对纯视频数据进行测试,反之亦然。获得了良好的效果。
8) 在An Empirical Exploration of Recurrent Network Architectures [26] 中,研究了特定的递归神经网络(RNN)架构——长期短期记忆(LSTM),论文目标是首先确定LSTM架构是否是最佳的,或者是否有更好的架构存在。首先对一万多个不同的RNN架构进行了评估,并确定了一个架构,它在一些但不是所有的任务上都优于其他LSTM和最近引入的Gated Recurrent Unit (GRU)。
8. 总结
深度学习在网络表达复杂目标函数方面,网络结构的计算复杂度方面,仿生学角度,信息共享方面以及找到数据内部结构,发现变量之间真正的关系方面,都比其他算法更具优势;但是在模型结构上仍有进步空间,反馈与前馈网络,监督与非监督网络,单项网络与双向网络,对于不同的应用都有着不同的效果,在此基础上,依据拓扑学和物理学的模型修改网络内部参数的数量以及结构,更可以增强模型的应用性;神经网络的模型改进还有着很大的进步空间。
基金项目
山东省自然科学基金面上项目“完备Ricci孤立子分类问题的研究”,山东省研究生教育创新计划项目“一线贯通式几何方向研究生课程群及信息化平台建设”(SDYY15129),山东省研究生导师指导能力提升项目“布尔巴基观点下的几何与代数方向研究生课程体系与课程群建设”(SDYY17009),中国海洋大学研究生教育创新成果培育项目“布尔巴基观点下的几何与代数方向研究生课程体系与课程群建设”。
NOTES
*通讯作者。