1. 引言
作为光学字符识别的一个重要分支,手写数字识别(Handwritten numeral recognition, HNR)主要研究如何利用计算机自动识别人手写在纸张上或电子设备中的阿拉伯数字,涉及模式识别、图像处理、人工智能、统计决策理论、模糊数学等学科,是一门综合性较强的技术 [1]。HNR可以大大降低人工识别手写数字的错误率,显著提高数字识别和录入的效率,因而在文献检索、办公自动化、试卷成绩统计、银行票据自动识别、邮政自动分拣等领域得到了越来越广泛的应用。
HNR系统主要分为预处理、特征提取、分类判别等模块。其中,预处理是指将原始的图像转换成识别器所能接受的二进制形式,它的主要目的是滤除输入图像中的噪声,压缩图像的冗余信息,为下一步的识别工作奠定基础 [2]。预处理的结果会显著影响整个系统的性能。也就是说,预处理得到的图像质量越好,后续的特征提取和分类判别的效率越高,准确率也越高。
图像预处理技术一般包括二值化、降噪、细化等 [3]。作为图像预处理的一个重要环节,图像降噪指的是根据图像信号和噪声信号的不同特性,用相应的滤波技术把两者分离,使得分离后的图像和原始的无噪图像之间的差异尽可能的小。根据含噪图像的处理域,图像降噪分为空间域降噪和变换域降噪 [4]。前者是直接在图像上进行相关的数据处理,后者是先将图像信号进行域变换,再对变换域的系数进行处理,最后把处理后的系数做逆变换到原始域,从而得到降噪后的图像。常用的空间域降噪方法包括均值滤波、中值滤波和Wiener滤波。其中,均值滤波是一种简单的线性平滑方法,适合处理高斯噪声,但是图像经过均值滤波后会变得模糊;中值滤波是一种非线性滤波方法,可以在一定程度上克服线性滤波器造成的图像模糊,适合处理脉冲噪声,但是对纹理细节较多的图像降噪效果不理想;Wiener滤波是一种以最小均方为最优准则的线性滤波,适用于广义稳态信号,计算量较大,并且需要已知输入信号的统计特性,这些都极大地限制了它的应用。常用的变换域降噪方法包括Fourier变换、短时Fourier变换和小波变换。其中,Fourier变换将信号从时域转换到频域,利用低通滤波将集中在高频的噪声去除,提高了分离效率,但是当图像信号和噪声信号的频带相互重叠时,该方法很容易去掉高频区域的部分图像信号,使图像边缘变得平滑,失去了一些细节信息,此外,该方法处理非稳态信号的效果不甚理想;短时Fourier变换利用连续的窗函数将时域信号分成若干等长时间段,每个时间段内近似看成稳态过程,分别做Fourier变换,从而获得了特定时刻的频谱信息,克服了传统Fourier变换不具有局部分析能力的局限,但是固定的窗函数无法同时满足较高的时间分辨率和较高的频率分辨率的要求,不适合处理非稳态信号。
作为信号处理领域的重要方法,小波变换具有良好的时频局部化特性,具体表现在:1) 选基灵活性:针对不同的应用场合、研究对象和指标要求,可以灵活选择不同的小波母函数,以获得最佳的处理效果;2) 低熵性:小波系数的稀疏分布会降低信号变换后的熵;3) 去相关性:小波变换可以对信号去相关,并且噪声在变换后有白化趋势;4) 分辨率多样性:可以在不同尺度上表示信号,较好地刻画信号的非平稳特性,如边缘、尖峰、断电等,从而便于特征提取和保护。这些特性能够有效地弥补传统降噪方法的不足,因而引起了人们的关注,使得小波降噪成为近些年的研究热点 [5] [6]。
小波降噪的过程可以概括为:首先对含噪图像进行多尺度小波变换,接着在不同尺度下尽可能地提取图像信号的小波系数,去除噪声信号的小波系数,最后通过小波逆变换重构信号,达到降噪目的。其中,最关键的就是选择何种准则来筛选小波系数。
根据筛选标准的不同,小波降噪方法主要包括利用小波变换模极大值降噪、基于各尺度下小波系数相关性降噪、平移不变量小波降噪、基于投影原理的匹配追踪降噪、多小波降噪,以及小波阈值降噪等。其中,小波阈值降噪法由于原理简单、操作方便、计算量小、降噪效果好以及能够较好地保留和反映原始信号特征的尖峰点等优点,在实际工作中得到了广泛应用 [7] [8]。
根据选取的阈值个数不同,将小波阈值降噪方法区分为单阈值法和双阈值法。具体来说,单阈值法是指当小波系数的绝对值小于某个阈值时置零,而大于该阈值时进行相应的函数收缩处理,例如硬阈值函数 [9] 和软阈值函数 [10]。而双阈值法是指在小波域中设定上下两个阈值,当小波系数绝对值大于上阈值时进行一种函数收缩处理,处于上下阈值之间进行另一种函数收缩处理,而在小于下阈值的区间将小波系数置零,例如半软阈值函数 [11]。
虽然传统的阈值函数在图像降噪过程中发挥了一定的作用,但是它们依然存在一些固有的缺陷。其中硬阈值函数在阈值处是不连续的,从而造成了重构信号的自激振荡,影响了重构信号的光滑性。此外当小波系数绝对值大于阈值时,硬阈值函数只是单纯地保留原始小波系数,混杂在内的部分噪声分量没有得到有效剔除,容易产生较大的方差 [12]。而软阈值函数不存在间断点,得到的重构信号较为光滑,但是由于它对绝对值大于阈值的小波系数采取恒定压缩的方式,这就偏离了噪声分量随小波系数的递增而逐渐减小的趋势,滤掉了一些有用的高频分量,使得重构信号与原始信号存在一定的偏差 [13]。
针对硬阈值函数和软阈值函数的不足,本文提出一种改进的半软阈值函数,采用涡流搜索算法(Vortex search, VS) [14] 结合广义交叉验证准则(Generalized cross-validation, GCV) [15] 自适应地确定分层阈值,使降噪后的图像更接近原始图像。本文首先简要介绍了图像的噪声模型,接着描述了基于改进小波阈值函数的降噪方法,通过数值模拟验证了该方法应用于HNR图像预处理中的可行性和有效性,最后对本文工作进行了总结。
2. 图像的噪声模型
噪声信号通常与要研究的对象不相关,在图像上表现为一些引起较强视觉效果的孤立像素点或像素块,扰乱了图像的可观测信息。图像噪声主要来源于图像的获取过程和图像信号的传输过程。具体来说,一方面,目前常用的图像传感器在采集图像过程中,受传感器材料属性、工作环境、电子元器件和电路结构等方面的影响,会引入各种噪声,如电阻引起的热噪声、场效应管的沟道热噪声、光子噪声、暗电流噪声、光响应非均匀性噪声;另一方面,由于传输介质和记录设备等的不完善,数字图像在传输记录过程中往往会受到多种噪声的污染。
根据噪声信号与图像信号的数学关系,我们将噪声分为加性和乘性两种。前者指噪声信号的强度与图像信号的强度不相关,后者指噪声信号的强度与图像信号的强度相关。实际中的图像噪声一般都是加性噪声。由于噪声来源的多样性和自身的不确定性,图像噪声很难被准确预测或表达,只能用概率论的统计方法来近似处理。其中,高斯噪声和脉冲噪声是最具有代表性的两类噪声,大部分的图像噪声都可以看作是这两者的混合。
高斯噪声的概率密度函数定义为
(1)
其中,x表示灰度值,
是x的期望,
是x的标准差。当随机变量x服从高斯分布时,则其值有70%位于
,有90%位于
。
脉冲噪声的概率密度函数定义为
(2)
其中,当
时,灰度值
在图像上对应一个暗点,
在图像上对应一个亮点。如果
或
为零,则称脉冲噪声为单极脉冲。如果
和
均不为零,尤其是
时,脉冲噪声在图像上表现为随机分布的黑点(胡椒)和白点(盐粉),因此,这种双极脉冲噪声也被称为椒盐噪声。
3. 基于改进小波阈值函数的降噪方法
基于上述分析,本文主要研究高斯噪声和脉冲噪声混合后的加性噪声。相应的,一维离散加性噪声信号模型可以表示为:
(3)
其中
为含噪信号,
为原始信号,
为混合噪声信号,
,N是信号的长度。
对
作离散小波变换,得到
(4)
其中
、
和
分别为
、
和
在第m层上的小波系数,
,M是小波变换的最大分解层数。
小波阈值降噪的一般处理步骤如图1所示,其中最关键的就是小波系数调整准则的确定和阈值的选取。常用的阈值函数包括硬阈值函数、软阈值函数和半软阈值函数。其中,硬阈值函数存在间断点导致的自激振荡,软阈值函数存在恒定偏差造成的模糊失真,传统的半软阈值函数对于很多信号的降噪效果要优于硬阈值函数或软阈值函数。
一般来说,阈值函数在阈值附近要有比较好的平滑过渡带,即在噪声和信号的分界点之间要有较好的平滑过渡带,这样得到的信号会更接近自然信号。传统的半软阈值函数在这方面表现不甚理想,因此本文提出一种改进的半软阈值函数,将
写作
,表达式如下

Figure 1. Procedures of wavelet threshold denoising
图1. 小波阈值降噪步骤
(5)
其中,
和
是第m层上的阈值。如图2所示,与传统半软阈值函数相比,改进函数在
和
位置附近过渡更加平滑。

Figure 2. Comparison of semisoft threshold functions
图2. 半软阈值函数对比示意图
阈值主要分为全局阈值和分层阈值。相比于全局阈值,分层阈值明显更加灵活可控,适应能力更强,因此实际工作中的降噪效果往往更好。在本文中,为了进一步提升分层阈值的适应能力,在不需要任何先验知识的条件下,利用VS算法尽可能地确定最优的分层双阈值
和
。最优阈值的判定准则采用GCV,即第m层的目标函数定义为
(6)
通过求解GCV的最小值来确定最优
和
。
4. 数值模拟
本文在配置Intel Core i5-7400 CPU 3.4 GHz和8 GB内存的计算机上,基于MATLAB 2018b软件平台运行,以分割好、规格化的二值数字图像为输入进行识别。训练样本采用700张64 × 64的二值图像,数字从0到9,每个数字各70张。测试样本采用300张64 × 64的二值图像,数字从0到9,每个数字各30张。使用反向传播(Back propagation, BP)神经网络进行分类,BP神经网络的设置参考文献 [16]。
为了进一步检验本文所提出降噪方法的性能,利用信号强度分别为0.1~0.4的混合噪声作为研究对象,将基于传统阈值函数(硬阈值函数、软阈值函数或半软阈值函数)的小波阈值降噪方法,与基于改进阈值函数的小波阈值降噪方法进行比较。针对小波基和小波分解层数的确定,一方面,小波基的选取要考虑其正交性、紧支性、对称性等特性;另一方面,一般小波分解层数越多,越有利于信噪分离,但是失真导致的重构误差也越大。因此,通过大量仿真验证,发现选用db5小波基,并将小波分解层数设为4,对于不同的小波阈值函数均能取得较好的降噪效果。
以数字6的图像为例,图3比较了不同阈值函数降噪处理后的结果。图3(a)是原始图像,加入了强度为0.2的混合噪声后如图3(b)所示。图3(c)~图3(f)分别为硬阈值函数、软阈值函数、传统半软阈值函数和改进半软阈值函数降噪后的图像。从定性的角度来看,相对于前三种方法得到的结果,利用改进后的半软阈值降噪后的图像模糊度较低,数字轮廓较为清晰,与原始图像近似程度最高。
为了定量描述降噪效果,定义信噪比(Signal to noise ratio, SNR)为
(7)
其中
表示
降噪后的信号。
将图3中的结果导入式(7),计算得到硬阈值降噪(9.12 dB)、软阈值降噪(9.78 dB)和半软阈值降噪(10.61 dB)的SNR均小于改进阈值降噪(12.14 dB),从定量的角度进一步验证了定性观察的结果。
分别给图像添加强度为0.05~0.4的混合噪声,利用不同的小波阈值函数降噪后进行识别,测试的正确率如图4所示。可以看出,针对不同强度的混合噪声,利用改进小波阈值函数降噪后的结果要优于其他方法得到的结果,相应的识别正确率也是最高的,表明本文提出的方法在HNR图像预处理中可以发挥良好的降噪效果。

Figure 4. Comparison of recognition accuracy for different wavelet threshold functions
图4. 不同小波阈值函数的识别正确率比较
5. 结论
图像预处理是HNR的基础,图像降噪是其中的一个重要环节。小波阈值降噪具有良好的时频局部化特性,能够有效地弥补传统降噪方法的不足,因而得到了越来越广泛的应用。针对硬阈值函数、软阈值函数和半软阈值函数的不足,本文通过对小波阈值降噪的关键参数——阈值函数设置和阈值选取——的深入认识,设计出一种新型半软阈值函数,利用VS算法和GCV准则实现了分层阈值的自适应确定。仿真结果表明:相比传统的小波阈值降噪方法,本文提出的方法具有更好的降噪效果,显著提高了HNR的识别正确率。
基金项目
本文受到气动噪声控制重点实验室2018年度开放课题(1801ANCL20180303)的资助。