本发明涉及汉字智能信息处理与小波分析技术交叉应用研究领域,具体涉及汉字的联机拉丁式草写输入与智能识别方法及系统。
背景技术:
随着我国综合国力的不断增强、国际地位的持续提升和改革开放政策的继续深入,中国的发展理念和文化价值越来越受到国际社会的关注。特别是我国加入wto后,中外人员往来日趋活跃,非汉语人群进行汉字信息处理与交流的需求和机会与日俱增。《人民日报海外版》2011年11月28日第04版报道:“11月8日,瑞士第一家孔子学院在日内瓦莱芒湖畔成立。近年来,随着中国经济的发展,汉语释放出前所未有的魅力,‘汉语热’热遍全球。截至2010年底,全球学习汉语的外国人已达到1亿人”。从其发展趋势看,汉语走向世界是必然的。而在当今信息化和数字化时代,汉语要走向世界,除了政府重视和办学国外等措施外,还必须有一套让非汉语人群便捷使用的汉字输入技术。可是,到目前为止,尽管问世和投入使用的汉字输入技术个数不少,分属音码输入技术和形码输入技术两大类,但它们都是针对以汉语为母语的群体而设计的,尚未有针对非汉语人群的涉外汉字输入技术。近几年来,尽管许多学者在手写文字识别领域付出了艰辛的努力并获得了像汉王等功能较强的手写输入产品且在广泛推广应用。但这些产品的使用前提是使用者必须会写汉字,众所周知,汉字结构复杂,笔划纵横交错,对非汉语人群来说无疑就像“天书”一样,完全是一种陌生、异己、繁杂的东西,他们即使学会书写,也只能照正楷书写,速度很慢,非汉语人群使用这些产品进行汉字输入、处理与交流十分困难,无法满足他们便捷输入的愿望,他们往往因此望而却步,无济于事。而非汉语人群更难学会按草体手写那些完全不符合他们拉丁文书写习惯因而一直让他们望而生畏的“龙飞凤舞”草体汉字。在现有的汉字输入方法中,要非汉语人群在手写终端快速手写汉字进行汉字信息输入与处理乃“天方夜谭”。到目前为止,非汉语人群基于手写终端平台进行汉字信息快速输入、处理与交流的瓶颈一直未曾突破。特别是随着智能手机、掌上电脑等仅有小键盘的便携式个人数字助理(pda)设备的普及,直接通过小键盘完成输入十分不便,外国人学用汉字,若没有一种能在智能终端上便捷输入汉字的技术,则无法让五千多年灿烂辉煌的汉字走向世界,因此,它是汉字走向世界的最大瓶颈。研究和实现一种能突破此瓶颈从而真正让非汉语人群便捷输入、处理与交流汉字信息的输入法,对于继承与发展汉字、实现政府的汉语推广愿景显得十分重要和必要。
当代草圣于右任先生研究汉字草书的初衷给予我们诸多启示:他在七十多年前就感到汉字太难认和难写,为了“求制作之便利,尽文化之功能,节省全体国民之时间,发扬全族传统之利器”,乃取百家草书之长创立《标准草书》,其目的是“能以接受我国数千年的文化而使之发扬光大,并为子子孙孙每人每日优裕(节省)很多时间,以增加其事业之成效”。于老先生关于各类字体曾有一妙喻:“楷书如步行,行书如乘轮船,草书如乘飞机”,当今计算机时代,要使汉字输入技术走向世界,让更多学用汉字的非汉语人群便捷输入汉字,很有必要挖掘标准草书的草体汉字信息,充分利用标草快速可识的飞机性能,融合西方拉丁式书写习惯方式,实现一种仿拉丁手写法的汉字信息便捷输入与智能认知系统,进而真正扫清非汉语人群进行汉字信息便捷输入、处理与交流的障碍,提供更自然、人性化的人机交互方式的联机手写输入系统是十分必要的,是解决全球非汉语人群学用汉字的涉外汉字输入世界性难题的一条重要途径。本发明提出符合非汉语人群书写习惯方式的汉字联机拉丁式草写输入与智能识别方法及系统,让熟悉拉丁语系语言文字的非汉语人群输入汉字就像书写拉丁文字那般快捷便利,突破非汉语人群基于手写终端进行汉字信息便捷输入、处理与交流的瓶颈,为非汉语人群开展汉字信息便捷输入、处理与交流真正打开通道,为汉字在国际交流中得到广泛推广发挥应有的作用。
技术实现要素:
本发明的目的是为解决上述不足,提供汉字的联机拉丁式草写输入与智能识别方法及系统。
本发明的目的是通过以下技术方案实现的:
汉字的联机拉丁式草写输入与智能识别方法及系统,具体步骤如下:步骤1:深度挖掘草体汉字信息,研制拉丁式草写曲体字库:以“字本位”核心理论为指导,根据当代草圣于右任先生的《标准草书》、张权的《标准草书要领》、孙庆昌的《草书新解》和周用全的《周用全行草字汇》等宝贵文献,基于数据挖掘技术透视中国草书的文化基因,认真开展草体汉字信息的深度挖掘,破译我国历代草书符号的基因密码,理顺汉字草书笔划的连接关系,理清汉字草化规律,以汉语系的“新眼光,新思路,新方法”来研究创新一套既实用于汉语人群又实用于非汉语人群、具有汉语特色的本体语言学的行之有效的拉丁式反草手写规则与方案,并研制形成汉字的拉丁式反草手写曲体字字库;汉字有独体字与合体字之分,独体字的拉丁式反草手写规则制订相对简单,只须根据标准草书直接深度挖掘即可;合体字有上下结构与左右结构之分,为了使它们被拉丁式草写后符合非汉语人群的拉丁文书写习惯,除了挖掘相应标准草体汉字信息之外,还须进行结构变换技术处理;
步骤2:拉丁式草写曲体文字便捷输入与智能认知算法:
(1)特征选取:特征提取是实现由一组特征所表示的字符的识别关键,特征提取的目标是获得二维图像到与图像信息密切相关的一维特征矢量xt(x1,...,xm)的映射,特征提取的目的是通过增加类间分离从而减少类内方差,特征提取包括两步:从归一化的特征坐标中提取相关特征的第一序列,计算这些特征的小波变换(wt)得出压缩形式的特征矢量,第一步共提取6个时域特征,前两个为x、y坐标本身,然后提取角度特征、方向和曲率,之所以提取角度特征,是因为它在平移和缩放时不会改变,这些时域特征的小波变换需分开进行,只有逼近系数才用来得出特征矢量;
前两个特征是x和y坐标上的归一化值,在点x(t),y(t)上的局部书写方向用角α(t)的正弦和余弦表示,角α(t)是由连接前向节点和后向节点水平线形成的;
点x(t),y(t)的曲率或角度差用角θ(t)的正弦和余弦来描述,前向矢量沿着这个角逆时针旋转可与后向矢量重合,这是测量前向矢量和后向矢量之间角度差的方法,θ(t)可根据如下公式(1)、(2)与(3)计算:
δy(t)=y(t 1)-y(t-1)(3)
可得:
小波变换根据逼近系数与细节系数表示信号,将原图像分解成4逼近子带和在水平、垂直和对角线方向的3细节子带,该过程不断迭代到预定层以获得该图像的多分辨率表示,其层数取决于应用到该图像的小波滤波器孔径反相大小,当小波变换需要从第一层到第二层两次采样时,应用小波变换的最大层值依赖于数据集中的数据点数,对于s×s像素的图像,其层次m与s的关系可表示为2m=s/2;
采用多分辨率的方法来进行特征生成,通过在局部、全局和中介三个阶段计算特征来生成特征实现动态字符识别,首先在粗分辨率中提取出特征,在接下来每次迭代中必须要考虑到子图像的高分辨率,直到所有的分类必须达到验收标准,使用3次小波滤波器,字符图像经过3尺度sym4小波分解后分解成为10个子带图像
(2)wnn:wnn(waveletneuralnetwork(小波神经网络)为一种多层前馈网络,它以小波理论为基础,将离散小波函数作为节点的激活函数,wnn分类过程分为三步:第一步是网络初始化,第二步是利用梯度下降算法训练加权系数,最后一步是根据训练有素的加权系数实现特征分类,从图像应用的角度来看,小波网络可进一步分为一系列的阶段,wnn共有3层结构,分别为输入层上的nin个节点,隐藏层的nh个节点和输出层的nout个节点,选择mexicanhat小波作为基,它定义为表达式(7)
第k个输入神经元定义为式(8):
其中xj(j=1,2,…,nin,)是输入变量,wj,k表示第i次输入与第k个隐藏节点连结线的权值,为了把握小波的级与位置,多尺度小波函数用作隐藏节点的转换函数,首隐藏节点的膨胀参数a设置为1,即ψ1,b1(x)=ψ(x-b1),第二隐藏节点的膨胀参数a设置2,即
第k个神经元的输出定义为式(10):
wnn的输出定义为式(11):
其中
其中i=1,…,i是训练模式的数量,k=1,…,k是目标的数量,dik和oik分别表示nodeik期望的输出值和激活网输出值。
本发明具有如下有益的效果:
本发明通过特征点提取方法使文字进行特征提取时简单、方便,通过此方法对草写文进行识别时,识别率比较高,用时短,使草写文的文字识别达到很好的效果。
附图说明
图1为本发明的部分汉字的拼音、楷书、草书、拉丁式草写和英文简译示意图;
图2为本发明的部分不同汉字对应的相似拉丁式草写曲体文字图;
图3为本发明的“知”的“篆刻式”印章对称模式图;
图4为本发明的手写方向与曲率分析图;
图5为本发明的拉丁式草写“知”的.小波分解图;
图6为本发明的sym4小波三级分解后的10子带示意图;
图7为本发明的小波网络结构图;
图8为本发明的汉字“知”的联机拉丁式草写输入与智能认知实现结果图。
具体实施方式
下面结合附图对本发明作进一步的说明:
如图1所示,汉字的联机拉丁式草写输入与智能识别方法及系统,具体步骤如下:步骤1:深度挖掘草体汉字信息,研制拉丁式草写曲体字库:以“字本位”核心理论为指导,根据当代草圣于右任先生的《标准草书》、张权的《标准草书要领》、孙庆昌的《草书新解》和周用全的《周用全行草字汇》等宝贵文献,基于数据挖掘技术透视中国草书的文化基因,认真开展草体汉字信息的深度挖掘,破译我国历代草书符号的基因密码,理顺汉字草书笔划的连接关系,理清汉字草化规律,以汉语系的“新眼光,新思路,新方法”来研究创新一套既实用于汉语人群又实用于非汉语人群、具有汉语特色的本体语言学的行之有效的拉丁式反草手写规则与方案,并研制形成汉字的拉丁式反草手写曲体字字库。
之所以采用拉丁式草写曲体文字,是因为对照和对比图2中汉字的“拉丁式草写”、“草书”和“楷书”可知,采用“拉丁式草写”书写方式,中文“拉丁式草写”符号与拉丁式符号的走笔和运行的法则一致,几乎同缘,如出一辙,完全符合非汉语人群的书写习惯。草书和“拉丁式草写”仍保留了汉字的“音、形、义”三个中国元素,是“古为今用,中为洋用”、中西合璧、合而不同之典范。
经深入研究,以章草、今草、行书、楷书并用手写体文字的简化字为主体,形成互为对应、对称又相辅相成的“篆刻式”印章对称模式。图3为“知”字的“篆刻式”印章对称模式。
汉字有独体字与合体字之分,独体字的拉丁式反草手写规则制订相对简单,只须根据标准草书直接深度挖掘即可;合体字有上下结构与左右结构之分,为了使它们被拉丁式草写后符合非汉语人群的拉丁文书写习惯,除了挖掘相应标准草体汉字信息之外,还须进行结构变换技术处理。
步骤2:拉丁式草写曲体文字便捷输入与智能认知算法:
(1)特征提取
特征提取是实现由一组特征所表示的字符的识别关键,特征提取的目标是获得二维图像到与图像信息密切相关的一维特征矢量xt(x1,...,xm)的映射。特征提取的目的是通过增加类间分离从而减少类内方差。这要求从相同类的样本中提取的特征应该是近似的,而不同类的样本中提取的特征应该是不同的。
特征提取包括两步。从归一化的特征坐标中提取相关特征的第一序列。计算这些特征的小波变换(wt)得出压缩形式的特征矢量。第一步共提取6个时域特征。前两个为x、y坐标本身。然后提取角度特征、方向和曲率。之所以提取角度特征,是因为它在平移和缩放时不会改变。这些时域特征的小波变换需分开进行,只有逼近系数才用来得出特征矢量。
前两个特征是x和y坐标上的归一化值。在点x(t),y(t)上的局部书写方向用角α(t)的正弦和余弦表示,角α(t)是由连接前向节点和后向节点水平线形成的。
点x(t),y(t)的曲率或角度差用角θ(t)的正弦和余弦来描述。前向矢量沿着这个角逆时针旋转可与后向矢量重合。这是测量前向矢量和后向矢量之间角度差的方法,如图4所示。θ(t)可根据如下公式(1)、(2)与(3)计算。
δy(t)=y(t 1)-y(t-1)(3)
可得:
小波变换根据逼近系数与细节系数表示信号。如图5所示,将原图像分解成4逼近子带和在水平、垂直和对角线方向的3细节子带。该过程不断迭代到预定层以获得该图像的多分辨率表示。其层数取决于应用到该图像的小波滤波器孔径反相大小。当小波变换需要从第一层到第二层两次采样时,应用小波变换的最大层值依赖于数据集中的数据点数。对于s×s像素的图像,其层次m与s的关系可表示为2m=s/2。
采用多分辨率的方法来进行特征生成,通过在局部、全局和中介三个阶段计算特征来生成特征实现动态字符识别。首先在粗分辨率中提取出特征,在接下来每次迭代中必须要考虑到子图像的高分辨率,直到所有的分类必须达到验收标准。使用3次小波滤波器。如图6所示,字符图像经过3尺度sym4小波分解后分解成为10个子带图像
小波变换的零相交提供了信号变化的位置。在不同层次上把零相交的总数作为一个特征。通过字符图像(使用最佳的基础算法)的小波包变换,提取特征,得到理想数量的多分辨率层级。使用haar小波提取多分辨率特征以考虑到两种特征矢量的方案,实现了无约束手写字符的识别。第一种仅使用一种分辨率层次的特征,第二种使用两种分辨率层次的所有特征。使用样条小波cdf3/7进行二维小波变换,并将系数的4个子带图像用作特征矢量来识别无约束手写字符。
(2)wnn:wnn(waveletneuralnetwork(小波神经网络)为一种多层前馈网络,它以小波理论为基础,将离散小波函数作为节点的激活函数。小波神经网络充分利用了小波变换的部分分辨率特性和人工神经网络的非线性映射,所以能克服bp神经网络的缺点。wnn的特点是:小波基单元和整个网络架构均基于可靠性理论,网络的权重系数线性分布和学习函数的凸特征使网络训练过程避免局部优化,wnn拥有更强的函数学习能力。wnn结合了小波分析和神经网络,因此比传统神经网络具有更高的识别度。
wnn分类过程分为三步:第一步是网络初始化,第二步是利用梯度下降算法训练加权系数,最后一步是根据训练有素的加权系数实现特征分类。从图像应用的角度来看,小波网络可进一步分为一系列的阶段,其中每个阶段的描述如图7所示,wnn共有3层结构,分别为输入层上的nin个节点,隐藏层的nh个节点和输出层的nout个节点。
在小波分析中母小波的选择很重要。小波局部化为基函数,基函数是通过母小波平移和扩张而得。这些小波形成一个基,然后在分层逐渐递增的分辨率上表示如图像等的信号。这种多分辨率分析使我们能够在不同频率带上进行图像分析。小波变换是最适合对非平稳信号进行时域和频域分析的一种技术。它使用局部基函数捕获信号的局部特征。因此,相比傅氏变换、正弦变换、余弦变换等,它能提供更好的信号逼近值。因为字符在各局部点差异较大,所以捕获局部信息的能力非常关键。小波分析提供了信息的直接访问权,而在傅里叶变换等其他的时域和频域分析方法中,这些信息可能被掩盖了。在我们的研究中,选择mexicanhat小波作为基,它定义为表达式(7)。
第k个输入神经元定义为式(8):
其中xj(j=1,2,…,nin,)是输入变量,wj,k表示第i次输入与第k个隐藏节点连结线的权值。为了把握小波的级与位置,多尺度小波函数用作隐藏节点的转换函数。首隐藏节点的膨胀参数a设置为1,即ψ1,b1(x)=ψ(x-b1).,第二隐藏节点的膨胀参数a设置2,即
第k个神经元的输出定义为式(10):
wnn的输出定义为式(11):
其中
其中i=1,…,i是训练模式的数量,k=1,…,k是目标的数量,dik和oik分别表示nodeik期望的输出值和激活网输出值。
1.汉字的联机拉丁式草写输入与智能识别方法及系统,其特征在于:具体步骤如下:步骤1:深度挖掘草体汉字信息,研制拉丁式草写曲体字库:以“字本位”核心理论为指导,根据当代草圣于右任先生的《标准草书》、张权的《标准草书要领》、孙庆昌的《草书新解》和周用全的《周用全行草字汇》等宝贵文献,基于数据挖掘技术透视中国草书的文化基因,认真开展草体汉字信息的深度挖掘,破译我国历代草书符号的基因密码,理顺汉字草书笔划的连接关系,理清汉字草化规律,以汉语系的“新眼光,新思路,新方法”来研究创新一套既实用于汉语人群又实用于非汉语人群、具有汉语特色的本体语言学的行之有效的拉丁式反草手写规则与方案,并研制形成汉字的拉丁式反草手写曲体字字库;汉字有独体字与合体字之分,独体字的拉丁式反草手写规则制订相对简单,只须根据标准草书直接深度挖掘即可;合体字有上下结构与左右结构之分,为了使它们被拉丁式草写后符合非汉语人群的拉丁文书写习惯,除了挖掘相应标准草体汉字信息之外,还须进行结构变换技术处理;
步骤2:拉丁式草写曲体文字便捷输入与智能认知算法:
(1)特征选取:特征提取是实现由一组特征所表示的字符的识别关键,特征提取的目标是获得二维图像到与图像信息密切相关的一维特征矢量xt(x1,...,xm)的映射,特征提取的目的是通过增加类间分离从而减少类内方差,特征提取包括两步:从归一化的特征坐标中提取相关特征的第一序列,计算这些特征的小波变换(wt)得出压缩形式的特征矢量,第一步共提取6个时域特征,前两个为x、y坐标本身,然后提取角度特征、方向和曲率,之所以提取角度特征,是因为它在平移和缩放时不会改变,这些时域特征的小波变换需分开进行,只有逼近系数才用来得出特征矢量;
前两个特征是x和y坐标上的归一化值,在点x(t),y(t)上的局部书写方向用角α(t)的正弦和余弦表示,角α(t)是由连接前向节点和后向节点水平线形成的;
点x(t),y(t)的曲率或角度差用角θ(t)的正弦和余弦来描述,前向矢量沿着这个角逆时针旋转可与后向矢量重合,这是测量前向矢量和后向矢量之间角度差的方法,θ(t)可根据如下公式(1)、(2)与(3)计算:
δy(t)=y(t 1)-y(t-1)(3)
可得:
小波变换根据逼近系数与细节系数表示信号,将原图像分解成4逼近子带和在水平、垂直和对角线方向的3细节子带,该过程不断迭代到预定层以获得该图像的多分辨率表示,其层数取决于应用到该图像的小波滤波器孔径反相大小,当小波变换需要从第一层到第二层两次采样时,应用小波变换的最大层值依赖于数据集中的数据点数,对于s×s像素的图像,其层次m与s的关系可表示为2m=s/2;
采用多分辨率的方法来进行特征生成,通过在局部、全局和中介三个阶段计算特征来生成特征实现动态字符识别,首先在粗分辨率中提取出特征,在接下来每次迭代中必须要考虑到子图像的高分辨率,直到所有的分类必须达到验收标准,使用3次小波滤波器,字符图像经过3尺度sym4小波分解后分解成为10个子带图像
(2)wnn:wnn(waveletneuralnetwork(小波神经网络)为一种多层前馈网络,它以小波理论为基础,将离散小波函数作为节点的激活函数,wnn分类过程分为三步:第一步是网络初始化,第二步是利用梯度下降算法训练加权系数,最后一步是根据训练有素的加权系数实现特征分类,从图像应用的角度来看,小波网络可进一步分为一系列的阶段,wnn共有3层结构,分别为输入层上的nin个节点,隐藏层的nh个节点和输出层的nout个节点,选择mexicanhat小波作为基,它定义为表达式(7)
第k个输入神经元定义为式(8):
其中xj(j=1,2,…,nin,)是输入变量,wj,k表示第i次输入与第k个隐藏节点连结线的权值,为了把握小波的级与位置,多尺度小波函数用作隐藏节点的转换函数,首隐藏节点的膨胀参数a设置为1,即ψ1,b1(x)=ψ(x-b1),第二隐藏节点的膨胀参数a设置2,即
第k个神经元的输出定义为式(10):
wnn的输出定义为式(11):
其中
其中i=1,…,i是训练模式的数量,k=1,…,k是目标的数量,dik和oik分别表示nodeik期望的输出值和激活网输出值。
技术总结