[发明专利]分词、韵律短语和多字手写识别方法及装置在审

申请号：	201310141937.6	申请日：	2013-04-22
公开（公告）号：	CN103279766A	公开（公告）日：	2013-09-04
发明（设计）人：	李健;郑晓明;张连毅;武卫东	申请（专利权）人：	北京捷通华声语音技术有限公司
主分类号：	G06K9/66	分类号：	G06K9/66;G06K9/68;G06K9/34
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词韵律短语多字手写识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种分词方法，其特征在于，包括：

依据训练样本的各个特征训练第一最大熵模型，所述特征包括所述待解析句子中前后多个字符的组合；

分别统计各个特征在第一最大熵模型中对各类预测结果的区分度；

去除区分度小于预设阀值的特征，并依据剩下的特征训练第二最大熵模型；

依据所述第二最大熵模型将待解析的句子拆分为多个词。

2.根据权利要求1所述的方法，其特征在于，所述统计第一最大熵模型中各个特征对各类预测结果的区分度的步骤包括：

针对各个特征，在第一最大熵模型中提取对各类预测结果的分类权重；

按照特征对各类预测结果的分类权重，计算特征对各类预测结果的区分度。

3.根据权利要求1所述的方法，其特征在于，所述依据第二最大熵模型将待解析的句子拆分为多个词的步骤包括：

按照预置的多个特征提取待解析句子的特征值；

将待解析句子的特征值输入第二最大熵模型进行预测，预测结果为所述待解析句子中各个字符为词首、词中或词末；

按照预测结果中确定的各个字符为词首、词中或词末，将待解析的句子拆分为多个词。

4.一种韵律短语的识别方法，其特征在于，包括：

依据训练样本的各个特征训练第一最大熵模型，所述特征包括前一词的词性和/或词长，以及后一词的词性和/或词长；

分别统计各个特征在第一最大熵模型中对各类预测结果的区分度；

去除区分度小于预设阀值的特征，并依据剩下的特征训练第二最大熵模型；

依据所述第二最大熵模型将待解析的句子拆分为韵律短语。

5.根据权利要求4所述的方法，其特征在于，所述依据第二最大熵模型将待解析的句子拆分为韵律短语的步骤包括：

按照预置的多个特征提取待解析句子的特征值；

将待解析句子的特征值输入第二最大熵模型进行预测，预测结果为所述待解析句子的词与词之间是否为韵律短语边界；

按照预测结果中确定的词与词之间是否为韵律短语边界，将待解析的句子拆分为多个韵律短语。

6.一种多字手写识别方法，其特征在于，包括：

依据训练样本的各个特征训练第一最大熵模型，所述特征包括以叠字连续输入的字符笔迹的笔迹特征，或以行连续输入的字符笔迹的笔迹特征；

分别统计各个特征在第一最大熵模型中对各类预测结果的区分度；

去除区分度小于预设阀值的特征，并依据剩下的特征训练第二最大熵模型；

依据所述第二最大熵模型对连续输入的字符笔迹进行切割，得到多字切割结果；

对所述多字切割结果进行单字识别，得到单字的候选识别结果；

采用语言模型对所述候选识别结果进行打分，并按照打分确定多字识别结果。

7.根据权利要求6所述的方法，其特征在于，所述依据第二最大熵模型对连续输入的字符笔迹进行切割，得到多字切割结果的步骤包括：

按照预置的多个特征提取待解析句子的特征值；

将待解析句子的特征值输入第二最大熵模型进行预测，预测结果为所述字符笔迹中各个笔画是否为切割点；

按照预测结果中确定的各个笔画是否为切割点，对待解析的句子进行切割。

8.一种分词装置，其特征在于，包括：

第一训练模块，用于依据训练样本的各个特征训练第一最大熵模型，所述特征包括所述待解析句子中前后多个字符的组合；

统计模块，用于分别统计各个特征在第一最大熵模型中对各类预测结果的区分度；

第二训练模块，用于去除区分度小于预设阀值的特征，并依据剩下的特征训练第二最大熵模型；

分词拆分模块，用于依据所述第二最大熵模型将待解析的句子拆分为多个词。

9.一种韵律短语的识别装置，其特征在于，包括：

第一训练模块，用于依据训练样本的各个特征训练第一最大熵模型，所述特征包括前一词的词性和/或词长，以及后一词的词性和/或词长；

统计模块，用于分别统计各个特征在第一最大熵模型中对各类预测结果的区分度；

第二训练模块，用于去除区分度小于预设阀值的特征，并依据剩下的特征训练第二最大熵模型；

韵律短语拆分模块，用于依据所述第二最大熵模型将待解析的句子拆分为韵律短语。

10.一种多字手写识别装置，其特征在于，包括：

第一训练模块，用于依据训练样本的各个特征训练第一最大熵模型，所述特征包括以叠字连续输入的字符笔迹的笔迹特征，或以行连续输入的字符笔迹的笔迹特征；

统计模块，用于分别统计各个特征在第一最大熵模型中对各类预测结果的区分度；

第二训练模块，用于去除区分度小于预设阀值的特征，并依据剩下的特征训练第二最大熵模型；

字符切割模块，用于依据所述第二最大熵模型对连续输入的字符笔迹进行切割，得到多字切割结果；

单字识别模块，用于对所述多字切割结果进行单字识别，得到单字的候选识别结果；

多字识别模块，用于采用语言模型对所述候选识别结果进行打分，并按照打分确定多字识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司，未经北京捷通华声语音技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310141937.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种Al-Mg-Zn-Cu合金及其制备方法
下一篇：抑制哺乳动物的肿瘤细胞增生的化合物及其医药组合物

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]分词、韵律短语和多字手写识别方法及装置在审

专利文献下载