[发明专利]分词、韵律短语和多字手写识别方法及装置在审
申请号: | 201310141937.6 | 申请日: | 2013-04-22 |
公开(公告)号: | CN103279766A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 李健;郑晓明;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声语音技术有限公司 |
主分类号: | G06K9/66 | 分类号: | G06K9/66;G06K9/68;G06K9/34 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 韵律 短语 多字 手写 识别 方法 装置 | ||
1.一种分词方法,其特征在于,包括:
依据训练样本的各个特征训练第一最大熵模型,所述特征包括所述待解析句子中前后多个字符的组合;
分别统计各个特征在第一最大熵模型中对各类预测结果的区分度;
去除区分度小于预设阀值的特征,并依据剩下的特征训练第二最大熵模型;
依据所述第二最大熵模型将待解析的句子拆分为多个词。
2.根据权利要求1所述的方法,其特征在于,所述统计第一最大熵模型中各个特征对各类预测结果的区分度的步骤包括:
针对各个特征,在第一最大熵模型中提取对各类预测结果的分类权重;
按照特征对各类预测结果的分类权重,计算特征对各类预测结果的区分度。
3.根据权利要求1所述的方法,其特征在于,所述依据第二最大熵模型将待解析的句子拆分为多个词的步骤包括:
按照预置的多个特征提取待解析句子的特征值;
将待解析句子的特征值输入第二最大熵模型进行预测,预测结果为所述待解析句子中各个字符为词首、词中或词末;
按照预测结果中确定的各个字符为词首、词中或词末,将待解析的句子拆分为多个词。
4.一种韵律短语的识别方法,其特征在于,包括:
依据训练样本的各个特征训练第一最大熵模型,所述特征包括前一词的词性和/或词长,以及后一词的词性和/或词长;
分别统计各个特征在第一最大熵模型中对各类预测结果的区分度;
去除区分度小于预设阀值的特征,并依据剩下的特征训练第二最大熵模型;
依据所述第二最大熵模型将待解析的句子拆分为韵律短语。
5.根据权利要求4所述的方法,其特征在于,所述依据第二最大熵模型将待解析的句子拆分为韵律短语的步骤包括:
按照预置的多个特征提取待解析句子的特征值;
将待解析句子的特征值输入第二最大熵模型进行预测,预测结果为所述待解析句子的词与词之间是否为韵律短语边界;
按照预测结果中确定的词与词之间是否为韵律短语边界,将待解析的句子拆分为多个韵律短语。
6.一种多字手写识别方法,其特征在于,包括:
依据训练样本的各个特征训练第一最大熵模型,所述特征包括以叠字连续输入的字符笔迹的笔迹特征,或以行连续输入的字符笔迹的笔迹特征;
分别统计各个特征在第一最大熵模型中对各类预测结果的区分度;
去除区分度小于预设阀值的特征,并依据剩下的特征训练第二最大熵模型;
依据所述第二最大熵模型对连续输入的字符笔迹进行切割,得到多字切割结果;
对所述多字切割结果进行单字识别,得到单字的候选识别结果;
采用语言模型对所述候选识别结果进行打分,并按照打分确定多字识别结果。
7.根据权利要求6所述的方法,其特征在于,所述依据第二最大熵模型对连续输入的字符笔迹进行切割,得到多字切割结果的步骤包括:
按照预置的多个特征提取待解析句子的特征值;
将待解析句子的特征值输入第二最大熵模型进行预测,预测结果为所述字符笔迹中各个笔画是否为切割点;
按照预测结果中确定的各个笔画是否为切割点,对待解析的句子进行切割。
8.一种分词装置,其特征在于,包括:
第一训练模块,用于依据训练样本的各个特征训练第一最大熵模型,所述特征包括所述待解析句子中前后多个字符的组合;
统计模块,用于分别统计各个特征在第一最大熵模型中对各类预测结果的区分度;
第二训练模块,用于去除区分度小于预设阀值的特征,并依据剩下的特征训练第二最大熵模型;
分词拆分模块,用于依据所述第二最大熵模型将待解析的句子拆分为多个词。
9.一种韵律短语的识别装置,其特征在于,包括:
第一训练模块,用于依据训练样本的各个特征训练第一最大熵模型,所述特征包括前一词的词性和/或词长,以及后一词的词性和/或词长;
统计模块,用于分别统计各个特征在第一最大熵模型中对各类预测结果的区分度;
第二训练模块,用于去除区分度小于预设阀值的特征,并依据剩下的特征训练第二最大熵模型;
韵律短语拆分模块,用于依据所述第二最大熵模型将待解析的句子拆分为韵律短语。
10.一种多字手写识别装置,其特征在于,包括:
第一训练模块,用于依据训练样本的各个特征训练第一最大熵模型,所述特征包括以叠字连续输入的字符笔迹的笔迹特征,或以行连续输入的字符笔迹的笔迹特征;
统计模块,用于分别统计各个特征在第一最大熵模型中对各类预测结果的区分度;
第二训练模块,用于去除区分度小于预设阀值的特征,并依据剩下的特征训练第二最大熵模型;
字符切割模块,用于依据所述第二最大熵模型对连续输入的字符笔迹进行切割,得到多字切割结果;
单字识别模块,用于对所述多字切割结果进行单字识别,得到单字的候选识别结果;
多字识别模块,用于采用语言模型对所述候选识别结果进行打分,并按照打分确定多字识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司,未经北京捷通华声语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310141937.6/1.html,转载请声明来源钻瓜专利网。