[发明专利]一种字符转换规则的生成方法及装置有效
申请号: | 201610895083.4 | 申请日: | 2016-10-13 |
公开(公告)号: | CN106548778B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 王翘楚 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 北京尚伦律师事务所 11477 | 代理人: | 谢丽莎 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种字符转换规则的生成方法及装置,用于解决语音识别系统无法将语音播报的病历数据准确识别为病历专用字符的问题。所述方法包括:将原始文本转换为语音数据后通过语音识别转换为转换文本;将转换文本与原始文本进行逐字比对,识别出差异字符串;在转换文本中差异字符串所处位置处提取包含所述差异字符串且长度小于预设字符串长度值且左、右信息熵中至少有一个小于预设信息熵阈值的字符串作为转换字符串;从原始文本中获取与转换字符串在转换文本中的位置对应位置处的原始字符串;建立原始字符串与转换字符串的对应关系得到一条字符转换规则。该方法能够根据现有病历资料,生成特殊字符串的转换规则供语音识别系统使用。 | ||
搜索关键词: | 一种 字符 转换规则 生成 方法 装置 | ||
【主权项】:
1.一种字符转换规则的生成方法,其特征在于,包括:将原始文本转换为语音数据,并将所述语音数据通过语音识别转换为转换文本;将转换文本与原始文本进行逐字比对,识别出差异字符串;所述差异字符串为转换文本中与原始文本不同之处的字符;对于转换文本中的每个差异字符串,在转换文本中所述差异字符串所处位置处提取包含所述差异字符串且长度小于预设字符串长度值且左、右信息熵中至少有一个小于预设信息熵阈值的字符串作为转换字符串;从所述原始文本中获取与所述转换字符串在所述转换文本中的位置对应位置处的原始字符串;建立所述原始字符串与转换字符串的对应关系,得到一条字符转换规则;其中,所述在转换文本中所述差异字符串所处位置处提取包含所述差异字符串且长度小于预设字符串长度值且左、右信息熵中至少有一个小于预设信息熵阈值的字符串作为转换字符串,包括:将所述差异字符串作为目标字符串;计算所述目标字符串的左、右信息熵;判断所述目标字符串的长度是否小于预设字符串长度值且目标字符串的左、右信息熵是否小于预设信息熵阈值;当所述目标字符串的长度小于预设字符串长度值且目标字符串的左、右信息熵中只有左/右信息熵小于预设信息熵阈值时,将转换文本中所述目标字符串及其左/右侧一个字符与所述目标字符串的左/右信息熵对应存储,并将转换文本中所述目标字符串及其左/右侧一个字符重新确定为目标字符串,随后返回执行计算所述目标字符串的左、右信息熵的步骤;当所述目标字符串的长度小于预设字符串长度值且目标字符串的左、右信息熵均小于预设信息熵阈值时,比较所述目标字符串的左信息熵和右信息熵的大小;当所述目标字符串的左/右信息熵小于右/左信息熵时,将转换文本中所述目标字符串及其左/右侧一个字符与所述目标字符串的左/右信息熵对应存储,并将转换文本中所述目标字符串及其左/右侧一个字符重新确定为目标字符串,随后返回执行计算所述目标字符串的左、右信息熵的步骤;当所述目标字符串的左、右信息熵相等时,将转换文本中所述目标字符串及其左、右侧各一个字符与所述目标字符串的左/右信息熵对应存储,并将转换文本中所述目标字符串及其左、右侧各一个字符重新确定为目标字符串,随后返回执行计算所述目标字符串的左、右信息熵的步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610895083.4/,转载请声明来源钻瓜专利网。