[发明专利]一种音字转换方法及装置有效
申请号: | 201110223826.0 | 申请日: | 2011-08-05 |
公开(公告)号: | CN102929864A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 何径舟;黄鋆;吴中勤 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 转换 方法 装置 | ||
【技术领域】
本发明涉及自然语言处理技术领域,特别涉及一种音字转换方法及装置。
【背景技术】
音字转换方法,是输入法的一种,指的是将用户通过输入设备输入的表示文字读音的代码序列,转换为实际需要的文字序列的方法。在音字转换过程中,需要通过转换模型计算与读音代码序列对应的文字序列的合理性,在现有技术中,该合理性的计算依据之一为转换模型中词与词在大规模语料中的共现概率。
例如输入的读音代码序列为“mianduixianshi”,可以转换为“面对现实”或“面对闲事”等等文字序列,在判断这些文字序列的合理性时,由于在大规模语料中统计得到“面对”与“现实”的共现概率远高于“面对”与“闲事”的共现概率,因此“面对现实”这个文字序列就比“面对闲事”这个文字序列合理。
在这种转换方法中,假设转换模型的词典中包含的词条数为N,仅以考虑词与词的二元共现为例,相应的共现概率信息的规模就达到了N2,如果词条的数目很大,就会造成输入法规模的急剧膨胀,所以,在这种方法下,为了使输入法的规模达到一个合理的程度,就必须对词典进行裁剪,而这必然导致一些信息量丢失,使得在转换过程中,不得不使用插值估计的方式来获取相应的文字序列,从而降低了输入法的转换精度。
此外,这种方式下为词典添加新的词条也比较困难,因为当添加新词时,该新词与其他词之间的共现概率信息比较难获得,如果失去了这一共现概率信息,就会导致转换的效果变差,而即使采用估计算法获取这一共现概率信息,也很难达到真实的精度。由于现有技术的音字转换方法存在添加新词困难的缺陷,从而影响了输入法的扩展性。
【发明内容】
本发明所要解决的技术问题是提供一种音字转换的方法和装置,以解决现有的音字转换方法中存在的输入法转换精度降低和扩展性较差的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种音字转换方法,包括:A.获取用户输入的读音代码序列;B.对所述读音代码序列进行划分,得到各读音节点;C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;E.选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
根据本发明之一优选实施例,所述转换模型是通过下列方式获得的:a.为训练语料标注各词条及各词条的词性;b.确定各词条在对应词性下的词类;c.利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;d.确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率;e.根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
根据本发明之一优选实施例,所述步骤b包括以下方式中的S1,或者,S1与S2的组合且S2的执行优先级高于S1:S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
根据本发明之一优选实施例,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。
根据本发明之一优选实施例,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
根据本发明之一优选实施例,所述步骤C中,根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110223826.0/2.html,转载请声明来源钻瓜专利网。