[发明专利]一种音字转换方法及装置有效

专利信息
申请号: 201110223826.0 申请日: 2011-08-05
公开(公告)号: CN102929864A 公开(公告)日: 2013-02-13
发明(设计)人: 何径舟;黄鋆;吴中勤 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/28 分类号: G06F17/28;G06F17/27
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 转换 方法 装置
【权利要求书】:

1.一种音字转换方法,其特征在于,所述方法包括:

A.获取用户输入的读音代码序列;

B.对所述读音代码序列进行划分,得到各读音节点;

C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;

D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;

E.选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。

2.根据权利要求1所述的方法,其特征在于,所述转换模型是通过下列方式获得的:

a.为训练语料标注各词条及各词条的词性;

b.确定各词条在对应词性下的词类;

c.利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;

d.确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率;

e.根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。

3.根据权利要求2所述的方法,其特征在于,所述步骤b包括以下方式中的S1,或者,S1与S2的组合且S2的执行优先级高于S1:

S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;

S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。

4.根据权利要求3所述的方法,其特征在于,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。

5.根据权利要求2所述的方法,其特征在于,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。

6.根据权利要求1所述的方法,其特征在于,所述步骤C中,根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与所述读音节点结合生成所述音字节点,其中N2为正整数。

7.根据权利要求1所述的方法,其特征在于,所述步骤D包括:

从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转换词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;

将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。

8.一种音字转换装置,其特征在于,所述装置包括:

接收单元,用户获取用户输入的读音代码序列;

切分单元,用于对所述读音代码序列进行划分,得到各读音节点;

节点生成单元,用于根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;

计算单元,用于根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;

输出单元,选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110223826.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top