[发明专利]获取多音字拼音、基于拼音检索的方法及其相应装置有效
申请号: | 201210102573.6 | 申请日: | 2012-04-09 |
公开(公告)号: | CN103365925A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 吴跃进 | 申请(专利权)人: | 高德软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 100080 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 多音字 拼音 基于 检索 方法 及其 相应 装置 | ||
技术领域
本申请涉及信息检索技术领域,特别涉及一种获取多音字拼音的方法及装置、基于文字拼音的检索方法及装置。
背景技术
随着信息技术的发展,涌现出越来越多的基于文字拼音的信息检索系统。这些信息检索系统通过直接接收文字拼音或将接收的文字按照默认方式转换为相应拼音后,以拼音为索引查找预置拼音数据库,获得与该拼音对应的一个或多个关键词,然后根据关键词进行海量信息检索获得检索结果。比如,百度搜索引擎可基于输入的汉语拼音给出提示词条,用户选择相应词条后,即以相应词条进行搜索获得相应信息;车载导航仪在接收汉字拼音首字母后可快速检索出海量地理信息。这些检索系统完成检索依赖于拼音数据库。拼音数据库以拼音为索引组织数据,一个拼音可标识具有该相同拼音的多个词组、短语或者句子。以中文拼音数据库为例,一种基于文字拼音的数据组织过程是:将汉字对应的汉语拼音建立一一对应的哈希表,汉字有多个读音时选择一个常规音作为默认音,将具有相同拼音的汉字或词组放置于相同区域构建成数据库,以便在接收到拼音时从该数据库中查找汉字检索词。与该方式类似的还有根据汉字在GBK(汉字国际扩展码)编码表内的分布情况获取拼音(参见图1(a)、图1(b)),或者将上述两种方式结合起来用于获取拼音,进而基于文字拼音的数据组织。但是,这些获取文字拼音的方式由于对多音字采取默认音,因此,大多数情况下无法获取多音字在不同语境下的正确拼音。此外,上述获取的多音字拼音仅有默认音,减少了以相同拼音组织数据的数据库的信息容量、增加了数据库内的数据的错误率,进而导致依据拼音对应的关键词进行检索后获得的检索结果准确率降低。
发明内容
为解决上述技术问题,本申请实施例的目的在于提供一种获取多音字拼音的方法与装置,以及基于文字拼音的检索方法与装置,以获取多音字在不同语境下的正确读音以及提高基于文字拼音进行检索的检索准确率。
本申请实施例提供的获取多音字拼音的方法包括:
获取文字串;
对所述文字串进行分词处理,以获得至少一个分词;
将所述分词与预设的多音字表进行匹配,以判断分词是否包含多音字,若包含多音字,则将该分词与预设多音字词语表进行匹配,以获得多音字在该分词中的拼音,所述多音字词语表为包含多音字的词语与多音字在该词语中的拼音之间的对应关系表。
优选地,若所述包含多音字的分词中进一步包含非多音字,则所述方法还包括:
获取所述分词中每个非多音字的拼音;
将所述分词中非多音字的拼音和多音字的拼音组合为所述分词的拼音;
以所述分词的拼音或拼音的首字母为索引,将所述分词添加到拼音数据库中。
优选地,获取所述分词中每个非多音字的拼音,具体包括:
通过查找GBK编码表,获得所述分词中每个非多音字的拼音。
优选地,将分词与预设的多音字表进行匹配以判断分词是否包含多音字,具体包括:
将所述分词中的每个汉字分别与所述预设的多音字表进行匹配,若所述分词包含所述预设多音字表中的汉字,则确定所述分词包含多音字。
优选地,所述预设多音字表中包含各多音字对应的默认音,若从预设多音字词语表中未获得所述分词中的多音字的拼音,则所述方法还包括:
从所述预设多音字表中,获取所述分词中多音字对应的默认音,将所述默认音作为所述分词中的多音字的拼音。
优选地,将所述分词与预设多音字词语表进行匹配以获得该分词中的多音字的拼音,包括:
确定所述分词中的多音字在该分词中的位置;
从所述多音字词语表中确定出至少一个预选分词,所述预选分词包含所述分词中的多音字,且该多音字在所述预选分词中的位置与该多音字在所述分词中的位置相同;
将所述分词与确定出的预选分词进行匹配,若匹配成功,则从所述多音字词语表中,获取与所述分词匹配的预选分词中的多音字的拼音,将所述预选分词的多音字的拼音,确定为所述分词中的相应多音字的拼音。
本申请实施例提供的获取多音字拼音装置包括:第一获取单元、切分单元、第一匹配单元和第二匹配单元,其中:
所述第一获取单元,用于获取文字串;
所述切分单元,用于对所述文字串进行分词处理,以获得至少一个分词;
所述第一匹配单元,用于将分词与预设多音字表进行匹配,以判断分词是否包含多音字,若包含多音字,则触发第二匹配单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高德软件有限公司,未经高德软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210102573.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在文件系统中用于保存快照的方法和装置
- 下一篇:一种搜索结果排序方法和装置