[发明专利]关键词列表形成装置及方法以及电子设备有效
申请号: | 201210581696.2 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103902600B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 吴宇;刘汝杰;岩见田均 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王萍,陈炜 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 列表 形成 装置 方法 以及 电子设备 | ||
1.一种用于形成关键词列表的关键词列表形成装置,所述关键词列表由用于确定多音字的发音的关键词构成,所述关键词列表形成装置包括:
初始关键词形成单元,用于针对每个多音字,计算该多音字的上下文词语对于该多音字的区分度,以将区分度高于第一预定阈值的上下文词语作为用于确定该多音字的发音的初始关键词;
关键词划分单元,用于根据初始关键词与该多音字的位置关系,将初始关键词划分为多个关键词组;以及
冗余关键词去除单元,用于针对包括至少两个初始关键词的每个关键词组,基于该关键词组中的初始关键词共同出现的次数以及每个初始关键词对于该多音字的区分度来确定并删除该关键词组中的冗余的初始关键词,从而形成所述关键词列表,
其中所述冗余关键词去除单元包括:
共生概率判断子单元,用于针对包括至少两个初始关键词的每个关键词组,计算该关键词组中初始关键词的共生概率,并判断该共生概率是否超过第二预定阈值;以及
冗余关键词去除子单元,用于在共生概率判断子单元判定该共生概率超过第二预定阈值时,将所述至少两个初始关键词中对于所述多音字的区分度较小的初始关键词删除,从而保留区分度较大的初始关键词用于形成所述关键词列表。
2.根据权利要求1所述的关键词列表形成装置,其中,所述关键词划分单元被配置为根据初始关键词相对于多音字的位置的第一位置信息,将初始关键词分为四个关键词组:左近关键词组、左远关键词组、右近关键词组、右远关键词组。
3.根据权利要求1所述的关键词列表形成装置,其中所述初始关键词形成单元被配置为根据上下文词语相对于多音字的位置的第二位置信息来计算上下文词语对于多音字的区分度。
4.一种用于形成关键词列表的方法,所述关键词列表由用于确定多音字的发音的关键词构成,所述方法包括:
初始关键词形成步骤,针对每个多音字,计算该多音字的上下文词语对于该多音字的区分度,以将区分度高于第一预定阈值的上下文词语作为用于确定该多音字的发音的初始关键词;
关键词划分步骤,根据初始关键词与该多音字的位置关系,将初始关键词划分为多个关键词组;以及
冗余关键词去除步骤,针对包括至少两个初始关键词的每个关键词组,基于该关键词组中的初始关键词共同出现的次数以及每个初始关键词对于该多音字的区分度来确定并删除该关键词组中的冗余的初始关键词,从而形成所述关键词列表,
其中所述冗余关键词去除步骤包括:
针对包括至少两个初始关键词的每个关键词组,计算该关键词组中初始关键词的共生概率,并判断该共生概率是否超过第二预定阈值;以及
在共生概率判断子单元判定该共生概率超过第二预定阈值时,将所述至少两个初始关键词中对于所述多音字的区分度较小的初始关键词删除,从而保留区分度较大的初始关键词用于形成所述关键词列表。
5.根据权利要求4所述的方法,其中,所述关键词划分步骤用于根据初始关键词相对于多音字的位置的第一位置信息,将初始关键词分为四个关键词组:左近关键词组、左远关键词组、右近关键词组、右远关键词组。
6.根据权利要求4所述的方法,其中所述初始关键词形成步骤包括根据上下文词语相对于多音字的位置的第二位置信息来计算上下文词语对于多音字的区分度。
7.一种电子设备,包括根据权利要求1-3中任一项所述的关键词列表形成装置。
8.根据权利要求7所述的电子设备,其中所述电子设备是手机、计算机、平板电脑、或个人数字助理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210581696.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:转子式多级泵
- 下一篇:一种地脚螺栓打捆装置