[发明专利]关联词典构建方法和装置有效
申请号: | 201310565554.1 | 申请日: | 2013-11-13 |
公开(公告)号: | CN103605712A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 田晋坤 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联 词典 构建 方法 装置 | ||
1.一种关联词典构建方法,其特征在于,包括:
从网络词典网页上获取源术语集合和目标术语集合;
根据源术语与目标术语在所述网络词典网页上共同出现的情况构建初始直接关联矩阵;
对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵;
对扩展后的关联矩阵进行幂运算,得到不同幂次的间接关联矩阵;
对不同幂次的间接关联矩阵进行加权平均,得到表示不同术语之间的关联度的关联矩阵。
2.根据权利要求1所述的关联词典构建方法,其特征在于,根据源术语与目标术语在所述网络词典网页上共同出现的情况构建初始直接关联矩阵包括:
对源术语与目标术语共同出现网络词典网页的文本进行语义分析,确定源术语与目标术语之间的指入-指出关系;
根据所述指入-指出关系在所述初始直接关联矩阵的相应位置添加非零矩阵元素。
3.根据权利要求1所述的关联词典构建方法,其特征在于,对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵包括:
使用从网络词典网页上获取的术语对所述源术语集合和所述目标术语集合进行扩充,使得扩充后的源术语集合和目标术语集合中的术语数目相同;
根据扩充后的源术语集合和目标术语集合构建扩充后的直接关联矩阵,其中,所述扩充后的直接关联矩阵是方阵;
将所述扩充后的直接关联矩阵与所述扩充后的直接关联矩阵的转置矩阵求和,得到扩充后的关联矩阵。
4.根据权利要求3所述的关联词典构建方法,其特征在于,在使用从网络词典网页上获取的术语对所述源术语集合和所述目标术语集合进行扩充之前,对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵还包括:
使用内容分类器对所述源术语集合和所述目标术语集合中的术语进行分类,确定获取用于扩充的术语的网络词典网页的领域。
5.根据权利要求1至4任一所述的关联词典构建方法,其特征在于,在对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵之后,还包括:
如果所述扩充后的关联矩阵中一行或一列元素的和大于预定阈值,采用关联度降低算法将该行或该列元素的取值降低。
6.一种关联词典构建装置,其特征在于,包括:
术语集合获取模块,用于从网络词典网页上获取源术语集合和目标术语集合;
初始直接关联矩阵构建模块,用于根据源术语与目标术语在所述网络词典网页上共同出现的情况构建初始直接关联矩阵;
术语集合扩充模块,用于对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵;
间接关联矩阵获取模块,用于对扩展后的关联矩阵进行幂运算,得到不同幂次的间接关联矩阵;
关联矩阵计算模块,用于对不同幂次的间接关联矩阵进行加权平均,得到表示不同术语之间的关联度的关联矩阵。
7.根据权利要求6所述的关联词典构建装置,其特征在于,所述初始直接关联矩阵构建模块包括:
指入-指出关系确定子模块,用于对源术语与目标术语共同出现网络词典网页的文本进行语义分析,确定源术语与目标术语之间的指入-指出关系;
非零矩阵元素添加子模块,用于根据所述指入-指出关系在所述初始直接关联矩阵的相应位置添加非零矩阵元素。
8.根据权利要求6所述的关联词典构建装置,其特征在于,所述术语集合扩充模块包括:
术语集合扩充子模块,用于使用从网络词典网页上获取的术语对所述源术语集合和所述目标术语集合进行扩充,使得扩充后的源术语集合和目标术语集合中的术语数目相同;
直接关联矩阵构建子模块,用于根据扩充后的源术语集合和目标术语集合构建扩充后的直接关联矩阵,其中,所述扩充后的直接关联矩阵是方阵;
转置求和子模块,用于将所述扩充后的直接关联矩阵与所述扩充后的直接关联矩阵的转置矩阵求和,得到扩充后的关联矩阵。
9.根据权利要求8所述的关联词典构建装置,其特征在于,所述术语集合扩充模块还包括:
网络词典网页领域确定子模块,用于在使用从网络词典网页上获取的术语对所述源术语集合和所述目标术语集合进行扩充之前,使用内容分类器对所述源术语集合和所述目标术语集合中的术语进行分类,确定获取用于扩充的术语的网络词典网页的领域。
10.根据权利要求6至9任一所述的关联词典构建装置,其特征在于,还包括:
关联度降低模块,用于在对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵之后,如果所述扩充后的关联矩阵中一行或一列元素的和大于预定阈值,采用关联度降低算法将该行或该列元素的取值降低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310565554.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多重保护的紧急切断阀
- 下一篇:一种带轮