[发明专利]同义词的获取方法及装置有效
申请号: | 201410156167.7 | 申请日: | 2014-04-17 |
公开(公告)号: | CN105095204B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 阮淑梨;蒋建;魏洪平;谢庆伟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 李楠 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义词 获取 方法 装置 | ||
1.一种同义词的获取方法,其特征在于,所述方法包括:
获取文本集,对所述文本集进行分词生成第一词语集;
对所述第一词语集通过停词表识别,进行无效词过滤生成第二词语集;
对所述第二词语集中的任意两个词语进行编辑距离处理,生成第一同义词对集;
对所述第一词语集中的词语构建基于上下文语境的向量空间模型;
根据所述向量空间模型,获得所述第一同义词对集中的每对同义词的空间向量,计算所述第一同义词对集中的每对同义词的余弦相似度值,并根据所述余弦相似度值将所述每对同义词进行余弦阈值过滤策略的识别,生成第二同义词对集;
对所述第二同义词对集中的词语进行词性标注,通过词性过滤策略生成第三同义词对集;
将所述第三同义词对集中的词语通过一元模型处理后,生成第四同义词对集,以获取同义词。
2.根据权利要求1中的同义词的获取方法,其特征在于,所述对所述第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集具体包括:
判断所述任意两个词语的长度比例是否小于等于2且大于等于1/2,如果是则进行下一步,如果否则计算结束;
计算所述任意两个词语的编辑距离;
判断所述任意两个词语的编辑距离是否小于等于所述两个词语的长度中的最小长度的1/2,如果是则进行下一步,如果否则计算结束;
输出所有满足判断条件的两个词语为第一同义词对集。
3.根据权利要求2中的同义词的获取方法,其特征在于,所述计算所述两个词语的编辑距离具体包括:根据如下公式计算所述两个词语的编辑距离:
其中,
a、b是所述第二词语集中的任意两个词语,a=a1…ai…an,b=b1…bj…bn,dij为a的第i个字符到b的第j个字符的编辑距离,m为a的长度,n为b的长度,ai为a的第i个字符,bj为b的第j个字符。
4.根据权利要求1中的同义词的获取方法,其特征在于,所述对所述第一词语集中的词语构建基于上下文语境的向量空间模型具体包括:根据如下公式为所述第一词语集中的词语构建向量空间模型:
其中,di为所述第一词语集中的任意词语,为di的空间向量,t为所述第一词语集中的词语总数,Wti为第i个词语与第t个词语在上下文语境中的关系。
5.根据权利要求1中的同义词的获取方法,其特征在于,所述根据所述向量空间模型,获得所述第一同义词对集中的每对同义词的空间向量,计算所述第一同义词对集中的每对同义词的余弦相似度值具体包括:
根据所述向量空间模型,获得所述第一同义词对集中的任意一对同义词A与B的空间向量为
根据如下公式计算每对同义词的余弦相似度值:
其中,A与B是所述第一同义词对集中的任意一对同义词,与是A与B的空间向量,的取值范围为[-1,1]。
6.根据权利要求1中的同义词的获取方法,其特征在于,所述将所述第三同义词对集中的词语通过一元模型处理后,生成第四同义词对集具体包括:根据如下公式计算所述第三同义词对集中的词语的一元模型值,将所述第三同义词对集根据所述一元模型值通过概率阈值过滤生成所述第四同义词对集:
其中,Wi为所述第三同义词对集中的任意词语,P(Wi)为Wi的一元模型值,表示Wi在所述文本集中出现的概率,C(Wi)表示词语Wi在所述文本集中出现的次数,t表示所述文本集中所有词语出现的总次数,将P(Wi)小于概率阈值U的词语过滤,其中U是自定义的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410156167.7/1.html,转载请声明来源钻瓜专利网。