[发明专利]一种基于上下文的抽象样本信息检索系统有效
申请号: | 201610369833.4 | 申请日: | 2016-05-29 |
公开(公告)号: | CN106095791B | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 吴琳;韩广;袁鑫攀;李亚楠 | 申请(专利权)人: | 长源动力(北京)科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06K9/62 |
代理公司: | 北京恒泰铭睿知识产权代理有限公司 11642 | 代理人: | 付怀 |
地址: | 100095 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于上下文的抽象样本信息检索系统。该系统中抽象样本特征化表示方法利用Word2vector提取词义特征,获得抽象词的词向量;而后,对抽象词的词向量进行“最优适应度划分”的聚类,并根据聚类结果将抽象词替代表示为聚类质心;最后,根据质心及其所代表的抽象词的词频,构成词向量聚类质心频率模型(ST‑IDF),用于特征化表示抽象样本。本发明降低了聚类及适应度计算的执行次数,提高了抽象样本相似性分析的性能,提升了样本分类准确率。 | ||
搜索关键词: | 一种 基于 上下文 抽象 样本 信息 检索系统 及其 特征 表示 方法 | ||
【主权项】:
1.一种基于上下文的抽象样本信息检索系统,其特征在于:它包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST‑IDF模块和分类模块,所述抽象样本信息检索系统的抽象样本特征化表示方法包括以下步骤:步骤1、利用分词功能模块对样本进行抽象词的分词:当样本是数据链报文时,可根据数据链报文的格式与字长划分每个抽象词;当样本是文本时,可根据空格及特定分词规则划分每个抽象词;步骤2、利用词义特征提取模块提取抽象词的词语语义特征:针对由步骤1得到的抽象词,采用Word2vector方法,基于抽象词的上下文关系提取其词义特征,并以词向量形式表示;步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示:首先,采用最优聚类效果适应度下的聚类划分数量,对由步骤2得到的词向量进行K‑means算法聚类,即实现对抽象词词向量的“最优适应度划分”的聚类,其中,词向量聚类划分的质心称为S,S表示为词向量空间中的向量,S的数量k即是聚类划分个数,所有样本中抽象词的数量为N,已知的样本分类数量为C,f(k)为体现聚类效果适应度的函数,
α为k个S向量间的平均余弦距离,β为k个聚类划分内的词向量间平均余弦距离的均值,令正整数k∈[N,N×C];当f(k)=max(f(k))时,令最优聚类效果适应度下的聚类划分数量K=k,质心S的数量最终确定为K;然后,根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S,或称为用质心S代表其聚类划分内的抽象词,即将抽象词的特征认同为所属聚类划分的质心;步骤4、利用ST‑IDF模块输出抽象样本特征化表示:首先,统计每个抽象词在一个样本中出现的频率,根据步骤3给出的替代表示关系,将质心S所代表的抽象词在该样本中的出现频率计为质心S的频率;并统计词向量聚类质心的逆向文件频率;而后,参照TF‑IDF模型构成词向量聚类质心频率模型——ST‑IDF,ST‑IDF模型属于VSM形式,用于特征化表示一个抽象样本;步骤5、相似度计算,实现抽象样本的相似性分析:根据步骤4所提供的特征化表示,计算两个抽象样本间的相似度,并据此进行信息检索领域中样本分类算法的执行;步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定:根据相似度,采用NWKNN算法对抽象样本进行类别判定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长源动力(北京)科技有限公司,未经长源动力(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610369833.4/,转载请声明来源钻瓜专利网。