[发明专利]基于聚合加权矩阵压缩算法的文本语义表示方法有效

专利信息
申请号: 201410728902.7 申请日: 2014-12-03
公开(公告)号: CN105718440B 公开(公告)日: 2019-01-29
发明(设计)人: 卫金茂;韦阳;徐恒鹏;樊文哲 申请(专利权)人: 南开大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于数据挖掘技术领域,具体提出了一种基于聚合加权矩阵压缩算法的文本表示方法。该方法通过构建全局平滑语境矩阵,弱化了语用习惯对单词语义的影响;利用单词向量聚合算法加权全局平滑语境,修正了单词向量权重度量方法;最后使用无穷范数压缩算法将全局平滑语境转化为向量来表征文本。相较于已有方法,由于保留了向量各维度的最大可能取值,因此更全面地表征了文本信息。
搜索关键词: 基于 聚合 加权 矩阵 压缩 算法 文本 语义 表示 方法
【主权项】:
1.基于聚合加权矩阵压缩算法的文本语义表示方法,其特征在于,所述方法包括:全局平滑语境生成方法,全局平滑语境是由单词向量构成的矩阵,而单词向量是单词语义的量化表示,具体生成步骤如下:步骤一:以单词作为维度,以向量的形式量化单词的语义,通过统计单词与任意维度在给定语料库中的共现频率作为该单词在这一维度上的取值,假设wi,vj是从语料库中抽取的单词,wi是目标单词,vj是任意维度,则单词wi与维度vj的共现频率ti,j为单词wi在维度vj上的取值,其度量方法如下:其中n为给定语料库中文档个数,m为语料库中单词的数目,为单词wi在文档dk中出现的次数,lk为文档dk的长度;如上式所示,在统计单词频率的基础上,使用自然对数对统计结果进行平滑处理,从而弱化了语用习惯对统计结果的影响;步骤二:通过重复执行步骤一计算语料库中所有单词的单词向量,这些单词向量构成的矩阵被称之为全局平滑语境,假设语料库中共有m个单词,则单词向量的维数为m,单词向量的数目也为m,构成的全局平滑语境为m×m阶的方阵;单词向量聚合加权,内容是,同义词现象使得一些单词有相同或者相近的单词向量,将这些近似的单词向量看作一个集合,使用集合中所有单词文档频的最大值作为集合所包含所有单词的文档频,具体步骤如下:步骤一:单词向量聚合,本步骤采用层次聚类思想对单词向量进行聚合,算法初始化时令每个单词向量自为一簇,并建立映射表,记录向量与簇之间的对应关系,记每一簇的文档频为各自对应单词的文档频,算法首先计算所有向量两两之间的余弦距离,然后选取单词向量中距离最近的两个向量i<j,计算这两个向量的均值,并更新为该均值,同时,更新映射表,将单词向量的簇编号均更新为i,并更新第i簇的文档频为向量对应单词文档频的较大值,第三步需要计算所有向量与更新后的向量之间的余弦距离,并设定所有向量与之间的距离为无穷大,重复这一过程直至簇的数量达到预定值;步骤二:单词向量权重计算,步骤一提供了各个簇的文档频和簇与具体单词向量之间的对应关系映射表,在本步骤,首先针对目标文档计算每个单词在该文档中的词频,然后求取各个文档频的逆文档频,最后将单词词频与单词所在簇的逆文档频的乘积作为单词向量的权重;全局平滑语境压缩,其目标是生成文档向量,具体步骤如下:步骤一:全局平滑语境为m×m阶的方阵,针对目标文档将全局平滑语境中的单词向量与其在此目标文档中的权重进行乘法运算,得到加权单词向量,由于加权后的单词向量矩阵考虑了单词在单个文档中的局部语境,被称之为局部语境矩阵;步骤二:求局部语境矩阵每一个列向量的无穷范数,m个列向量对应的m个无穷范数构成了新的文档向量,因此新生成的文档向量是一个维数为m的向量,上述过程概括为下式:其中ωi,j为由单词向量聚合加权得到的单词vj在文档di中的权重,tj,k为单词向量在维度k上的取值,也就是说,对于文档向量它的第k维度上的取值等于所有加权后单词向量在第k维度上取值的最大值;步骤三:计算每一个文档向量的二范数,将文档向量与其对应的二范数进行除法运算以便归一化文档向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410728902.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top