[发明专利]基于聚合加权矩阵压缩算法的文本语义表示方法有效
申请号: | 201410728902.7 | 申请日: | 2014-12-03 |
公开(公告)号: | CN105718440B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 卫金茂;韦阳;徐恒鹏;樊文哲 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据挖掘技术领域,具体提出了一种基于聚合加权矩阵压缩算法的文本表示方法。该方法通过构建全局平滑语境矩阵,弱化了语用习惯对单词语义的影响;利用单词向量聚合算法加权全局平滑语境,修正了单词向量权重度量方法;最后使用无穷范数压缩算法将全局平滑语境转化为向量来表征文本。相较于已有方法,由于保留了向量各维度的最大可能取值,因此更全面地表征了文本信息。 | ||
搜索关键词: | 基于 聚合 加权 矩阵 压缩 算法 文本 语义 表示 方法 | ||
【主权项】:
1.基于聚合加权矩阵压缩算法的文本语义表示方法,其特征在于,所述方法包括:全局平滑语境生成方法,全局平滑语境是由单词向量构成的矩阵,而单词向量是单词语义的量化表示,具体生成步骤如下:步骤一:以单词作为维度,以向量的形式量化单词的语义,通过统计单词与任意维度在给定语料库中的共现频率作为该单词在这一维度上的取值,假设wi,vj是从语料库中抽取的单词,wi是目标单词,vj是任意维度,则单词wi与维度vj的共现频率ti,j为单词wi在维度vj上的取值,其度量方法如下:
其中n为给定语料库中文档个数,m为语料库中单词的数目,
为单词wi在文档dk中出现的次数,lk为文档dk的长度;如上式所示,在统计单词频率的基础上,使用自然对数对统计结果进行平滑处理,从而弱化了语用习惯对统计结果的影响;步骤二:通过重复执行步骤一计算语料库中所有单词的单词向量,这些单词向量构成的矩阵被称之为全局平滑语境,假设语料库中共有m个单词,则单词向量的维数为m,单词向量的数目也为m,构成的全局平滑语境为m×m阶的方阵;单词向量聚合加权,内容是,同义词现象使得一些单词有相同或者相近的单词向量,将这些近似的单词向量看作一个集合,使用集合中所有单词文档频的最大值作为集合所包含所有单词的文档频,具体步骤如下:步骤一:单词向量聚合,本步骤采用层次聚类思想对单词向量进行聚合,算法初始化时令每个单词向量自为一簇,并建立映射表,记录向量与簇之间的对应关系,记每一簇的文档频为各自对应单词的文档频,算法首先计算所有向量两两之间的余弦距离,然后选取单词向量中距离最近的两个向量
与
i<j,计算这两个向量的均值,并更新
为该均值,同时,更新映射表,将单词向量
与
的簇编号均更新为i,并更新第i簇的文档频为向量
与
对应单词文档频的较大值,第三步需要计算所有向量与更新后的向量
之间的余弦距离,并设定所有向量与
之间的距离为无穷大,重复这一过程直至簇的数量达到预定值;步骤二:单词向量权重计算,步骤一提供了各个簇的文档频和簇与具体单词向量之间的对应关系映射表,在本步骤,首先针对目标文档计算每个单词在该文档中的词频,然后求取各个文档频的逆文档频,最后将单词词频与单词所在簇的逆文档频的乘积作为单词向量的权重;全局平滑语境压缩,其目标是生成文档向量,具体步骤如下:步骤一:全局平滑语境为m×m阶的方阵,针对目标文档将全局平滑语境中的单词向量与其在此目标文档中的权重进行乘法运算,得到加权单词向量,由于加权后的单词向量矩阵考虑了单词在单个文档中的局部语境,被称之为局部语境矩阵;步骤二:求局部语境矩阵每一个列向量的无穷范数,m个列向量对应的m个无穷范数构成了新的文档向量,因此新生成的文档向量是一个维数为m的向量,上述过程概括为下式:
其中ωi,j为由单词向量聚合加权得到的单词vj在文档di中的权重,tj,k为单词向量
在维度k上的取值,也就是说,对于文档向量
它的第k维度上的取值等于所有加权后单词向量在第k维度上取值的最大值;步骤三:计算每一个文档向量的二范数,将文档向量与其对应的二范数进行除法运算以便归一化文档向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410728902.7/,转载请声明来源钻瓜专利网。
- 上一篇:螺杆钻扭矩测试装置
- 下一篇:一种基于改进型I2C总线的智能家居控制系统