[发明专利]一种多义词词向量消歧方法在审

专利信息
申请号: 201810517365.X 申请日: 2018-05-25
公开(公告)号: CN108874772A 公开(公告)日: 2018-11-23
发明(设计)人: 谢珺;李思宇;梁凤梅;刘建霞 申请(专利权)人: 太原理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06K9/62;G06Q30/06
代理公司: 太原市科瑞达专利代理有限公司 14101 代理人: 卢茂春
地址: 030024 山西*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词向量 多义词 消歧 主题模型 主题向量 短文本 语料 词语 预处理 向量模型计算 个性化商品 预处理步骤 概率计算 机器学习 加权处理 连接过程 数据标注 数据挖掘 文本挖掘 新闻文本 词义 停用词 分词 建模 省时 网站 省力 文本 汉语 分类 概率
【说明书】:

一种多义词词向量消歧方法,属于文本挖掘和机器学习的交叉技术领域,包括(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模;(3)词语对应主题的概率计算;(4)向量模型计算词向量和主题向量;(5)多义词词向量构造并对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。本发明有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。

技术领域

本发明属于文本挖掘和机器学习的交叉技术领域,具体涉及多义词词向量模型,尤其涉及到多义词词向量模型的词义消歧方法以及在短文本中的消歧应用。

背景技术

汉语的表达方式多种多样,不同的词语在不同的语境中具有不同的含义,而怎么样得出词语的正确语义,专家有很多的解决方法,同时也存在很多一些问题,主要有:

1)基于知识的方法,基于人工构造的文本库以及语料库,优势在于结果的准确率相对较高,这些准确率主要来源于各种已经确定的语料库,但是对于某些领域来说,语料库相对不健全,因此难免会遇到语料库特征稀疏的问题,受限于知识构建的完整程度。

2)有监督的方法,基于人工对语料数据的标注,但是强烈依赖于已经标注好的语料库数据,但对于没有标注的语言来说,这种方法不适用与词义消歧,这种方法对于标注数据依赖性太强。

3)无监督的方法,基于不完全需要语料库以及各种语言标注信息,因此有更好的适用性,但是准确性相对较低。

由此可知,现有的词义消歧方法面临着语料依赖程度高,人工标注繁琐以及准确率低的问题,因此对词义消歧方法有待进一步探究。

发明内容

本发明提供准确率高的一种基于主题模型和词向量模型的多义词词向量消歧方法。

本发明的技术方案,一种多义词词向量消歧方法:

(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤,最后的每个类别的文档按照80%作为训练数据,20%作为测试数据。

(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题-主题词矩阵A。

(3)词语对应主题的概率计算,从(2)中得到的主题-主题词矩阵A,进行转置,得到主题词-主题矩阵B,通过贝叶斯公式,最后得到词语对应主题的概率P(z|w)。

(4)向量模型计算词向量和主题向量,从(2)中得到每个词语的主题标注,作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量。

(5)多义词词向量构造,将(4)中训练得到的词向量w和主题向量z进行连接(首尾合并),并依照(3)中得到的词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。

本发明有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。

附图说明

图1是多义词词向量框架图。

图2是主题数目参数估计。

图3是多义词词向量窗口大小估计。

图4是多义词词向量维度长短估计。

图5是文本分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810517365.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top