[发明专利]一种多义词词向量消歧方法在审

专利信息
申请号: 201810517365.X 申请日: 2018-05-25
公开(公告)号: CN108874772A 公开(公告)日: 2018-11-23
发明(设计)人: 谢珺;李思宇;梁凤梅;刘建霞 申请(专利权)人: 太原理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06K9/62;G06Q30/06
代理公司: 太原市科瑞达专利代理有限公司 14101 代理人: 卢茂春
地址: 030024 山西*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种多义词词向量消歧方法,属于文本挖掘和机器学习的交叉技术领域,包括(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模;(3)词语对应主题的概率计算;(4)向量模型计算词向量和主题向量;(5)多义词词向量构造并对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。本发明有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。
搜索关键词: 词向量 多义词 消歧 主题模型 主题向量 短文本 语料 词语 预处理 向量模型计算 个性化商品 预处理步骤 概率计算 机器学习 加权处理 连接过程 数据标注 数据挖掘 文本挖掘 新闻文本 词义 停用词 分词 建模 省时 网站 省力 文本 汉语 分类 概率
【主权项】:
1.一种多义词词向量消歧方法:包括下述内容:(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题‑主题词矩阵A;(3)词语对应主题的概率计算,对主题‑主题词矩阵A进行转置,得到主题词‑主题矩阵B,通过贝叶斯公式,得到词语对应主题的概率P(z|w);(4)向量模型计算词向量和主题向量,将主题标注作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量;(5)多义词词向量构造,将词向量w和主题向量z通过⊕进行连接,⊕表示将词向量w和主题向量z进行连接,wz的长度为词向量w和主题向量z的长度值和;并依照词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810517365.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top