[发明专利]一种多义词词向量消歧方法在审

申请号：	201810517365.X	申请日：	2018-05-25
公开（公告）号：	CN108874772A	公开（公告）日：	2018-11-23
发明（设计）人：	谢珺;李思宇;梁凤梅;刘建霞	申请（专利权）人：	太原理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30;G06K9/62;G06Q30/06
代理公司：	太原市科瑞达专利代理有限公司 14101	代理人：	卢茂春
地址：	030024 山西***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种多义词词向量消歧方法，属于文本挖掘和机器学习的交叉技术领域，包括(1)文本语料获取以及预处理：采用搜狗新闻文本分类语料，然后进行分词、去停用词的预处理步骤；(2)BTM主题模型建模；(3)词语对应主题的概率计算；(4)向量模型计算词向量和主题向量；(5)多义词词向量构造并对应主题的概率P(z\|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分，得到正确的多义词词向量。本发明有助于将汉语词义消歧扩展到短文本领域；通过利用主题模型和词向量的结合，不需要人力进行数据标注，有助于海量的短文本数据挖掘，更加省时省力；有助于电商网站进行个性化商品推荐。
搜索关键词：	词向量多义词消歧主题模型主题向量短文本语料词语预处理向量模型计算个性化商品预处理步骤概率计算机器学习加权处理连接过程数据标注数据挖掘文本挖掘新闻文本词义停用词分词建模省时网站省力文本汉语分类概率
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种多义词词向量消歧方法：包括下述内容：(1)文本语料获取以及预处理：采用搜狗新闻文本分类语料，然后进行分词、去停用词的预处理步骤；(2)BTM主题模型建模，即用吉布斯采样的方法，对短文本中的分类语料进行主题标注，并得到每一个词语对应的主题以及主题‑主题词矩阵A；(3)词语对应主题的概率计算，对主题‑主题词矩阵A进行转置，得到主题词‑主题矩阵B，通过贝叶斯公式，得到词语对应主题的概率P(z|w)；(4)向量模型计算词向量和主题向量，将主题标注作为向量模型的输入，分别对词语和主题进行向量训练，得到词向量簇W和主题向量簇Z，词向量w和主题向量z分别表示其中的一个向量；(5)多义词词向量构造，将词向量w和主题向量z通过⊕进行连接，⊕表示将词向量w和主题向量z进行连接，wz的长度为词向量w和主题向量z的长度值和；并依照词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分，得到正确的多义词词向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810517365.X/，转载请声明来源钻瓜专利网。

上一篇：一种面向招标文本的信息抽取方法
下一篇：关键词新增方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多义词词向量消歧方法在审

专利文献下载