[发明专利]一种多义词词向量消歧方法在审
申请号: | 201810517365.X | 申请日: | 2018-05-25 |
公开(公告)号: | CN108874772A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 谢珺;李思宇;梁凤梅;刘建霞 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06K9/62;G06Q30/06 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 卢茂春 |
地址: | 030024 山西*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种多义词词向量消歧方法,属于文本挖掘和机器学习的交叉技术领域,包括(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模;(3)词语对应主题的概率计算;(4)向量模型计算词向量和主题向量;(5)多义词词向量构造并对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。本发明有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。 | ||
搜索关键词: | 词向量 多义词 消歧 主题模型 主题向量 短文本 语料 词语 预处理 向量模型计算 个性化商品 预处理步骤 概率计算 机器学习 加权处理 连接过程 数据标注 数据挖掘 文本挖掘 新闻文本 词义 停用词 分词 建模 省时 网站 省力 文本 汉语 分类 概率 | ||
【主权项】:
1.一种多义词词向量消歧方法:包括下述内容:(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题‑主题词矩阵A;(3)词语对应主题的概率计算,对主题‑主题词矩阵A进行转置,得到主题词‑主题矩阵B,通过贝叶斯公式,得到词语对应主题的概率P(z|w);(4)向量模型计算词向量和主题向量,将主题标注作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量;(5)多义词词向量构造,将词向量w和主题向量z通过⊕进行连接,⊕表示将词向量w和主题向量z进行连接,wz的长度为词向量w和主题向量z的长度值和;并依照词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810517365.X/,转载请声明来源钻瓜专利网。