[发明专利]一种多义词词向量消歧方法在审

专利信息
申请号: 201810517365.X 申请日: 2018-05-25
公开(公告)号: CN108874772A 公开(公告)日: 2018-11-23
发明(设计)人: 谢珺;李思宇;梁凤梅;刘建霞 申请(专利权)人: 太原理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06K9/62;G06Q30/06
代理公司: 太原市科瑞达专利代理有限公司 14101 代理人: 卢茂春
地址: 030024 山西*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词向量 多义词 消歧 主题模型 主题向量 短文本 语料 词语 预处理 向量模型计算 个性化商品 预处理步骤 概率计算 机器学习 加权处理 连接过程 数据标注 数据挖掘 文本挖掘 新闻文本 词义 停用词 分词 建模 省时 网站 省力 文本 汉语 分类 概率
【权利要求书】:

1.一种多义词词向量消歧方法:包括下述内容:

(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;

(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题-主题词矩阵A;

(3)词语对应主题的概率计算,对主题-主题词矩阵A进行转置,得到主题词-主题矩阵B,通过贝叶斯公式,得到词语对应主题的概率P(z|w);

(4)向量模型计算词向量和主题向量,将主题标注作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量;

(5)多义词词向量构造,将词向量w和主题向量z通过⊕进行连接,⊕表示将词向量w和主题向量z进行连接,wz的长度为词向量w和主题向量z的长度值和;并依照词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。

2.根据权利要求1所述一种多义词词向量消歧方法,其特征在于,文本语料获取以及预处理过程之中,通过文档大小的判别方法从复旦文本分类语料中,找到实验所需的短文本分类语料,并进行后续处理。

3.根据权利要求1所述一种多义词词向量消歧方法,其特征在于,在词语对应的主题概率计算,运用贝叶斯公式进行处理,得到词-主题概率P(z|w);

P(w|z)表示主题-词概率,是通过BTM主题模型训练之后的得到的主题-词矩阵A的产物。

4.根据权利要求1所述一种多义词词向量消歧方法,其特征是在多义词词向量的构造过程之中,平均最大似然函数L的构造,

Wk表示当前词语,wk+n表示当前词语的上下文,左右的词的距离为l,zk表示当前词语的主题,N表示一段句子的总长度,k表示词语在句子中的位置。

5.根据权利要求1所述一种多义词词向量消歧方法,其特征是实验最后的评价参数使用准确率,召回率以及评价标准F1值;语料采用复旦大学文本分类语料,语料中一共有20个类别,假设ck表示第k个类别,

(1)准确率用Pi表示,计算公式如:

Pi表示类别i的准确率,nri表式当前样本类别为i,并且通过算法分类之后被正确分配到i类的文本梳理;npi表式测试集中所有被分配到类别i的文本数量。所有类别的整体准确率等于各个类别的准确率求平均值:

(2)召回率用Ri表示,计算公式:

Ri表示类别i的召回率,nri和准确率参数中的定义一样,nqi表示测试集中类别i类中,真正应该包含的文本的数量;所有类别的整体召回率等于各个类别的召回率求平均值:

(3)评价标准F1值综合对准确率pi和召回率两个衡量指标进行了考虑,是两个指标的加权调和平均:

F1i表示类别i的召回率,Pi和Ri分别表示类别i的准确率和召回率;文本集中所有类别的评价标准F1值等于各个类别F1值的平均值:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810517365.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top