[发明专利]一种结合标题与正文注意力机制的文本分类方法在审
申请号: | 201910095696.3 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109753567A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 王涛 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高玲玲 |
地址: | 230601 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种结合标题与正文注意力机制的文本分类方法。首先对每篇文档的标题与正文进行分词预处理,得到标题词集合和正文词集合;采用word2vec的CBOW模型训练词向量,用双向循环神经网络学习每个词结合上下文语义的表示,通过串联词向量及其左右上下文的表示,得到一个词的潜在语义向量;分别将标题词集合及正文词集合中每个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量;使用标题与正文注意力机制,得到注意力向量;在计算整篇文档的向量表示后,通过soft max函数输出概率预测文本的类别。本发明解决了现有的带有标题的文本分类时忽略标题内容的重要性,把标题当作正文的一部分或忽略标题信息,导致分类结果准确度低的问题。 | ||
搜索关键词: | 向量 注意力机制 文本分类 潜在语义 标题词 词集合 词向量 文档 集合 神经网络学习 分词预处理 上下文语义 准确度 标题内容 标题信息 分类结果 概率预测 函数输出 模型训练 双向循环 向量表示 池化 注意力 串联 文本 | ||
【主权项】:
1.一种结合标题与正文注意力机制的文本分类方法,其特征在于包括以下步骤:步骤1:对每篇文档的标题与正文进行分词预处理,得到标题词集合和正文词集合;步骤2:采用词向量训练模型训练标题词集合和正文词集合向量,得到每一个词的分布式表示;步骤3:通过双向循环神经网络捕捉每个词的上下文语义,得到每个词的左侧上下文向量和右侧上下文向量;步骤4:将每个词的左上下文向量、词向量、右上下文向量串联,得到每个词结合上下文语义的表示,对词义的表示应用线性变换并使用tanh激活函数获得这个词的潜在语义向量;步骤5:分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量;步骤6:应用标题与正文注意力机制得到每篇文档的注意力向量,代表标题以及正文的权重;步骤7:计算整篇文本的向量表示,使用soft max函数输出概率来预测文本的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910095696.3/,转载请声明来源钻瓜专利网。