[发明专利]基于词频和语义的图模型文本摘要生成方法在审
| 申请号: | 201911301631.6 | 申请日: | 2019-12-17 |
| 公开(公告)号: | CN111125349A | 公开(公告)日: | 2020-05-08 |
| 发明(设计)人: | 王青松;马腾;张衡;张鑫琪;王军;接磊;刘庆楠;王雪彤;祝慷骏 | 申请(专利权)人: | 辽宁大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/284;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 词频 语义 模型 文本 摘要 生成 方法 | ||
一种基于词频和语义的图模型文本摘要生成方法。其步骤如下:1)将文本中的句子进行分词,并进行词性标注。2)对词项进行过滤,只保留特定词性的词项。3)利用Word2Vec模型和BM25算法训练词向量,形成特征词向量集,进而表示句子,构建句子‑词文本矩阵。4)通过文本矩阵,构建文本无向图模型。5)利用TextRank算法进行句子结点权值的迭代计算,直至收敛,选取TOP‑K句子生成文本摘要。6)实验结果表明,相比传统鉴于文本单一词频特征和基于文本语义特征的文本自动摘要方法,本文方法在最佳调节因子组合下,取得了更高的Rouge值,证明本文方法有效整合了文本词频和语义特征,进而通过基于上下文信息的TextRank算法提高了摘要生成的准确率。
技术领域
本发明涉及一种文本摘要生成方法,尤其是一种基于词频和语义的图模型文本摘要生成方法。
背景技术
文本摘要生成常用BM25算法或传统神经网络算法来评价搜索词和文档之间相关性,然而用在文本摘要生成的文本相似度的选择阶段会凸显出如下问题,使文本的相似度在性能上有欠缺。
1.传统神经网络算法需要语料库大,训练时间长,生成摘要较慢,应用性差。采用浅层神经网络,对词的维度进行压缩,可以缩短训练时间,生成摘要的速度更快。
2.以前有监督的算法,需要训练语料库,进行人工标注语料等,不实用;相对于监督学习,无监督学习使用的是没有标签的数据。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成未知的标签。以前有监督的算法需要的语料库较大时,训练时间长,生成摘要较慢,应用性差。无监督自动文摘无需训练语料库,也不需要学习过程,可以直接使用。
3.基于机器学习的摘要生成方法通过训练语料库能充分获得词和句子的语义信息,但此类方法过于依赖包含多目标词的语料库,且只适用于处理短文本,过长的文本输入序列会导致学习框架无法准确的获取句子的语义信息,会导致编码器端无法准确的提取文本的语义信息,产生长距离依赖问题,导致模型无法收敛,进而影响到摘要生成的准确度。
发明内容
为了解决上述存在的技术问题,本发明提供了一种基于词频和语义的图模型文本摘要生成方法,通过在预处理阶段对文本进行处理,将文本分割成句子,对每个句子进行分词,进行词性标注。对词项进行过滤,首先是停用词过滤;其次是词性过滤,只保留特定词性的词项,例如名词、动词、形容词等。利用Word2Vec模型和BM25算法生成词向量,进而生成句子向量,构建句子-词文本矩阵。通过文本矩阵,构建文本的无向图模型。利用BM25算法和Word2Vec算法相结合得到的特征词向量通过进而得到句子间的相似度,作为图模型中相应边的权重。利用TextRank算法实现句子结点权值的迭代计算,直至收敛,选取TOP-K句子作为文本摘要,其中K=文本句子数*10%。
为了实现上述目的,本发明创造采用的技术方案为:基于词频和语义的图模型文本摘要生成方法,其特征在于,其步骤为:
1)分词:将每个句子进行分词并进行词性标注;
2)过滤:进行停用词过滤、低频词过滤和词性过滤;
3)词向量训练:
3.1)采用BM25算法,利用词频的信息表现一个词的词向量的词频信息;
3.2)通过Word2Vec模型,利用语义信息来表示一个词的词向量的语义信息;
3.3)利用两个调节因子α和β,调整两个算法得到的特征词向量的权值比重,然后进行相加得到最后的特征词向量,最后用特征词向量集表示文本的每一个句子,构建文本矩阵;
4)构建文本无向图模型:通过步骤3.3)中的文本矩阵,以句子作为图的结点,以句子间的相似关系作为结点之间的边,利用余弦定理得到句子间的相似度作为图模型中对应边的权重,构建文本无向图模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301631.6/2.html,转载请声明来源钻瓜专利网。





