[发明专利]一种基于关键词的摘要生成系统及方法在审
申请号: | 202210453569.8 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114637840A | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 马云腾;夏茂晋;朱旭琪;王欢 | 申请(专利权)人: | 北京清博智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/284;G06F40/247;G06F40/216 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 摘要 生成 系统 方法 | ||
本发明公开了一种基于关键词的摘要生成系统及方法,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块,数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本,数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化,得到由句向量组成的文本,计算处理模块用于利用预训练词向量以及计算句子有效得分,排序优化模块用于将带关键词句子得分进行排序,并根据需要取出前几句。本发明由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于关键词的摘要生成系统及方法。
背景技术
当前人工智能生成摘要的方法普遍基于句法和语义计算得出,而无法根据人们想要关注点而获得理想结果,例如,某公司在一篇长文本种被提及,希望生成关于该公司的摘要,而传统方法无法解决该问题。因此我们对此做出改进,提出一种基于关键词的摘要生成系统及方法。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种基于关键词的摘要生成系统及方法,由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于关键词的摘要生成系统,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块;
所述数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本;
所述数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化,得到由句向量组成的文本;
所述计算处理模块用于利用预训练词向量以及计算句子有效得分;
所述排序优化模块用于将带关键词句子得分进行排序,并根据需要取出前几句,针对连续提到多个单位的列表类文本,按固定格式生成相应摘要;
所述总结聚合模块用于对于摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量。
进一步地,所述文本向量生成模型为GloVe(Global vectors for wordrepresentation)的深度学习模型,计算句子有效得分为通过迭代计算的方法计算出每个句子其他所有句子总体相关度得分,将关键词经过特征编码、特征融合后,输入所述基于GloVe深度学习模型中和TextRank技术计算句子有效得分后生成文摘要。
一种基于关键词的摘要生成方法:
A、数据采集模块通过数据采集的方法获得在一段时间的大量需要分析的语料文本,根据文本内容、语句类型进行文章类型分类,再将分类后的文章发送至数据处理模块;
B、数据处理模块利用适合居向量表达的无监督词向量模型将分词后的文本向量滑,得到有句向量组成的文本,再将文本发送至计算处理模块;
C、计算处理模块计算处理模块用于利用预训练词向量以及计算句子有效得分,排序优化模块将带关键词句子得分进行排序,并根据需要取出前几句,针对连续提到多个单位的列表类文本,按固定格式生成相应摘要;
D、总结聚合模块将摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量,根据提前准备好的同义词表,对分好词的文本进行同义词替换,将相近含义的词语都转化为同一词语,对两篇文章的词语集合求交集,计算共有的词语在两篇文章的占比,通过求得两个占比的加权平均作为两篇文章的相似度,若相似度高于阈值,则被分为同一类。
本发明的有益效果是:该种基于关键词的摘要生成系统及方法,由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清博智能科技有限公司,未经北京清博智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210453569.8/2.html,转载请声明来源钻瓜专利网。