[发明专利]一种多文本快速摘要方法有效
申请号: | 201711000127.3 | 申请日: | 2017-10-24 |
公开(公告)号: | CN107608972B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 李晓东 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/258 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 快速 摘要 方法 | ||
本发明公开了一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分并获得语句的重要度,根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法,将多文本中的每个语句作为一个节点并进行单独分析,利用本发明所提出的语句贡献度打分方法,经过若干轮迭代打分,确定重要度较高的语句,再根据高重要度语句快速生成最终的摘要内容,兼顾了文本主题的多样性和摘要语句的通顺性,加快了多文本摘要的生成速度,工作效率高,应用前景广阔。
技术领域
本发明涉及计算机应用技术领域,具体涉及一种多文本快速摘要方法。
背景技术
随着互联网的快速发展,以文本形式呈现的在线信息,如门户网站新闻、微博和微信等,其信息量在近年有巨大的增长。面对如此巨量的文本信息,人们需要一个简便的方法用来快速浏览这些信息,在这方面,计算机辅助文本摘要方法可以帮助人们快速地产生各类文本的摘要条目,在人们在线浏览时,其可以帮助人们通过摘要来辨别是否需要继续浏览新闻全文,从而加快浏览速度。
传统的文本摘要方法将文本视为一个没有任何结构的“词袋”,并使用向量空间模型VSM(Vector Space Model)来对“词袋”建模,这一类方法从统计的角度计算词的频率并评价词的重要性,其不但产生了大量的计算,拖慢摘要产生的速度,另一方面,由于其忽略了文章语句之间的结构关系,影响到了文本摘要的质量。
本发明针对当前社会对于快速文本摘要算法的强烈需求,针对传统摘要方法存在的质量平和速度慢等缺点,公开了一种多文本快速摘要方法,可以广泛应用于互联网领域,有利于提升人们获取信息的效率。
发明内容
为解决现有技术的问题,本发明提供一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,模型依据语句间的关联度打分,使得重要的语句获得更高的分数,根据高重要度语句生成最终的摘要内容,辅助人们从多文本中快速获取重要信息,提高提取摘要的工作效率。
为实现上述目的,本发明采用的技术方案为:
一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的边的权重和语句的贡献度计算获得重要度高的语句并形成最终的摘要内容,包括以下步骤:
步骤一、建立语料库,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模;
步骤二、给定若干个语句,步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值,一个语句为一个节点,通过模型计算获得每两个节点之间的边的权重及两个节点对与其相连的边的贡献度;
步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点,随后根据得到的重要度赋值返回步骤二计算边的权重再完成步骤三,经过若干个循环得到重要度高的语句并生成摘要内容。
进一步的,步骤一中,所述模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词),其中,T是一个字典,是词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个节点vj是有一个tk的集合组成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711000127.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种继电保护告警信息语义辨识方法
- 下一篇:瓶贴(2)