[发明专利]一种多文本快速摘要方法有效
申请号: | 201711000127.3 | 申请日: | 2017-10-24 |
公开(公告)号: | CN107608972B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 李晓东 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/258 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 快速 摘要 方法 | ||
1.一种多文本快速摘要方法,其特征在于,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分,得到重要度高的语句并形成摘要内容,包括以下步骤:
步骤一、建立语料库,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模;
步骤二、给定若干个语句,步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值,一个语句为一个节点,通过模型计算获得两个节点之间的边的权重及两个节点对与其相连的边的贡献度;
步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理得到节点的重要度,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点,随后根据新的重要度赋值返回步骤二重新计算边的权重再完成步骤三,经过若干个循环得到重要度高的语句并生成摘要内容;
步骤一中,所述模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词},其中,T是一个字典,是词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个节点vj是有一个tk的集合组成;
F={fij|fij是ti在vj中出现的次数,ti∈T,vj∈V},语句的规约化长度为
E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,不具有方向性,eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度是距离度量的一个相反度量,由距离度量函数加上适当取反来测量;
S={si|si是节点vi的重要度度量,vi∈V},重要度si度量节点vi对与其相连的边的权重的贡献度;
所述节点的重要度通过迭代式的计算产生,包括如下步骤:
步骤一、拆分连接节点vi和节点vj的边eij的权重wij,计算节点vi的贡献度;
步骤二、总和步骤一中所有节点vi对于与其相连的边eij的贡献度,根据贡献度计算获得重要度,再根据高重要度语句生成摘要内容。
2.根据权利要求1所述的一种多文本快速摘要方法,其特征在于,所述权重wij在向量空间中的距离度量采用余弦相似度并采用如下公式定义:
公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,wij=wji。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711000127.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种继电保护告警信息语义辨识方法
- 下一篇:瓶贴(2)