[发明专利]一种摘要抽取方法、装置、存储介质以及计算机设备在审
申请号: | 202211420423.X | 申请日: | 2022-11-15 |
公开(公告)号: | CN115688755A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 尹春林;于虹;李怡;周年荣;杨莉;张洪程;唐立军;张林山 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F40/30 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 黄劼 |
地址: | 650000 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 摘要 抽取 方法 装置 存储 介质 以及 计算机 设备 | ||
本发明实施例公开了一种摘要提取方法、装置、存储介质以及计算机设备,其中,该方法包括:遍历目标文本中目标段落的语句,对于遍历到的第一语句,计算第一语句与第二语句之间的第一语义相似度、第一语句与目标段落之间的第二语义相似度以及第一语句与目标文本之间的第三语义相似度,根据目标段落的每个语句对应的第一语义相似度、第二语义相似度以及第三语义相似度,确定目标段落的关键句,将目标段落的关键句组成目标文本的摘要。本发明通过第一语义相似度结合第二语义相似度以及第三语义相似度,能够使得关键句的选取考虑到了目标文本中句子、段落、篇章等维度的语义信息,进而提高了关键句提取的精确度。
技术领域
本发明涉及摘要提取技术领域,尤其涉及一种摘要提取方法、装置、存储介质以及计算机设备。
背景技术
目前文本摘要自动提取方法主要基于启发式规则或基于机器学习来对文档中的语句进行评估和抽取,该方法在对文本中的每条语句赋予反映其重要性的权值,然后选取权重最大的若干条语句形成摘要。在另一类方法(比如:LEAD方法)直接提取文档的前几条语句作为文档的摘要,该类方法将句子的位置信息作为唯一的考虑因素,尽管在大多数文档尤其是新闻类文档中,文档内容的重要信息的概要将集中在文档的开头部分,但若仅将位置信息作为摘要提取的唯一考虑因素也势必导致生成的摘要对文档关键内容的覆盖度过低,导致提取的摘要的准确性低。
发明内容
本发明的主要目的在于提供一种摘要提取方法、装置、存储介质以及计算机设备,可以解决现有技术中摘要提取准确性较低的问题。
为实现上述目的,本发明第一方面提供一种摘要提取方法,所述方法包括:
遍历目标文本中目标段落的语句;其中,所述目标文本为待抽取摘要的文本,所述目标段落为目标文本中的任意段落;
对于遍历到的第一语句,计算所述第一语句与第二语句之间的第一语义相似度、所述第一语句与目标段落之间的第二语义相似度以及所述第一语句与所述目标文本之间的第三语义相似度;其中,第二语句是指所述目标段落除第一语句外其他任一语句;
根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句;
根据所述目标段落的关键句组成目标文本的摘要。
结合第一方面,在一种可能的实现方式中,上述根据所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度,确定所述目标段落的关键句,包括:将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值;将所述加权求和值最高值对应的语句确定为所述目标段落的关键句。
结合第一方面,在一种可能的实现方式中,将所述目标段落的每个语句对应的所述第一语义相似度、所述第二语义相似度以及所述第三语义相似度进行加权求和,得到所述目标段落的每个语句对应的加权求和值,包括:将所述目标段落的每个语句对应的所述第一语义相似度作为语句语义相似度表示向量的前N维、所述第二语义相似度作为语句语义相似度表示向量的第N+1维以及所述第三语义相似度作为语句语义相似度表示向量的第N+2维,构成所述目标段落的每个语句对应的语句语义相似度表示向量;其中,N为所述目标段落的语句总数减一;将所述目标段落的每个语句对应的所述语句语义相似度表示向量的维数对应的元素进行加权求和,得到所述目标段落的每个语句对应的加权求和值。
结合第一方面,在一种可能的实现方式中,上述计算所述第一语句与所述第一语句所在的段落之间的第二语义相似度,包括:计算所述第一语句与所述第一语句所在的段落之间的语义相似度,采用惩罚函数对所述语义相似度进行惩罚,得到所述第一语句与所述第一语句所在的段落之间的第二语义相似度;
其中,所述惩罚函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211420423.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刺梨提取物的提取方法
- 下一篇:一种基于深度学习的城市行道树种类识别方法