[发明专利]一种摘要提取方法及相关设备有效
申请号: | 201810081590.3 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108052686B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 曹云波;万小军;苏可 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/205 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 摘要 提取 方法 相关 设备 | ||
本发明实施例公开了一种摘要提取方法及相关设备,包括:从文本中提取第一语句生成所述文本的初始摘要;确定所述文本中的每条语句的置信度;根据所述每条语句的所述置信度,确定所述初始摘要的准确度;当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。采用本发明实施例,可以提高摘要提取的准确性。
技术领域
本发明涉及电子技术领域,尤其涉及一种摘要提取方法及相关设备。
背景技术
目前单文档摘要自动提取方法主要基于启发式规则或基于机器学习来对文档中的语句进行评估和抽取,该方法在对文本中的每条语句赋予反映其重要性的权值,然后选取权重最大的若干条语句形成摘要。在此类方法中语句的位置特征与表征语句的其它重要特征混杂在一起,基于预期结果构建学习目标,然后通过机器学习算法来自动发现语句特征的重要性。另一类方法(比如:LEAD方法)直接提取文档的前几条语句作为文档的摘要,该类方法将句子的位置信息作为唯一的考虑因素然。尽管在大多数文档尤其是新闻类文档中,文档内容的重要信息的概要将集中在文档的开头部分,但若仅将位置信息作为摘要提取的唯一考虑因素也势必导致生成的摘要对文档关键内容的覆盖度过低。而在综合考虑句子位置特征与其它表征句子重要性的特征的自动摘要方法中,又将因训练数据与真实数据之间的偏差导致对语句位置信息的利用不够充分,导致提取的摘要的准确性低。
发明内容
本发明实施例提供一种摘要提取方法及相关设备,提高了摘要提取的准确性。
第一方面,本发明实施例提供了一种摘要提取方法,包括:
从文本中提取第一语句生成所述文本的初始摘要;
确定所述文本中的每条语句的置信度;
根据所述每条语句的所述置信度,确定所述初始摘要的准确度;
当所述准确度大于第一阈值时,将所述初始摘要确定为所述文本的目标摘要,当所述准确度不大于所述第一阈值时,从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的所述目标摘要。
其中,所述从文本中提取第一语句生成所述文本的初始摘要包括:
从所述文本的起始部分提取至少一条所述第一语句生成预设长度的所述初始摘要。
其中,所述根据所述每条语句的所述置信度,确定所述初始摘要的准确度包括:
根据所述置信度,确定所述初始摘要中所述第一语句的重要性排名;
根据所述第一语句的所述重要性排名,确定所述初始摘要的所述准确度。
其中,所述从所述文本中选取第二语句替换所述初始摘要中的所述第一语句得到所述文本的目标摘要包括:
确定所述初始摘要中的所述第一语句与所述文本中每条第二语句的相似度、以及各第二语句的重要性排名;
根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句。
其中,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,包括:
当第二语句与所述第一语句的相似度大于第二阈值、且第二语句的重要性排名高于第三阈值时,选取该第二语句替换所述第一语句。
其中,所述根据所述第一语句与每条第二语句的相似度、以及各第二语句的所述重要性排名,选取第二语句替换所述第一语句,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810081590.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:泵体组件和压缩机
- 下一篇:一种风量可调式腌制牛羊肉风干箱