[发明专利]一种文献摘要提取方法、设备及可存储介质在审
申请号: | 201910535327.1 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110399477A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 高源伯;李向伟;高爽;柴博;宋博川 | 申请(专利权)人: | 全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司电力科学研究院 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F17/27 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张琳琳 |
地址: | 102209 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 单词 目标文档 初始特征向量 上下文特征 特征提取 特征向量 摘要提取 可存储 计算机技术领域 上下文关联 获取目标 综合考虑 文档 预设 申请 | ||
本申请公开了一种文献摘要提取方法、设备和可存储介质,属于计算机技术领域。所述方法包括:获取目标文档,将目标文档拆分为至少一个句子,对句子中的每个单词进行特征提取,得到单词初始特征向量;基于单词初始特征向量,确定句子中的预设单词,以得到句子的特征向量;基于句子的特征向量,确定句子的上下文特征;根据句子的上下文特征,确定句子是否为目标文档摘要中的句子,以得到目标文档摘要。这样综合考虑目标文档中每个句子中单词的特征与句子的上下文的特征提取的摘要,能够提高准确性,并且能够得到更快的速度与更丰富的上下文关联,由此得到更准确的结果。
技术领域
本发明涉及计算机信息技术领域,具体涉及一种文献摘要提取方法、设备及可存储介质。
背景技术
目前很多公司每年要处理海量的文档(如发文、收文、通知、会议管理等),例如国家电网的海量系统公告、通知和请示,调度和运检业务中的工单票据,巡检业务中的巡检报告等,但是目前这些文档工作仍主要由人工撰写,大量的重复性和主观性工作使得文档编制存在着效率较低、准确性不足的问题。
近年来,随着人工智能技术的突破,许多专家学者开始尝试应用深度神经网络去解决自动文档编制领域问题。这些问题中,文献摘要提取显得十分重要,因为在进行文献检索与阅读中,文献的摘要全面的反映了的核心内容与主题思想,是文献的重要组成部分,摘要的准确性显得十分重要,提高生成摘要的效率与准确性迫在眉睫。
目前自动摘要提取技术已经逐步得到开发,但是还存在着计算效率低、准确性不足的问题,这一问题有待解决。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的准确性不足的缺陷,从而提供一种文献摘要提取方法,所述技术方案如下:
第一方面,本发明实施例提供一种文献摘要提取方法,包含:
获取目标文档,将目标文档拆分为至少一个句子,对所述句子中的每个单词进行特征提取,得到单词初始特征向量;
基于所述单词初始特征向量,确定所述句子中的预设单词,以得到所述句子的特征向量;其中,所述句子的特征向量为所有所述预设单词的特征的集合;
基于所述句子的特征向量,确定所述句子的上下文特征;
根据所述句子的上下文特征,确定所述句子是否为所述目标文档摘要中的句子,以得到目标文档摘要。
可选的,所述基于所述单词初始特征向量,确定所述句子中的预设单词,以得到所述句子的特征向量,包含:
对所述单词初始特征向量进行处理,得到所述句子中的每个单词的第四特征向量,所述第四特征向量包含归一化后的第三特征向量;
对所述第四特征向量进行处理,以得到所述句子的特征向量。
可选的,所述对所述单词初始特征向量进行处理,得到所述句子中的每个单词的第四特征向量,包含:
对所述单词初始特征向量进行处理,得到每个单词的第二特征向量,所述第二特征向量包含归一化后的第一特征向量。
可选的,所述对所述单词初始特征向量进行处理,得到每个单词的第二特征向量,包含:
对所述单词初始特征向量进行过滤,得到每个单词的第一特征向量,所述第一特征向量包含单词的语义信息;
对所述第一特征向量进行归一化,得到每个单词的第二特征向量。
可选的,所述对所述单词初始特征向量进行处理,得到每个单词的第二特征向量,之后,还包含:
对所述第二特征向量进行处理,得到每个单词的第四特征向量。
可选的,所述对所述第二特征向量进行处理,得到每个单词的第四特征向量,包括;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司电力科学研究院,未经全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910535327.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人才画像的生成方法、装置、设备及存储介质
- 下一篇:事件发现方法和装置