[发明专利]摘要生成方法、装置、电子设备及介质在审
申请号: | 202010244210.0 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111552800A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 赵焕丽;徐国强 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/186;G06F40/289 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;孙芬 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 装置 电子设备 介质 | ||
1.一种摘要生成方法,其特征在于,所述摘要生成方法包括:
获取至少一个企业的至少一篇公告摘要,并对所述至少一篇公告摘要进行去重处理;
对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词;
将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型中,生成至少一个摘要模板;
融合所述至少一个摘要模板,得到摘要模板库;
当接收到摘要生成指令时,从所述摘要生成指令中提取目标文本;
确定所述目标文本所属的文本类型,及确定所述目标文本对应的企业所属的企业类型;
从所述摘要模板库中确定同时与所述文本类型及所述企业类型匹配的目标摘要模板;
从所述目标文本中提取所述目标摘要模板所需的信息,及根据提取的信息及所述目标摘要模板,生成所述目标文本对应的摘要。
2.如权利要求1所述的摘要生成方法,其特征在于,所述对所述至少一篇公告摘要进行去重处理包括:
根据每篇公告摘要中的摘要标题,计算每篇公告摘要的哈希值;
从每篇公告摘要中抽取预设特征并建立特征索引;
根据每两篇公告摘要的哈希值,采用余弦距离公式计算每两篇公告摘要的相似距离,得到每对摘要对的相似距离,其中,每对摘要对包括任意两篇公告摘要;
通过所述特征索引搜索出相似距离大于阈值的摘要对,并将该摘要对确定为相似摘要对;
判断所述相似摘要对中的预设特征是否相同;
当所述相似摘要对中的预设特征相同时,删除所述相似摘要对中的任意一条摘要。
3.如权利要求1所述的摘要生成方法,其特征在于,所述对去重处理后的每篇公告摘要进行预处理,得到每篇公告摘要的至少一个分词包括:
针对去重处理后的每篇公告摘要进行去噪处理,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设的自定义词典对所述第二文本进行切分,得到切分位置;
根据所述切分位置,构建至少一个有向无环图;
根据所述自定义词典中的权值计算每个有向无环图的概率;
将概率最大的有向无环图对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定至少一个特征词;
对所述至少一个特征词进行标准化处理,得到每篇公告摘要的至少一个分词。
4.如权利要求1所述的摘要生成方法,其特征在于,在将每篇公告摘要的至少一个分词输入至预先训练的参数抽取模型之前,所述摘要生成方法还包括:
采用网络爬虫技术获取至少一篇历史摘要;
对所述至少一篇历史摘要进行摘要类别标注,得到每篇历史摘要对应的摘要类别;
基于所述至少一篇历史摘要及对应的摘要类别构建数据集;
采用交叉验证法划分所述数据集,得到训练集及验证集;
对所述训练集及所述验证集中的每篇历史摘要进行分词处理,得到所述训练集中的至少一个特征及所述验证集中的至少一个特征;
将所述训练集中的至少一个特征输入到输入门层进行训练,得到学习器;
根据所述验证集中的至少一个特征,对所述学习器进行误差分析并调整,直至误差小于配置值时,得到所述参数抽取模型。
5.如权利要求4所述的摘要生成方法,其特征在于,所述基于所述至少一篇历史摘要及对应的摘要类别构建数据集之后,所述摘要生成方法还包括:
计算每一摘要类别对应的历史摘要的数量;
判断所述数量是否小于预设数量;
当所述数量小于所述预设数量时,通过扰动法增加与所述数量对应的历史摘要的数量。
6.如权利要求1所述的摘要生成方法,其特征在于,所述摘要模板库中记载至少一个摘要模板的模板信息,所述模板信息包括所述摘要模板、所述摘要模板的摘要类别、所述摘要模板对应的企业类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010244210.0/1.html,转载请声明来源钻瓜专利网。