[发明专利]基于相似度的标题生成模型的训练方法及计算设备在审
申请号: | 201911159176.0 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110968666A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 柳燕煌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/258 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似 标题 生成 模型 训练 方法 计算 设备 | ||
本发明公开了一种基于相似度的标题生成模型的训练方法及计算设备,该方法包括:从文章集合提取各个文章内容对应的标题;针对文章集合中的每个文章内容,对文章内容的全文以及文章内容的各个组成语句进行特征提取,得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量;计算第一特征向量与各个第二特征向量之间的相似度;根据相似度从各个组成语句中提取词语,构建对应的词语样本集合;根据各个文章内容对应的词语样本集合以及各个文章内容对应的标题,训练得到标题生成模型。该方案依据文章内容的特征向量以及各个组成语句对应的特征向量之间的相似度便捷地构建词语样本集合,所得到的标题生成模型能够快速地生成文章的标题。
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于相似度的标题生成模型的训练方法、计算设备及存储介质。
背景技术
随着互联网技术的不断发展,越来越多的用户喜欢通过互联网阅读新闻、电子书等文章。对于文章来说,其标题十分重要,一个优质的标题既能够充分反映文章的主要内容,又能够提高用户阅读的兴趣。在现有技术中,对于文章标题的确定,大多是通过文章处理人员对文章内容进行阅读与总结的方式来确定的。以文章为电子书为例,一个电子书阅读平台中一般会存储有几十万本甚至数量更多的电子书,若依据现有的这种处理方式来确定每本电子书的标题,则需要耗费大量的人力成本和时间成本,存在着处理效率较低的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于相似度的标题生成模型的训练方法、计算设备及存储介质。
根据本发明的一个方面,提供了一种基于相似度的标题生成模型的训练方法,包括:从文章集合中提取各个文章内容对应的标题;针对文章集合中的每个文章内容,对文章内容的全文以及文章内容的各个组成语句进行特征提取,得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量;计算第一特征向量与各个第二特征向量之间的相似度;根据第一特征向量与各个第二特征向量之间的相似度,从第二特征向量对应的各个组成语句中提取词语,构建文章内容对应的词语样本集合;根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题,训练得到标题生成模型。
根据本发明的另一个方面,提供了一种基于相似度的标题生成方法,包括:获取待处理文章内容以及待处理文章内容的各个组成语句;对待处理文章内容的全文以及待处理文章内容的各个组成语句进行特征提取,得到待处理文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量;计算第一特征向量与各个第二特征向量之间的相似度;根据第一特征向量与各个第二特征向量之间的相似度,从第二特征向量对应的各个组成语句中提取词语,构建待处理文章内容对应的词语集合;将词语集合中的词语输入至经过训练的标题生成模型中,将标题生成模型的输出结果作为待处理文章的标题。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:从文章集合中提取各个文章内容对应的标题;针对文章集合中的每个文章内容,对文章内容的全文以及文章内容的各个组成语句进行特征提取,得到文章内容的全文的第一特征向量以及各个组成语句对应的第二特征向量;计算第一特征向量与各个第二特征向量之间的相似度;根据第一特征向量与各个第二特征向量之间的相似度,从第二特征向量对应的各个组成语句中提取词语,构建文章内容对应的词语样本集合;根据各个文章内容对应的词语样本集合中的词语样本以及各个文章内容对应的标题,训练得到标题生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911159176.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通信方法、装置、系统、电子设备及可读存储介质
- 下一篇:一种人体姿态估计方法