[发明专利]动态摘要确定方法和装置、计算设备以及计算机存储介质在审
申请号: | 202110577211.1 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113761125A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/194;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘靖龙;陈岚 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 摘要 确定 方法 装置 计算 设备 以及 计算机 存储 介质 | ||
1.一种动态摘要确定方法,包括:
获取基于搜索内容搜索到的当前文档,所述当前文档包括标题部分和正文部分;
提取所述搜索内容中的多个关键词;
从所述多个关键词中筛选未包括在所述当前文档的标题部分的关键词作为第一关键词集合;
对当前文档的正文部分的每个句子提取关键词,以对应地形成针对每个句子的第二关键词集合;
遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度;
响应于所述相似度大于相似度阈值,基于所述遍历到的句子确定针对当前文档的动态摘要中的一部分。
2.根据权利要求1所述的方法,其中遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,包括:
确定所述第一关键词集合中各关键词的词向量;
基于所述第一关键词集合中各关键词的词向量,确定所述第一关键词集合的第一特征向量;
确定所遍历到的句子的第二关键词集合中各关键词的词向量;
基于所述第二关键词集合中各关键词的词向量,确定所述第二关键词集合的第二特征向量;
基于所述第一特征向量和第二特征向量,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度。
3.根据权利要求2所述的方法,其中基于所述第一关键词集合中各关键词的词向量,确定所述第一关键词集合的第一特征向量,包括:
对所述第一关键词集合中各关键词的词向量进行按位累加,得到所述第一关键词集合的第一特征向量,
以及其中,基于所述第二关键词集合中各关键词的词向量,确定所述第二关键词集合的第二特征向量,包括:
对所述第二关键词集合中各关键词的词向量进行按位累加,得到所述第二关键词集合的第二特征向量。
4.根据权利要求2所述的方法,其中基于所述第一特征向量和第二特征向量,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,包括:
基于所述第一特征向量和第二特征向量间的距离,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,其中所述距离包括余弦距离、欧式距离、曼哈顿距离中的一种。
5.根据权利要求1所述的方法,其中遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,包括:
遍历所述正文部分中的句子,并且在动态摘要的当前字数小于字数阈值时,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度。
6.根据权利要求1所述的方法,其中响应于所述相似度大于相似度阈值,基于所述遍历到的句子确定针对当前文档的动态摘要中的一部分,包括:
响应于所述相似度大于相似度阈值、并且所述遍历到的句子与动态摘要的当前字数的和大于字数阈值,将所述遍历到的句子的一部分确定为针对当前文档的动态摘要中的一部分,使得所述遍历到的句子的所述部分的字数与动态摘要的当前字数的和等于所述字数阈值。
7.根据权利要求1所述的方法,其中提取所述搜索内容中的多个关键词,包括:
对所述搜索内容进行分词,以得到包括多个词的第一分词集合;
从所述第一分词集合中的多个词中去除停用词,以得到第二分词集合;
确定第二分词集合中每个词的词权重;
从所述第二分词集合中去除词权重小于词权重阈值的词,以得到所述搜索内容中的多个关键词。
8.根据权利要求7所述的方法,其中确定第二分词集合中每个词的词权重,包括:
确定第二分词集合中每个词的逆文档频率值;
将第二分词集合中每个词的逆文档频率值确定为该词的词权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110577211.1/1.html,转载请声明来源钻瓜专利网。