[发明专利]动态摘要确定方法和装置、计算设备以及计算机存储介质在审
申请号: | 202110577211.1 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113761125A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/194;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘靖龙;陈岚 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 摘要 确定 方法 装置 计算 设备 以及 计算机 存储 介质 | ||
本申请提出了一种动态摘要确定方法和装置、计算设备以及计算机存储介质,所述方法包括:获取基于搜索内容搜索到的当前文档,所述当前文档包括标题部分和正文部分;提取所述搜索内容中的多个关键词;从所述多个关键词中筛选未包括在所述当前文档的标题部分的关键词作为第一关键词集合;对当前文档的正文部分的每个句子提取关键词,以对应地形成针对每个句子的第二关键词集合;遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度;响应于所述相似度大于相似度阈值,基于所述遍历到的句子确定针对当前文档的动态摘要中的一部分。
技术领域
本公开涉及自然语言处理的技术领域,尤其涉及动态摘要确定方法和装置、计算设备以及计算机存储介质。
背景技术
随着计算机技术的发展,动态摘要被广泛使用,例如广泛使用在搜索结果概要显示、文档关键语句标记和搜索内容相关内容展示等领域。作为示例,针对不同的搜索内容,同一文档可以具有不同的动态摘要。目前,在常规的动态摘要确定方法中,通常根据文档中各语句所包含的搜索内容的关键词的数目来确定文档中哪些句子应当作为该文档的动态摘要。
然而,常规的动态摘要确定方法所确定的动态摘要中,经常出现搜索内容中的某些关键词在文档标题和动态摘要中反复出现,但搜索内容中的另一些关键词在文档标题和动态摘要中均未出现,这使得所确定的动态摘要不够准确,并且因此不足以呈现与搜索内容整体相关的信息,甚至看起来与搜索内容所表达的真实查询意图相去甚远。
发明内容
有鉴于此,本公开提供了动态摘要确定方法和装置、计算设备以及计算机存储介质,期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。
根据本公开的第一方面,提供了一种动态摘要确定方法,包括:获取基于搜索内容搜索到的当前文档,所述当前文档包括标题部分和正文部分;提取所述搜索内容中的多个关键词;从所述多个关键词中筛选未包括在所述当前文档的标题部分的关键词作为第一关键词集合;对当前文档的正文部分的每个句子提取关键词,以对应地形成针对每个句子的第二关键词集合;遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度;响应于所述相似度大于相似度阈值,基于所述遍历到的句子确定针对当前文档的动态摘要中的一部分。
在一些实施例中,遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,包括:确定所述第一关键词集合中各关键词的词向量;基于所述第一关键词集合中各关键词的词向量,确定所述第一关键词集合的第一特征向量;确定所遍历到的句子的第二关键词集合中各关键词的词向量;基于所述第二关键词集合中各关键词的词向量,确定所述第二关键词集合的第二特征向量;基于所述第一特征向量和第二特征向量,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度。
在一些实施例中,基于所述第一关键词集合中各关键词的词向量,确定所述第一关键词集合的第一特征向量,包括:对所述第一关键词集合中各关键词的词向量进行按位累加,得到所述第一关键词集合的第一特征向量,以及基于所述第二关键词集合中各关键词的词向量,确定所述第二关键词集合的第二特征向量,包括:对所述第二关键词集合中各关键词的词向量进行按位累加,得到所述第二关键词集合的第二特征向量。
在一些实施例中,基于所述第一特征向量和第二特征向量,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,包括:基于所述第一特征向量和第二特征向量间的距离,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,其中所述距离包括余弦距离、欧式距离、曼哈顿距离中的一种。
在一些实施例中,遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度,包括:遍历所述正文部分中的句子,并且在动态摘要的当前字数小于字数阈值时,确定所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110577211.1/2.html,转载请声明来源钻瓜专利网。