[发明专利]一种目标对象的摘要生成方法和装置在审
| 申请号: | 202010161869.X | 申请日: | 2020-03-10 |
| 公开(公告)号: | CN113377949A | 公开(公告)日: | 2021-09-10 |
| 发明(设计)人: | 薛悦 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/211;G06F40/289;G06K9/62 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李阳;赵迪 |
| 地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目标 对象 摘要 生成 方法 装置 | ||
本发明公开了一种目标对象的摘要生成方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,以对关键句进行聚类,得到目标对象维度下的基础分类;计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,以对第一分类组进行聚类,得到目标区域维度下的最终分类;计算最终分类所包含的第二分类组对于总体分类的逆文档频率,以根据逆文档频率和设定权重,计算第二分类组的分值,根据分值从最终分类中选取关键句作为目标对象的摘要。该实施方式减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点。
技术领域
本发明涉及计算机技术领域,尤其涉及一种目标对象的摘要生成方法和装置。
背景技术
为了让用户快速全面的获取目标对象的特点以及相关信息,互联网网站通常会对目标对象添加文字描述信息,以向用户展示目标对象。本申请中将这一文字描述信息称为摘要。现有技术中摘要生成的方式一般使用TextRank算法对目标对象的简介进行摘要提取,或者通过将用户对目标对象的评论数据进行拆分,统计出现频率高的句子,之后将出现频率高的句子进行拼装得到。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
上述方式生成的摘要,过于死板,句子同质化问题严重,无法控制句子长度,而且会提取出一些非常主观或者包含特定词的句子。
发明内容
有鉴于此,本发明实施例提供一种目标对象的摘要生成方法和装置,先在目标对象维度下对关键句进行初次聚类,之后在目标区域维度下对初次聚类结果进行二次聚类,并结合逆文档频率选取合适的关键句作为摘要,减少了重复句子的出现,生成了高质量、有差异的摘要,更好地突出了目标对象的特点。
为实现上述目的,根据本发明实施例的一个方面,提供了一种目标对象的摘要生成方法。
本发明实施例的一种目标对象的摘要生成方法,包括:提取目标区域内多个目标对象的评论数据的关键句,计算归属于同一目标对象的关键句之间的相似度,得到第一相似度,根据所述第一相似度对所述关键句进行聚类,得到目标对象维度下的基础分类;计算归属于不同目标对象的基础分类所包含第一分类组之间的相似度,得到第二相似度,根据所述第二相似度对所述第一分类组进行聚类,得到目标区域维度下的最终分类;计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,根据所述分值从所述最终分类中选取关键句作为所述目标对象的摘要。
可选地,计算所述最终分类所包含的第二分类组对于总体分类的逆文档频率,包括:统计所述基础分类中所包含的第一分类组的数量之和,得到全部分类组的数量;统计所述第二分类组中所有关键句的出现次数之和,得到所述第二分类组的出现次数;以所述全部分类组的数量为分子,所述第二分类组的出现次数加1为分母进行对数运算,得到逆文档频率。
可选地,根据所述逆文档频率和设定权重,计算所述第二分类组的分值,包括:按照设定权重,将所述逆文档频率和所述第二分类组的出现次数加权相加,得到所述第二分类组的分值。
可选地,根据所述分值从所述最终分类中选取关键句,包括:按照所述分值大小,对所述最终分类所包含的第二分类组进行倒序排序,以选取出前K个第二分类组;其中,K为正整数;按照所述第二分类组中关键句的出现次数,对归属于所述前K个第二分类组的关键句分别进行排序,分别选取所述前K个第二分类组中出现次数最多的关键句。
可选地,提取目标区域内多个目标对象的评论数据的关键句,包括:将所述评论数据所包含的每个句子分别看作一个节点,计算所述节点之间的相似性,根据所述相似性,构建节点连接图;根据所述节点连接图和所述相似性,迭代计算所述节点的权重,直至所述权重收敛,选取收敛时权重最高的节点对应的句子作为关键句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010161869.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内存存储装置及数据访问方法
- 下一篇:监控设备、方法和智能家居系统





