[发明专利]一种目标内容的抽取方法及相关设备在审
申请号: | 201910716302.1 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110427482A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 童国烽;譚翊章 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标内容 训练信息 粗提 精彩片段 训练模型 训练文本 抽取 模型确定 训练数据 自动抽取 长文本 文本 书籍 | ||
1.一种目标内容的抽取方法,其特征在于,所述方法包括:
获取第一训练文本,所述第一训练文本为文本长度超过预设阈值的长文本;
确定所述第一训练文本的训练信息,所述训练信息包括所述第一训练文本中的多个段落、所述第一训练文本的类型信息以及所述第一训练文本的读者的行为特征;
根据所述行为特征,确定所述多个段落中每个段落的精彩片段;
将所述类型信息、所述多个段落和所述精彩片段输入第一待训练模型进行训练,得到摘要粗提模型;
根据所述摘要粗提模型,确定待处理文本的目标内容。
2.如权利要求1所述的方法,其特征在于,所述根据所述摘要粗提模型,确定待处理文本的目标内容包括:
根据所述摘要粗提模型,确定第二待训练模型的训练数据;
将所述训练数据输入第二待训练模型进行训练,得到摘要精排模型;
根据所述摘要粗提模型和所述摘要精排模型,确定所述目标内容。
3.如权利要求2所述的方法,其特征在于,所述根据所述摘要粗提模型和所述摘要精排模型,确定所述目标内容包括:
将所述待处理文本输入所述摘要粗提模型,得到多个候选精彩片段;
根据所述摘要精排模型,确定所述多个候选精彩片段中每个候选精彩片段的精彩程度排名;
根据所述精彩程度排名,确定所述多个候选精彩片段中的目标精彩片段,所述目标内容包括所述目标精彩片段。
4.如权利要求2所述的方法,其特征在于,所述行为特征包括读者评论数或读者划线数;
所述根据所述摘要粗提模型,确定第二待训练模型的训练数据包括:
获取第二训练文本,所述第二训练文本为文本长度超过所述预设阈值的长文本;
根据所述摘要粗提模型,确定所述第二训练文本中的多个精彩片段;
将所述多个精彩片段进行两两组合得到所述训练数据;
所述将所述训练数据输入第二待训练模型进行训练,得到摘要精排模型包括:
根据所述训练数据所包含的两个精彩片段的读者划线数或读者评论数,确定所述训练数据的分类标签;
将所述训练数据和所述分类标签输入所述第二待训练模型进行训练,得到所述摘要精排模型。
5.如权利要求3所述的方法,其特征在于,所述待处理文本包括多个章节;
所述根据所述摘要精排模型,确定所述多个候选精彩片段中每个候选精彩片段的精彩程度排名包括:
确定所述多个章节中每个章节对应的读者划线数或读者评论数;
根据所述每个章节对应的读者划线数或读者评论数,确定排序阈值,所述排序阈值包括置信度阈值和分档阈值;
根据所述排序阈值和所述摘要精排模型,确定所述精彩程度排名。
6.如权利要求5所述的方法,其特征在于,所述根据所述排序阈值和所述摘要精排模型,确定所述精彩程度排名包括:
根据所述置信度阈值、以及所述每个候选精彩片段的读者评论数或读者划线数,对所述多个候选精彩片段进行分类,得到可信精彩片段和不可信精彩片段;
按照所述分档阈值确定所述可信精彩片段的热门档次,并根据所述热门档次和所述摘要精排模型确定所述可信精彩片段的精彩程度排名;以及
确定所述不可信精彩片段在每个热门档次对应的至少一个可信精彩片段中的精彩程度预测排名,并根据所述精彩程度预测排名确定所述不可信精彩片段的精彩程度排名。
7.如权利要求6所述的方法,其特征在于,所述根据所述精彩程度预测排名,确定所述不可信精彩片段的精彩程度排名包括:
确定多个热门档次对应的精彩程度预测排名的平均排名;
根据所述平均排名,确定所述不可信片段的精彩程度排名。
8.如权利要求6所述的方法,其特征在于,所述根据所述热门档次和所述摘要精排模型确定所述可信精彩片段的精彩程度排名包括:
确定所述热门档次高的可信精彩片段的精彩程度排名高于所述热门档次低的可信精彩片段;以及
根据所述摘要精排模型,确定所述热门档次相同的可信精彩片段之间的精彩程度排名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910716302.1/1.html,转载请声明来源钻瓜专利网。