[发明专利]文本质量评估方法、文本推荐方法及装置、介质及设备在审
申请号: | 202010099062.8 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111339765A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 廖东亮;黎功福;黄申;徐进 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 质量 评估 方法 推荐 装置 介质 设备 | ||
1.一种文本质量评估方法,其特征在于,包括:
获取文本数据,对所述文本数据进行拆分得到文本单元;
对所述文本单元进行重组,以获取所述文本数据对应的文本结构树;
基于所述文本单元和所述文本结构树对所述文本数据进行质量评估,以获取对应的评估结果。
2.根据权利要求1所述的评估方法,其特征在于,所述基于所述文本单元和所述文本结构树对所述文本数据进行质量评估,以获取对应的评估结果,包括:
对所述文本单元进行编码,得到各所述文本单元对应的第一单元表示向量;
将所述第一单元表示向量和所述文本结构树输入预先训练的双向递归神经网络进行处理,得到所述文本数据对应的评估结果。
3.根据权利要求2所述的评估方法,其特征在于,所述双向递归神经网络的处理包括:
基于所述文本结构树对所述第一单元表示向量进行双向递归处理,以获取第一文章表示向量和第二文章表示向量;
基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量;
根据所述最终表示向量确定所述文本数据对应的评估结果。
4.根据权利要求3所述的评估方法,其特征在于,所述基于所述文本结构树对所述第一单元表示向量进行双向递归处理,以获取第一文章表示向量和第二文章表示向量,包括:
以所述文本结构树的叶子节点开始,将所述叶子节点中包含的文本单元对应的第一单元表示向量向根节点方向进行逐层汇集计算,以获取所述文本结构树的根节点对应的第一文章表示向量;
以所述根节点为起点,将所述第一文章表示向量向所述叶子节点方向进行反向传递,并进行更新计算以获取各所述叶子节点对应的第二单元表示向量;
对所有叶子节点对应的所述第二单元表示向量进行整合,以生成第二文章表示向量。
5.根据权利要求4所述的评估方法,其特征在于,所述对所有叶子节点对应的所述第二单元表示向量进行整合,以生成第二文章表示向量,包括:
根据预先训练的注意力机制计算各所述第二单元表示向量对应的权重,并根据所述权重对所述第二单元向量进行整合,以生成所述第二文章表示向量。
6.根据权利要求3所述的评估方法,其特征在于,所述基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量,包括:
对所述第一文章表示向量与所述第二文章表示向量进行拼接处理,得到所述文本数据对应的最终表示向量。
7.根据权利要求2所述的评估方法,其特征在于,所述对所述文本单元进行编码,得到各所述文本单元对应的第一单元表示向量,包括:
通过预设词表将所述文本单元中的每个字映射为所述字对应的字符串,并根据所述字对应的字符串生成所述文本单元对应的字符串;
将每个所述文本单元对应的字符串输入预先训练的编码模型中,以获取各所述文本单元对应的第一单元表示向量。
8.根据权利要求1所述的评估方法,其特征在于,所述对所述文本单元进行重组,以获取所述文本数据对应的文本结构树,包括:
将所述文本单元输入预先训练的结构树模型,得到所述文本数据对应的文本结构树。
9.根据权利要求1所述的评估方法,其特征在于,所述评估结果包括评估分类或评估评分。
10.根据权利要求1所述的评估方法,其特征在于,在对所述文本数据进行拆分得到文本单元之前,所述方法还包括:
对所述文本数据进行预处理,以获取处理后的文本数据;
其中,所述预处理包括以下至少一种或多种的组合:
清除所述文本数据中的格式符号;
清楚所述文本数据中的无效字符;
根据预设替换规则对所述文本数据中的非自然语言数据进行替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099062.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金融市场参数管控方法及装置
- 下一篇:用于输出信息的方法和装置