[发明专利]文本质量评估方法、文本推荐方法及装置、介质及设备在审
申请号: | 202010099062.8 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111339765A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 廖东亮;黎功福;黄申;徐进 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 质量 评估 方法 推荐 装置 介质 设备 | ||
本公开提供一种文本质量评估方法、文本质量评估装置、文本推荐方法、文本推荐装置、电子设备以及计算机可读存储介质;涉及数据处理技术领域。所述文本质量评估方法包括:获取文本数据,对所述文本数据进行拆分得到文本单元;对所述文本单元进行重组,以获取所述文本数据对应的文本结构树;基于所述文本单元和所述文本结构树对所述文本数据进行质量评估,以获取对应的评估结果。本公开在对文本数据进行评估时,可以在考虑文本语义的同时,兼顾文本中各文本单元之间的逻辑关系以及文本的组织架构,得到的评估结果准确、全面。
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种文本质量评估方法、文本质量评估装置、文本推荐方法、文本推荐装置、电子设备以及计算机可读存储介质。
背景技术
在各类多媒体文件推荐的应用程序中,识别和筛选高质量的多媒体文件是提升用户体验的一种重要手段。其中,在对新闻、短文等文章的推荐过程中,为了对文章的质量进行控制,通常会对文章所包含的文本数据进行质量评估,以便确定质量较好的文章进行推荐。
传统的质量评估通常采用以下两种方法:一是基于语言学特征工程的方法,根据人工抽取的词袋特征、N-gram特征等特征,使用传统的机器学习技术对特征进行评估,进而得到文章的质量评估结果;二是基于深度学习的方法,针对文章中的每个句子进行处理,进而得到文章的质量评估结果。
然而,上述两种方法中,第一种方法不仅依赖于特征选择的好坏,同时还会受到机器学习模型的复杂度的限制,因此得到的评估结果不够准确;而第二种方法虽然关注了文章的语义内容,也考虑了句子到文章的层次结构,但是并没考虑到文章中各句子、短语之间的逻辑性以及文章整体的组织结构,因此得到的评估结果并不全面。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本质量评估方法、文本质量评估装置、文本推荐方法、文本推荐装置、电子设备以及计算机可读存储介质,进而在一定程度上克服相关技术中没有考虑文章中各句子、短语之间的逻辑性以及文章整体的组织结构造成的评估结果不全面的问题。
根据本公开的第一方面,提供一种文本质量评估方法,包括:
获取文本数据,对所述文本数据进行拆分得到文本单元;
对所述文本单元进行重组,以获取所述文本数据对应的文本结构树;
基于所述文本单元和所述文本结构树对所述文本数据进行质量评估,以获取对应的评估结果。
可选的,所述基于所述文本单元和所述文本结构树对所述文本数据进行质量评估,以获取对应的评估结果,包括:
对所述文本单元进行编码,得到各所述文本单元对应的第一单元表示向量;
将所述第一单元表示向量和所述文本结构树输入预先训练的双向递归神经网络进行处理,得到所述文本数据对应的评估结果。
可选的,所述双向递归神经网络的处理包括:
基于所述文本结构树对所述第一单元表示向量进行双向递归处理,以获取第一文章表示向量和第二文章表示向量;
基于所述第一文章表示向量和所述第二文章表示向量生成所述文本数据对应的最终表示向量;
根据所述最终表示向量确定所述文本数据对应的评估结果。
可选的,所述基于所述文本结构树对所述第一单元表示向量进行双向递归处理,以获取第一文章表示向量和第二文章表示向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010099062.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金融市场参数管控方法及装置
- 下一篇:用于输出信息的方法和装置