[发明专利]文本处理的方法、装置、设备和存储介质有效
申请号: | 202010212928.1 | 申请日: | 2020-03-24 |
公开(公告)号: | CN113449511B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 王文华;吕中厚;刘焱 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06F40/211;G06F40/253 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
1.一种文本处理的方法,包括:
接收第一文本,所述第一文本包括一组词;
从所述第一文本的所述一组词中确定第一词,所述第一词在所述第一文本中的重要度超过阈值;以及
基于所述第一文本和与所述第一词相关联的第二词,来生成第二文本,所述第二文本的合理程度高于所述第一文本,所述合理程度指示文本的语义或语法的合理性;
其中确定所述第一词包括:确定所述第一文本中的所述一组词的重要度;以及基于所述重要度,从所述第一文本中确定所述第一词;
其中确定所述一组词的重要度包括:确定将所述第一文本应用于文本分析模型的第一结果;将所述一组词中的每个词替换为预定的词以生成第三文本;确定将所述第三文本应用于所述文本分析模型的第二结果;以及基于所述第一结果与所述第二结果的差异来确定所述重要度。
2.根据权利要求1所述的方法,其中确定所述一组词的重要度包括:
利用语言分析模型处理所述第一文本,以确定所述一组词出现于所述第一文本中的概率;以及
基于所述概率,确定所述一组词的所述重要度。
3.根据权利要求1所述的方法,其中确定所述一组词的重要度包括:
确定所述一组词在所述第一文本中的第一词频;
基于所述一组词在训练语料中的第二词频;以及
基于所述第一词频和所述第二词频,确定所述一组词的所述重要度,所述重要度与所述第一词频成正比并且与所述第二词频成反比。
4.根据权利要求1-3中任一项所述的方法,还包括:通过以下中的至少一项来确定所述第二词:
从所述第一词中删除特定字符;
调整所述第一词中汉字的顺序;
将所述第一词中的汉字替换为同音字;
将所述第一词中的拼音字符替换为汉字;
将所述第一词中的英文词替换为汉字;
将所述第一词中的繁体字替换为简体字;
将所述第一词中的网络词替换为对应的标准词;或者
将所述第一词中的汉字替换为形近字。
5.根据权利要求1-3中任一项所述的方法,还包括:
基于文本分析模型,获取与所述第二文本相关联的分析结果;以及
提供所述分析结果。
6.根据权利要求5所述的方法,其中获取所述分析结果包括:
从所述第二文本中确定第三词,所述第三词在所述第一文本中的重要度超过阈值;
基于所述第二文本和与所述第三词相关联的第四词,来生成第四文本;以及
将所述第四文本应用于所述文本分析模型,以得到所述分析结果。
7.一种文本处理的装置,包括:
接收模块,被配置为接收第一文本,所述第一文本包括一组词;
第一词确定模块,被配置为从所述第一文本的所述一组词中确定第一词,所述第一词在所述第一文本中的重要度超过阈值;以及
第二文本生成模块,被配置为基于所述第一文本和与所述第一词相关联的第二词,来生成第二文本,所述第二文本的合理程度高于所述第一文本,所述合理程度指示文本的语义或语法的合理性;
其中所述第一词确定模块包括:重要度确定模块,被配置为确定所述第一文本中的所述一组词的重要度;以及第一确定模块,被配置为基于所述重要度,从所述第一文本中确定所述第一词;
其中所述重要度确定模块包括:第一结果确定模块,被配置为确定将所述第一文本应用于文本分析模型的第一结果;替换模块,被配置为将所述一组词中的每个词替换为预定的词以生成第三文本;第二结果确定模块,被配置为确定将所述第三文本应用于所述文本分析模型的第二结果;以及第二确定模块,被配置为基于所述第一结果与所述第二结果的差异来确定所述重要度。
8.根据权利要求7所述的装置,其中所述重要度确定模块包括:
第一处理模块,被配置为利用语言分析模型处理所述第一文本,以确定所述一组词出现于所述第一文本中的概率;以及
第三确定模块,被配置为基于所述概率,确定所述一组词的所述重要度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212928.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于目标特征的时间序列相似性计算方法
- 下一篇:一种烘炉用烧嘴