[发明专利]文本数据管理方法、装置、电子设备及非易失性存储介质在审
申请号: | 202211318585.2 | 申请日: | 2022-10-26 |
公开(公告)号: | CN115495583A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 陈知生;陈迎昕 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
地址: | 100033*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据管理 方法 装置 电子设备 非易失性 存储 介质 | ||
1.一种文本数据管理方法,其特征在于,包括:
依据第一处理规则,清除待处理文本数据中的干扰数据,得到第一目标文本数据,其中,所述第一处理规则为目标对象设定的处理规则;
依据第二处理规则,清除所述第一目标文本数据中的所述干扰数据,得到第二目标文本数据,其中,所述第二处理规则为服务器推送的处理规则;
确定所述第二目标文本数据和第三目标文本数据的相似度信息,其中,所述第三目标文本数据为存储在目标文本数据库中的文本数据;
在所述第二目标文本数据和所述第三目标文本数据的相似度信息符合第一预设相似度要求的情况下,确定所述第二目标文本数据和所述第三目标文本数据对应同一目标词条。
2.根据权利要求1所述的文本数据管理方法,其特征在于,所述确定所述第二目标文本数据和第三目标文本数据的相似度信息包括:
将所述第二目标文本数据划分为多个第一子文本数据;
从所述第一子文本数据中确定被所述第三目标文本数据包含的第二子文本数据;
依据所述第二子文本数据的数量与所述第一子文本数据的数量的比值,确定所述相似度信息。
3.根据权利要求2所述的文本数据管理方法,其特征在于,所述第一预设相似度要求包括所述比值大于第一预设比值,并且所述第二子文本数据的数量大于第一预设数量。
4.根据权利要求1所述的文本数据管理方法,其特征在于,在不存在与所述第二目标文本数据的相似度信息符合所述预设要求的所述第三目标文本数据的情况下,所述文本数据管理方法还包括:
创建与所述第二目标文本数据对应的目标词条,其中,所述目标词条用于检索所述第二目标文本数据。
5.根据权利要求1所述的文本数据管理方法,其特征在于,所述依据第一处理规则,清除待处理文本数据中的干扰数据的步骤之前,所述文本数据管理方法还包括:
获取目标对象输入的处理规则文本数据;
对所述处理规则文本数据进行语义识别,生成所述第一处理规则;以及,
获取目标对象输入的正则表达式,并依据所述正则表达式生成所述第一处理规则。
6.根据权利要求1所述的文本数据管理方法,其特征在于,所述干扰数据包括以下至少之一:序号,标点符号,注释符号。
7.根据权利要求1所述的文本数据管理方法,其特征在于,所述文本数据管理方法还包括:
获取查询文本数据,其中,所述查询文本数据用于表征查询意图信息;
依据所述第一处理规则和所述第二处理规则,清理所述查询文本数据中的所述干扰数据,从而得到第四目标文本数据;
从所述目标数据库中确定与所述第四目标文本数据之间的相似度信息符合第二预设相似度要求的第五目标文本数据;
推送所述第五目标文本数据,以及所述第五目标数据对应的目标词条。
8.根据权利要求1所述的文本数据管理方法,其特征在于,所述文本数据管理方法还包括:
向目标服务器发送所述第一处理规则;
获取所述目标服务器依据所述第一处理规则确定的所述第二处理规则,其中,所述第二处理规则为使用频率大于第一预设频率阈值的所述第一处理规则。
9.一种文本数据管理方法,其特征在于,包括:
获取终端设备发送的第一处理规则,其中,所述第一处理规则为与待处理文本数据所属的技术领域对应的处理规则,用于清除所述待处理文本数据中的干扰数据;
确定所述终端设备发送的所述第一处理规则的使用频率;
在所述使用频率大于预设使用频率阈值的情况下,确定所述第一处理规则为第二处理规则;
向所述终端设备推送所述第二处理规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211318585.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种频率稳定度测量方法和系统
- 下一篇:一种新能源电力储存机箱用换热控温组件